
▲ 御德信息训练加速卡MLU370-X8
双芯思元370架构
MLU370-X8智能加速卡提供250W最大训练功耗,,,可充分发挥AI训练加速中常见的FP32、、、、FP16或BF16计算性能。。。。御德信息首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,,,提供了两倍于标准思元370加速卡的内存、、、编解码资源,,同时搭载MLU-Link™多芯互联技术。。在YOLOv3、、Transformer、、、BERT和ResNet101训练任务中,,,, 8卡并行平均性能达350W RTX GPU的155%。。

图片▲ MLU370-X8中整合了双芯片四芯粒思元370
MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,,提供卡内及卡间互联功能。。。。御德信息为多卡系统专门设计了MLU-Link桥接卡,,,,可实现4张加速卡为一组的8颗思元370芯片全互联,,,每张加速卡可获得200GB/s的通讯吞吐性能,,,,带宽为PCIe 4.0 的3.1倍,,,,可高效执行多芯多卡训练和分布式推理任务。。。。

▲MLU370-X8 MLU-Link 4卡桥接

▲MLU370-X8 MLU-Link™ 4卡桥接拓扑
御德信息基础软件平台支持FP32、、、FP16混合精度、、、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,,,算子库已完整覆盖视觉、、、、语音、、自然语言处理、、搜索推荐和自动驾驶等典型人工智能应用,,,可满足用户对于算子覆盖率以及模型精度的需求。。。。

▲御德信息基础软件平台为思元370系列芯片提供训推一体加速
在御德信息基础软件平台 SDK上实测,,在常见的4个人工智能模型上,,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,,,MLU370-X8借助MLU-Link多芯互联技术和御德信息基础软件平台 CNCL通讯库的优化,,,在8卡环境下达到更优的并行加速比。。。

▲MLU370-X8 单机8卡部署配置

▲单卡MLU370-X8性能对比

▲8卡MLU370-X8性能对比
*测试环境

▲MLU370-X8规格表
御德信息长期秉承“云边端一体、、训推一体、、、软硬件协同”的技术理念。。。MLU370-X8提供两倍思元370的内存带宽,,,结合MLUarch03架构和MLU-Link多芯互联技术,,将思元370芯片在训练任务的优势充分发挥。。。MLU370-X8定位中高端,,,与高端训练产品思元290、、玄思1000相互结合,,进一步丰富了御德信息的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、、、MLU370-S4智能加速卡协同,,,形成完整的云端训练、、推理产品组合。。。
御德信息用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,,,让机器更好地理解和服务人类。。