AI 加速服务(Artificial Intelligence Acceleration Service,TI-ACC)为企业提供 AI 模型训练、推理加速服务,支持多种框架和场景,显著提高模型训练推理效率,降低用户成本。
功能介绍
TI-ACC 推理加速
TI-ACC 推理加速在推荐、CV、NLP 等模型推理场景中,实现计算优化、低精度加速、内存优化等能力。能力通过统一的加速库和优化函数的形式提供,用户仅需通过一个函数即可进行推理加速优化,函数支持多种模型输入格式、多种优化级别、固定&动态输入维度、自定义算子、自定义测试数据输出测试报告以及对模型进行保存输出,并很好的兼容原生 PyTorch、TensorFlow 框架,无需进行模型转换,可帮助用户降低使用模型推理的门槛,显著节省训练时间和计算成本。
TI-ACC 训练加速
TI-ACC 训练加速在推荐、CV、NLP 等模型训练场景中,实现数据 IO 优化、计算加速、通信加速、并行训练、显存优化等能力。能力通过统一的加速库以及简单易用的函数/类的形式提供,并很好的兼容原生 PyTorch、TensorFlow 框架和 DDP、PS 工具,可帮助用户降低使用模型训练的门槛,显著节省训练时间和计算成本。
具备优势
性能优越
基于业界领先的 AI 加速技术,提供高性能模型训练、推理加速服务,可显著提升性能,经微信刷脸支付、手 Q、微视等多个项目验证。您可通过下列实测数据,了解 TI-ACC 提升性能的能力。
推理加速实测数据
展开&收起硬件环境:GPU 实例 GN7.2XLARGE32
模型 | batch | torchscript(ms) | TI-ACC(ms) | 加速比 |
---|---|---|---|---|
resnet50 (torchvision) 224x224 | 1 | 5.4622 | 1.1482 | 4.8x |
8 | 27.062 | 4.5707 | 5.9x | |
resnest50 (mmcls) 224x224 | 1 | 7.7667 | 4.3958 | 1.8x |
8 | 36.806 | 14.1152 | 2.6x | |
centernet 640x640 | 1 | 20.9992 | 4.7775 | 4.4x |
8 | 170.5488 | 34.3523 | 5.0x | |
yolov3 (ultralytics) 640x640 | 1 | 47.19 | 10.3671 | 4.5x |
8 | 302.983 | 82.6971 | 3.7x | |
Cascade Mask R-CNN (mmdet) 2016x3008 | 1 | 600.0671 | 165.8467 | 3.6x |
Faster R-CNN (mmdet) 1088x800 | 1 | 107.3483 | 35.5021 | 3.0x |
Vision Transformer 224x224 | 8 | 28.887 | 10.53 | 2.7x |
Wide & Deep (NVIDIA DeepLearningExamples) | 512 | 15.7 | 4.436 | 3.5x |
DeepFM (NVIDIA DeepLearningExamples) | 512 | 12.91 | 4.51 | 2.9x |
训练加速-DDP 通信优化实测效果
展开&收起硬件环境:GPU 实例 GN10Xp.20XLARGE320
模型 | GPU 卡数 | 原生 DDP (examples/sec per V100) | TI-ACC 通信优化 (examples/sec per V100) |
---|---|---|---|
resnext50_32x4d | 1(单机) | 227 | 227 |
8(单机) | 215 | 215 | |
16(双机) | 116 | 158.6 |
训练加速-数据 IO 优化实测效果
展开&收起硬件环境:GPU 实例 GN10Xp.20XLARGE320
模型 | GPU 卡数 | 原生 PyTorch (examples/sec per V100) | TI-ACC 数据 IO 优化 (examples/sec per V100) |
---|---|---|---|
resnet50 mmcls | 8(单机) | 70.8 | 350.5 |
centernet mmdet | 8(单机) | 26.4 | 28.6 |
训练加速-自适应混合精度优化实测效果
展开&收起硬件环境:GPU 实例 GN10Xp.20XLARGE320
模型 | GPU 卡数 | 原生 PyTorch (examples/sec per V100) | TI-ACC 数据 IO 优化 (examples/sec per V100) | TI-ACC 数据 IO+自适应混合精度优化 (examples/sec per V100) |
---|---|---|---|---|
resnet50 mmcls | 8(单机) | 70.8 | 350.5 | 379.2 |
centernet mmdet | 8(单机) | 26.4 | 28.6 | 30.6 |
功能丰富
- 推理加速底层通过接口支持多种模型输入格式、多种优化级别、固定及动态输入维度、自定义测试数据输出测试报告以及对模型进行保存输出等功能。
- 训练加速底层通过接口提供数据 IO 优化、自适应 FP16、通信加速等功能。
接入便捷
推理加速和训练加速已支持原生的 Pytorch 框架,后续支持 TensorFlow 等框架,用户可直接在原生框架下使用 TI-ACC 的加速能力,无需进行额外的模型格式转换等适配工作。
- 推理加速整体能力通过一个函数提供,用户可通过该函数使用推理加速的所有能力。
- 训练加速中的通信加速能力由兼容原生的 DDP 工具提供,使用户无需修改原生的使用代码即可直接使用。数据 IO 优化、自适应 FP16均通过封装好的简单函数/类进行提供,仅需增加几行代码便可使用。
技术强大
- 推理加速底层提供计算优化、低精度加速、内存优化等能力。技术架构图如下所示:
- 训练加速底层提供数据 IO 优化、计算优化、通信加速、并行训练、显存优化等能力。技术架构图如下所示:
开始使用
在推荐、CV、NLP 等模型训练和推理场景中,都可以使用 TI-ACC 的推理和训练加速能力。目前通过容器方式提供给用户使用,具体使用方式请参见 推理加速部署及实践 及 训练加速部署及实践。