概述

最近更新时间:2022-01-27 16:26:05

AI 加速服务(Artificial Intelligence Acceleration Service,TI-ACC)为企业提供 AI 模型训练、推理加速服务,支持多种框架和场景,显著提高模型训练推理效率,降低用户成本。

功能介绍

TI-ACC 推理加速

TI-ACC 推理加速在推荐、CV、NLP 等模型推理场景中,实现计算优化、低精度加速、内存优化等能力。能力通过统一的加速库和优化函数的形式提供,用户仅需通过一个函数即可进行推理加速优化,函数支持多种模型输入格式、多种优化级别、固定&动态输入维度、自定义算子、自定义测试数据输出测试报告以及对模型进行保存输出,并很好的兼容原生 PyTorch、TensorFlow 框架,无需进行模型转换,可帮助用户降低使用模型推理的门槛,显著节省训练时间和计算成本。

TI-ACC 训练加速

TI-ACC 训练加速在推荐、CV、NLP 等模型训练场景中,实现数据 IO 优化、计算加速、通信加速、并行训练、显存优化等能力。能力通过统一的加速库以及简单易用的函数/类的形式提供,并很好的兼容原生 PyTorch、TensorFlow 框架和 DDP、PS 工具,可帮助用户降低使用模型训练的门槛,显著节省训练时间和计算成本。

具备优势

性能优越

基于业界领先的 AI 加速技术,提供高性能模型训练、推理加速服务,可显著提升性能,经微信刷脸支付、手 Q、微视等多个项目验证。您可通过下列实测数据,了解 TI-ACC 提升性能的能力。

推理加速实测数据

展开&收起

硬件环境:GPU 实例 GN7.2XLARGE32

模型batchtorchscript(ms)TI-ACC(ms)加速比
resnet50
(torchvision)
224x224
15.46221.14824.8x
827.062 4.57075.9x
resnest50
(mmcls)
224x224
17.76674.39581.8x
836.80614.11522.6x
centernet
640x640
120.99924.77754.4x
8170.548834.35235.0x
yolov3
(ultralytics)
640x640
147.1910.36714.5x
8302.98382.69713.7x
Cascade Mask R-CNN
(mmdet)
2016x3008
1600.0671165.84673.6x
Faster R-CNN
(mmdet)
1088x800
1107.348335.50213.0x
Vision Transformer
224x224
828.88710.532.7x
Wide & Deep
(NVIDIA DeepLearningExamples)
51215.74.4363.5x
DeepFM
(NVIDIA DeepLearningExamples)
51212.914.512.9x

训练加速-DDP 通信优化实测效果

展开&收起

硬件环境:GPU 实例 GN10Xp.20XLARGE320

模型GPU 卡数原生 DDP
(examples/sec per V100)
TI-ACC 通信优化
(examples/sec per V100)
resnext50_32x4d1(单机)227227
8(单机)215 215
16(双机)116158.6

训练加速-数据 IO 优化实测效果

展开&收起

硬件环境:GPU 实例 GN10Xp.20XLARGE320

模型GPU 卡数原生 PyTorch
(examples/sec per V100)
TI-ACC 数据 IO 优化
(examples/sec per V100)
resnet50 mmcls8(单机)70.8350.5
centernet mmdet8(单机)26.428.6

训练加速-自适应混合精度优化实测效果

展开&收起

硬件环境:GPU 实例 GN10Xp.20XLARGE320

模型GPU 卡数原生 PyTorch
(examples/sec per V100)
TI-ACC 数据 IO 优化
(examples/sec per V100)
TI-ACC 数据 IO+自适应混合精度优化
(examples/sec per V100)
resnet50 mmcls8(单机)70.8350.5379.2
centernet mmdet8(单机)26.428.630.6

功能丰富

  • 推理加速底层通过接口支持多种模型输入格式、多种优化级别、固定及动态输入维度、自定义测试数据输出测试报告以及对模型进行保存输出等功能。
  • 训练加速底层通过接口提供数据 IO 优化、自适应 FP16、通信加速等功能。

接入便捷

推理加速和训练加速已支持原生的 Pytorch 框架,后续支持 TensorFlow 等框架,用户可直接在原生框架下使用 TI-ACC 的加速能力,无需进行额外的模型格式转换等适配工作。

  • 推理加速整体能力通过一个函数提供,用户可通过该函数使用推理加速的所有能力。
  • 训练加速中的通信加速能力由兼容原生的 DDP 工具提供,使用户无需修改原生的使用代码即可直接使用。数据 IO 优化、自适应 FP16均通过封装好的简单函数/类进行提供,仅需增加几行代码便可使用。

技术强大

  • 推理加速底层提供计算优化、低精度加速、内存优化等能力。技术架构图如下所示:
  • 训练加速底层提供数据 IO 优化、计算优化、通信加速、并行训练、显存优化等能力。技术架构图如下所示:

开始使用

在推荐、CV、NLP 等模型训练和推理场景中,都可以使用 TI-ACC 的推理和训练加速能力。目前通过容器方式提供给用户使用,具体使用方式请参见 推理加速部署及实践训练加速部署及实践

目录