华为云ModelArts改写深度学习模型练习世界纪录
来源:医药股网 发表于2019-07-06 15:30:09 编辑:刘涛
摘要: 近来,斯坦福大学发布了DAWNBenchmark最新成果,在图画辨认的总练习时刻上,华为云ModelArts排名榜首,仅需10分28秒,比第二名提高近44%。成果证明,华为云

 

华为云ModelArts改写深度学习模型练习世界纪录

 

华为云ModelArts改写深度学习模型练习世界纪录

 

华为云ModelArts改写深度学习模型练习世界纪录

 

华为云ModelArts改写深度学习模型练习世界纪录

 

华为云ModelArts改写深度学习模型练习世界纪录

近来,斯坦福大学发布了DAWNBenchmark最新成果,在图画辨认的总练习时刻上,华为云ModelArts排名榜首,仅需10分28秒,比第二名提高近44%。成果证明,华为云ModelArts完成了更低本钱、更快速度、更极致的体会。

斯坦福大学DAWNBench是用来衡量端到端的深度学习模型练习和推理功能的世界威望基准测验渠道,相应的排行榜反映了当时全球业界深度学习渠道技能的抢先性。核算时刻和本钱是构建深度模型的要害资源,DAWNBench供给了一套通用的深度学习点评目标,用于评价不同优化战略、模型架构、软件结构、云和硬件上的练习时刻、练习本钱、推理推迟以及推理本钱。

作为人工智能最重要的根底技能之一,近年来深度学习也逐渐延伸到更多的使用场景。跟着深度学习模型越来越大,所需数据量越来越多,深度学习的练习和推理功能将是重中之重。华为云ModelArts将结合华为在AI芯片、硬件、云设备、软件和算法的全栈优势,打造更快的普惠的AI开发渠道。

下文将深入剖析,华为云ModelArts怎么做到功能极致 128块GPU,ImageNet练习时刻10分钟。

1. 深度学习已广泛使用,模型增大、数据添加,深度学习练习加快的需求日益剧增

近年来,深度学习现已广泛使用于核算机视觉、语音辨认、自然语言处理、视频剖析等范畴,可服务于视频监控、主动驾驶、查找引荐、对话机器人等场景,具有宽广的商业价值。

为了到达更高的精度,一般深度学习所需数据量和模型都很大,练习十分耗时。例如,在核算机视觉中,假如咱们在ImageNet[1]数据集上用1块V100 GPU练习一个ResNet-50模型, 则需求耗时将近1周。这严峻阻止了深度学习使用的开发进度。因而,深度学习练习加快一直是学术界和工业界所重视的重要问题,也是深度学习应主要用的痛点。

Jeremy Howard等几位教授领衔的fast.ai当时专心于深度学习加快,在ImageNet数据集上用128块V100 GPU练习 ResNet-50模型的最短时刻为18分钟。

但是,最近BigGAN、NASNet、BERT等模型的呈现,预示着练习更好精度的模型需求更强壮的核算资源。能够预见,在未来跟着模型的增大、数据量的添加,深度学习练习加快将变得会愈加重要。只要具有端到端全栈的优化才干,才干使得深度学习的练习功能做到极致。

[1] 文中所指的ImageNet数据集包括1000类个类别,共128万张图片,是最常用、最经典的图画分类数据集,是原始的ImageNet数据的一个子集。

2.?华为云ModelArts发明新纪录, 极致 的练习速度

华为云ModelArts是一站式的AI开发渠道,现已服务于华为公司内部各大产品线的AI模型开发,几年下来现已积累了跨场景、软硬协同、端云一体等多方位的优化经历。ModelArts供给了主动学习、数据办理、开发办理、练习办理、模型办理、推理服务办理、商场等多个模块化的服务,使得不同层级的用户都能够很快地开发出自己的AI模型。

在模型练习部分,ModelArts经过硬件、软件和算法协同优化来完成练习加快。尤其在深度学习模型练习方面,华为将分布式加快层笼统出来,构成一套通用结构 MoXing。选用与fast.ai相同的硬件、模型和练习数据,ModelArts可将练习时长可缩短到10分钟,发明了新的纪录,为用户节约44%的时刻。

3.分布式加快结构MoXing

MoXing是华为云ModelArts团队自研的分布式练习加快结构,它构建于开源的深度学习引擎TensorFlow、MXNet、PyTorch、Keras之上,使得这些核算引擎分布式功能更高,一起易用性更好。

高功能

MoXing内置了多种模型参数切分和聚合战略、分布式SGD优化算法、级联式混合并行技能、超参数主动调优算法,而且在分布式练习数据切分战略、数据读取和预处理、分布式通讯等多个方面做了优化,结合华为云Atlas高功能服务器,完成了硬件、软件和算法协同优化的分布式深度学习加快。

易用:让开发者聚集事务模型,无忧其他

在易用性方面,上层开发者仅需重视事务模型,无需重视基层分布式相关的API,仅需依据实践事务界说输入数据、模型以及相应的优化器即可,练习脚本与运转环境无关,上层事务代码和分布式练习引擎能够做到彻底解耦。

4.从两大目标看MoXing分布式加快要害技能

在衡量分布式深度学习的加快功能时,主要有如下2个重要目标:

1)吞吐量,即单位时刻内处理的数据量;

2)收敛时刻,即到达必定的收敛精度所需的时刻。

吞吐量一般取决于服务器硬件、数据读取和缓存、数据预处理、模型核算、通讯拓扑等方面的优化,除了低bit核算和梯度紧缩等,大部分技能在提高吞吐量的一起,不会造成对模型精度的影响。为了到达最短的收敛时刻,需求在优化吞吐量的一起,在调参方面也做调优。假如调参调的欠好,那么吞吐量有时也很难优化上去,例如batch size这个超参缺乏够大时,模型练习的并行度就会较差,吞吐量难以经过添加核算节点个数而提高。

对用户而言,终究关怀的目标是收敛时刻,因而MoXing和ModelArts完成了全栈优化,极大缩短了练习收敛时刻。在数据读取和预处理方面,MoXing经过使用多级并发输入流水线使得数据IO不会成为瓶颈;在模型核算方面,MoXing对上层模型供给半精度和单精度组成的混合精度核算,经过自适应的标准缩放减小因为精度核算带来的丢失;在超参调优方面,选用动态超参战略使得模型收敛所需epoch个数降到最低;在底层优化方面,MoXing与底层华为自研服务器和通讯核算库相结合,使得分布式加快进一步提高。

5.测验成果比照,用数据说话

一般在ImageNet数据集上练习ResNet-50模型,当Top-5精度 93%或许Top-1 精度 75%时即可以为模型收敛。

咱们测验的模型练习收敛曲线如下图所示。此处Top-1和Top-5精度为练习集上的精度,为了到达极致的练习速度,练习过程中选用了额定进程对模型进行验证,终究验证精度如表1所示。图4所对应的模型在验证集上Top-1 精度 75%,练习耗时为10分06秒;图4所对应的模型在验证集上Top-5 精度 93%,练习耗时为10分28秒。

6. 未来展望 更快的普惠AI开发渠道

华为云ModelArts致力于为用户供给更快的普惠AI开发体会,尤其在模型练习这方面,内置的MoXing结构使得深度学习模型练习速度有了很大的提高。正如前所述,深度学习加快归于一个从底层硬件到上层核算引擎、再到更上层的分布式练习结构及其优化算法多方面协同优化的成果,具有全栈优化才干才干将用户练习本钱降到最低。

后续,华为云ModelArts将进一步整合软硬一体化的优势,供给从芯片、服务器、核算通讯库到深度学习引擎和分布式优化结构全栈优化的深度学习练习渠道。而且,ModelArts会逐渐集成更多的数据标示东西,扩展使用规模,将持续服务于才智城市、智能制作、主动驾驶及其它新式事务场景,在公有云上为用户供给更普惠的AI服务。

现在华为云ModelArts现已在公测中,欢迎我们前往官网试用。

排行榜单
投稿邮箱:
相关推荐
华为云ModelArts改写深度学习模型练习世界纪录
华为云ModelArts改写深度学习模型练习世界纪录

近来,斯坦福大学发布了DAWNBenchmark最新成果,在图画辨认的总练习时刻上,华

排行榜单20秒前

西九下季推商地 估值千亿破纪录-冀规划共同不拆
西九下季推商地 估值千亿破纪录-冀规划共同不拆

图:西九龙高铁站上盖商业开展项目总出资额涉逾千亿港元,黄伟纶坦言不扫除

排行榜单10小时前

黄心颖参演剧受牵连 广告商演也被叫停
黄心颖参演剧受牵连 广告商演也被叫停

本站讯 据香港媒体报道,在无线小花黄心颖[微博]曝出与人夫许志安[微博]偷情

排行榜单2019-07-05 13:10:14

央媒聚集海南第一批“不忘初心、紧记任务”主
央媒聚集海南第一批“不忘初心、紧记任务”主

不忘初心中罗致前行力气,在紧记使射中展示担任作为。当时,不忘初心、紧记

排行榜单2019-07-04 03:14:25

北师大安排学院党委书记及院长作业沙龙 深化施
北师大安排学院党委书记及院长作业沙龙 深化施

北师大安排学院党委书记及院长作业沙龙 深化施行高本质干部队伍进步方案 为

排行榜单2019-07-03 13:21:47

邵逸夫基金会捐资5亿元支撑北京大学生命科学前
邵逸夫基金会捐资5亿元支撑北京大学生命科学前

5月3日,邵逸夫基金会向北京大学捐献典礼暨逸夫楼命名典礼在钓鱼台国宾馆举

排行榜单2019-07-03 13:21:28

阴阳师伪神活动四大高分挂机阵型详解 双面佛和
阴阳师伪神活动四大高分挂机阵型详解 双面佛和

阴阳师针对正式服近期敞开的伪神活动,不少玩家在攻略的过程中遇到了各式各

排行榜单2019-07-02 03:19:13