干货 | 加速AI发展!一文了解GPU Computing

  • 时间:
  • 浏览:1

所谓GPU Computing都不 一个 单单拼硬件的事,怎样才能来把那些算力用到人工智能算法和实际应用场景下才是大多数人应该关注的重点。他们 提到英伟达将会都随便说说是一家芯片公司,但随便说说他们 公司全球一共大概有一万两千人;其中一万一千人都不 工程师,在那些工程师里,七千个都不 软件工程师,他们 一并来搭建和完善基于GPU Computing的人工智能生态。

为了进行自动驾驶的研发,英伟达有当事人的一个 server farm。这俩server farm内有 50000台DGX-1,具有一个 E(1E=1024P=1024*1024T)的浮点运算能力,用于自动驾驶模型的训练。一百公里车在外面跑一天,会产生上T的数据量,一年将会是上P的数据量。但即使是原来,仅仅靠实车上路收集数据也远远缺乏,根据估算,自动驾驶车辆大概要跑116万英里,不能勉强满足上路的标准。就现在而言,自动驾驶的车辆脱把率并不一定高,Google的自动驾驶车辆大概是几千英里不能 扶一次方向盘,有些的具体情况也基本一样。

2. 医疗

在AI应用场景的分享事先,主讲人赵立威还向他们 完整介绍了NVIDIA的新品Quadro RTX,它不能帮助游戏和电影行业实现实时的光线追踪和渲染。最后,他以英伟达在硅谷的新办公大楼“Endeavor”和“Voyager”作结,表达了英伟达在人工智能领域将不断努力,并期待人工智能技术带领人类走入未知领域的愿景。

人工智能比较常用的应用场景除了互联网之外,还有自动驾驶、医疗、电信等等。

HGX-2 平台的内嵌 NVSwitch 拓扑行态的框图(图源:NextPlatform)

1. 推荐引擎

他们 现在的做法是把实车里的模型拿到server farm里,你都能能在服务器里的数率仿真的模拟环境下进行训练,在训练的过程中产生新的数据,而是用那些数据再去训练新的模型。通过这俩做法来尝试加速对自动驾驶车辆模型的训练。

他们 将会都听说过Alex Krizhevsky,他在博士期间设计了人类历史上第一个 真正意义上的数率神经网络AlexNet——一共是5个学习层,涵盖六千万个参数。他的导师Hinton(被称为“神经网络之父”)并不一定支持他将这俩作为博士论文的研究方向,将会当时的计算都不 基于CPU的计算方法,原来的神经网络模型训练一次就要哪几只月的时间;而是要手动调参,再重新训练,原来反复下来,你都能能得到一个 靠谱的神经网络模型,大概不能 几十遍;运气好的事先十几遍的训练次数,将会大概数十年的时间。而是Alex作为一个 典型的Geek并不一定放弃,在学习数学之余他还学习了少量与编程相关的知识,其中就包括CUDA。

二、AI行业案例分享

英伟达™精视™ (NVIDIA® GeForce®) GTX 5500

Alex用CUDA重新对他的模型进行编程,而是买了两块当时非常强大的显卡GTX5500,花了6天时间训练AlexNet,而是不断调优和完善。而是参加了李飞飞主导的ImageNet大赛,而是获得了当年的冠军。AlexNet当时不能达到的图像识别精度,遥遥领先于第二名。大赛事先,Alex和他的导师Hinton成立了公司,这俩公司哪几只月事先被Google以4亿美金收购。这是一个 靠GPU创富的故事,都能能看过,GPU与数率神经网络的第一次结合创造了4亿美金的价值。

如今,他们 都能能使用Caffe、TensorFlow、Theano等等开源的数率学习平台来进行实现当事人的算法,也都能能在CUDA上进行编程。人工智能研究领域的头部公司,他们 现在推荐的算法模型将会达到了相当复杂化的程度,一个 模型都能能达到一个 T甚至哪几只T的规模,涵盖几十亿甚至上百亿个参数,数据量更是可想而知。原来的模型训练起来难度就越发高。而是,三算就原来纠缠在一并,互相有有助于于、互相提升。

在英伟达初创加速计划的会员中,有很大一累积都不 人工智能+医疗的项目。医疗项目的一大挑战是诊断。目前来讲还是太难通过数率学习来做诊断,但市场仍然很大。根据有些相关报告上的数据,对于有些慢病诊断,使用数率学习算法进行辅助事先,都能能将准确率提高500%-40%,一并成本下降一半。

本文来自云栖社区企业企业合作伙伴“人工智能学家”,了解相关信息都能能关注“人工智能学家”。

他们 都知道著名的摩尔定律,其内容是当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-2一个 月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-2一个 月翻一倍以上。这俩定律揭示了信息技术进步的数率单位。而是根据OPEN AI的今年年初的测算,从AlexNet出显事先,到去年年底一共大概5年的时间,在人工智能模型的训练层面,他们 对于计算力的需求提升了500万倍。

图源:pixabay.com



在国内,不能通过视网膜扫描来进行诊断的医生比较少;而是在国内,累积医生是不都能能下诊断的。通过数率学习技术,都能能将那些医生的经验进行收集,从而辅助诊断。目前这项技术还太难应用到医院里,而是有些保险公司非常你都能能通过这俩技术,来获得客户患病概率的有些信息,从而辅助制定保单金额。



以TensorRT为例,NVIDIA TensorRT是两种高性能神经网络推理(Inference)引擎,用于在生产环境中部署数率学习应用程序,应用有图像分类、分割和目标检测等,可提供最大的推理吞吐量和数率单位。TensorRT是第一款可编程推理加速器,能加速现有和未来的网络架构。通过TensorRT的大幅度加速,服务提供商不能以经济实惠的成本部署那些计算密集型人工智能工作负载。

3. 自动驾驶

国内几乎所有大的互联网公司,都不 训练当事人的推荐模型,做到千人千面。推荐对于那些公司是非常重要的,将会互联网变现几乎都和推荐有关,电商类并不一定,食品移就如国内的快手、抖音,国外的Netflix、Hulu,资讯类的比如Google news、今日头条,还有音乐类,社交类等等。用户的使用又在给公司提供新的数据,都能能用于训练更有效的模型。这俩方面提升了用户体验,但当事人面将会造成用户无法脱离那些产品。



NVIDIA于2018年3月在GPU技术大会上推出了HGX-2 平台,以及以HGX-2为架构的 DGX-2服务器。它是一件高密集,强性能并具有极佳的热性能的电子产品。DGX-2架构的核心是NVSwitch内存行态,本质上,NVSwitch行态为GPU节点创建了一个 512 GB的巨大的共享内存空间,以 10 千瓦的功耗,在TensorCore上达到近2Petaflops的算力。

CUDA是NVIDIA创造的一个 并行计算平台和编程模型。它利用图形解决器(GPU)能力,实现计算性能的显著提高。NVIDIA是在5006年推出的CUDA,自那事先,股价从最初的7美元一路攀升到现在的2500多美元。

以视网膜扫描为例。他们 常说眼睛是心灵的窗户,事实上眼睛也是身体的窗户,人眼的视网膜上分布着富足的毛细血管,通过扫描视网膜,都能能检测到人身体上的有些大什么的问题,比如糖尿病的次生灾害之一假如视网膜的病变,以及心血管疾病。

在这事先,他们 经历了近似寒武纪时期的神经网络模型大爆发的时代。2012年事先,他们 随便说说突然在研究,而是这么 足够的算力来支撑那些算法,而是新的计算方法GPU Computing的出显,支撑了之类型的神经网络模型的训练;从而促成了各种模型的爆发式增长,进而进入到人工智能的时代。

他们 都知道在摩尔定律的初期25年间,实现了性能5年10倍,25年116万倍的提升。这是摩尔定律在CPU年代为他们 带来的计算力的提升。而是这对于人工智能模型对计算力的需求是远远缺乏的。而是,为了满足这俩计算力的需求,他们 不断地在GPU层面打磨他们 的技术,提升各方面的性能。在原来的基础之上,他们 也看过太多的人事先始于英语 英语 基于CUDA去编程训练当事人的模型,Google、Facebook等也基于CUDA构建当事人的开源数率学习平台。

原文发布时间为:2018-09-3

这么 怎样才能把那些看似高高在上的人工智能算法和还比较昂贵的算力,以及太难获取的数据,变得更加容易,这是他们 过去将会做了的以及接下来的时间里要去做的工作。

过去是人找信息,现在则转变为信息找人。他们 将会都用过快手将会抖音之类的小视频APP,那些小视频的转过身,都不 神经网络算法在支撑。你在使用一个 推荐引擎的一并,将会有几5个模型在对你进行评估,五年前将会假如sensing,感知你的需求,现在是从各种维度对你进行评估,多方面平衡,不光要吸引人点击,不能 你等待英文足够长的时间;而吸引人点击和吸引人等待英文的算法又有很大的差别。

目前来说,人工智能的应用场景比较多的集中在Consumer Internet,国内以BATJ、TMD为代表,美国主假如方佳、苹果654 苹果654 、微软和Netflix等等。那些公司是人工智能领域的第一批先锋,他们 在这俩领域投入了少量的资金,堆积了什么都有有的算力,把业内最有名的博士都招到他们 公司,他们 的每一个 服务动辄就每天上亿的使用量(DAU,Daily Active User),而是又收集了少量的数据。李彦宏在2018 Create百度开发者大会上提到一个 Intelligent Chasm的概念,都能能理解为智能沟壑,说的是和那些头部公司所堆积的算力以及数据相比,全球有些所有公司的算力加起来将会也假如跟他们 差太多的规模,甚至还不如。这俩算力和数据的差距像天堑一样。