O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

YARN集群上的分布式深度学习

11:55–12:35 2016年8月06日
数据科学与高级分析
地点: 紫金大厅B(Grand Hall B)

必要预备知识

具有大数据和机器学习的基本知识。

描述

机器学习是大数据的一个非常重要的应用场景,而深度学习则是近期最热的方向。作为最成功的自然语言处理的深度学习模型之一,深度结构化语义模型(DSSM)在我们公司内部被广泛使用。然而,训练速度一直是采用深度学习的一个最大的障碍,公司内的许多团队没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。客户可以使用类SQL的编程语言(如SCOPE)在我们的集群上很容易地完成一个DSSM训练。我们从分布式深度神经网络(DNN)训练中学到了很多,在这个演讲里很高兴来分享我们的一些经验。

Photo of Pengcheng He

Pengcheng He

Microsoft

Pengcheng He is a senior software engineer at Microsoft, where he works on large-scale computation, especially large-scale machine-learning algorithms. Previously, he worked on machine learning at Tencent. Pengcheng holds a degree from GUCAS.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site