O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

Pluto:一款分布式异构深度学习框架 (Pluto: A distributed heterogeneous deep learning framework)

此演讲使用中文 (This will be presented in Chinese)

杨军 (阿里巴巴)
11:15–11:55 Friday, 2017-07-14
数据工程和架构 (Data engineering and architecture)
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)

必要预备知识 (Prerequisite Knowledge)

1.对机器学习及深度学习基础知识有一定认识。 2.对分布式系统优化的基本概念,比如内存优化、计算优化、通信优化有基本认识。 3.如果本身对大规模机器学习领域有一定认识会更好。(optional)

您将学到什么 (What you'll learn)

1.在一个快速变化,演进的技术工作领域中,怎样结合尚不完整的学术界和工业界的资讯资料,结合自身的业务场景,完成技术选型和推进执行。 2.怎样对一个看起来复杂的系统、算法跨界优化问题进行抽象,加入principle层面的优化。

描述 (Description)

本议题会涉及到如下内容分享:
1. 在Caffe和TensorFlow这两种不同设计理念的深度学习框架里,所采用的不同优化策略。
比如,在Caffe中,我们加入了late multiply和pipeline communication的优化策略,显著改善了多机升缩比,同时对Caffe默认的单机多卡的逻辑进行了调制,建立了同构的网络通信拓扑,为上述优化提供更为一致的切入视角。在TensorFlow中,我们结合其计算流图的设计思想,将优化问题抽象成一个placement优化问题,以非侵入式的方式插入了较为优雅的修改,在若干模型上获得了显著的多机加速效果。
2. 分享Pluto在阿里巴巴若干核心业务场景中的应用案例,包括:
集团安全
金融风险建模
证件类图片识别
客服问答
机器翻译
等。
不同场景中所用到的模型结构也存在较大的差异,既有DNN网络,也有CNN网络,还有时序网络。对于不同类型的网络,我们也会结合其具体应用场景分享我们对于优化细节差异的理解和实践经验。
3.分享我们对大规模深度学习优化的知识体系的理解和梳理。
大规模机器学习,尤其是大规模深度学习是一个相对年轻的技术领域,也跟其他技术领域(比如分布式计算、数值优化)存在很强的overlap。在Pluto开发过程中,我们会也在不断梳理现有相关技术知识体系的同时,结合阿里具体场景去探索对大规模深度学习的理解并践行。这个过程也许对于相关技术领域的同学会有一定助益。


杨军 explores the different optimization strategies used in Caffe and TensorFlow, two deep learning frameworks with different design concepts. For example, Caffe uses late multiply and pipeline communication, which improves the scale ratio for multiple nodes. By adjusting Caffe’s default single-node logic with multiple GPUs, you can create a homogeneous communication network topology, providing a more unified optimization perspective. In TensorFlow, the optimization problem can be abstracted as a placement optimization problem using its computational graph, allowing you to insert more elegant modifications in a noninvasive way and achieve significant acceleration with multiple nodes on several models.

You’ll also get an overview of Pluto and its application cases in Alibaba’s core business scenario, including group’s security, financial risk modeling, ID images’ OCR, CRM QA, and machine translation. Models such as DNN, CNN, and sequence models are quite different from each other. 杨军 explores different types of neural networks, combined with their specific usage scenarios, for each, discussing the differences in optimization in detail and best practices.

杨军 concludes by discussing the knowledge system of optimization of large-scale deep learning. Although it’s a relatively young technical domain, large-scale deep learning has a strong overlap with other domains, such as distributed computing and numerical optimization. You’ll learn about the development of Pluto and how it is used for Alibaba’s specific scenarios to explore large-scale deep learning.

Photo of 杨军

杨军

阿里巴巴

目前在阿里云iDST大规模算法团队负责大规模深度学习算法基础设施相关建设工作,对大规模分布式机器学习的开发、建设、优化以及在不同业务场景中的落地应用有较为深入的理解和认识。之前先后在奇虎360担当广告技术部门架构师,Yahoo北京研发中心担当效果广告系统技术负责人。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site