O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

数据科学与高级分析

09:00–12:30 2016年8月04日
地点: 多功能厅5B+C(Function Room 5B+C)
Angie Ma (ASI), Yingsong Zhang (ASI Data Science)
这个3小时的辅导课从业务的角度出发集中介绍了数据科学的关键概念。本课程是为了那些希望在他们业务中引入数据科学的听众所准备的。 了解更多信息.
13:30–17:00 2016年8月04日
地点: 报告厅(Auditorium)
平均得分:: **...
(2.00, 1 次得分)
陈健敏和陈智峰示范使用TensorFlow这个广受欢迎的开源库训练和部署机器学习系统。你将能学会如何创建一个机器学习系统,小到简单的分类器,大到复杂的基于图像的模型,还可以学会如何使用TensorFlow Serving来部署你的模型。 了解更多信息.
11:55–12:35 2016年8月05日
地点: 紫金大厅A(Grand Hall A)
平均得分:: ****.
(4.00, 1 次得分)
陈健敏和陈智锋将会给大家介绍TensorFlow,一个跨平台,高效率和支持大规模分布式训练的机器学习开发平台。 了解更多信息.
15:30–16:10 2016年8月05日
地点: 紫金大厅A(Grand Hall A)
褚崴 (阿里云大数据事业部iDST)
近年来深度学习技术迅猛发展,在图像识别,语音交互,机器翻译等领域展现出了巨大的潜力。依托阿里云自主研发的分布式数据存储与计算服务ODPS,我们研发了机器学习平台产品PAI (platform of artificial intelligence),支持分布式的深度学习算法产品。在CPU和GPU混布计算集群上,深度学习算法产品进一步提升高性能计算的分布式能力,海量数据得以在多机多卡间并行处理,大幅提升训练收敛速度。在蚂蚁金服的业务中,分布式深度学习算法产品也得到了广泛的应用,解决关键业务难题。我们将详细介绍分布式深度学习算法产品的实现和性能指标,以及在蚂蚁金服业务中的一系列应用,并展望下深度学习将来在阿里产品体系中的潜在应用。 了解更多信息.
16:20–17:00 2016年8月05日
地点: 报告厅(Auditorium)
朱军 (清华大学)
机器学习是从大数据中提取有价值信息的关键技术。和传统的计算不同,面向机器学习的计算具有显著的特性,这些特性在已有的分布式平台上通常没有很好地被利用。在这个报告中,我们将介绍Petuum,一个面向大数据机器学习的新型分布式平台,Petuum基于对机器学习算法特性的深度总结,在系统层面和算法层面进行了全新的设计和实现,在性能上获得了显著提升,为大数据机器学习提供了一个通用的高效引擎平台。报告中将用若干典型模型(包括:深度学习、主题模型、矩阵低秩分解等)作为例子阐述实际的性能。 了解更多信息.
17:10–17:50 2016年8月05日
地点: 多功能厅2(Function Room 2)
Yihua Huang (Nanjing University (PASA Big Data Lab))
平均得分:: *****
(5.00, 2 次得分)
大数据机器学习和数据分析是一个同时涉及机器学习和大数据处理技术的交叉性课题。目前大数据机器学习与数据分析一个最大的问题是:机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将简要介绍大数据机器学习系统的技术现状、技术特征和技术问题、典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性 了解更多信息.
11:55–12:35 2016年8月06日
地点: 报告厅(Auditorium)
张铭 (北京大学)
平均得分:: *****
(5.00, 1 次得分)
机器学习的过程往往是需要监督的,而无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络,然后将异构信息网络中的特定化知识应用于机器学习模型中。我们以文本聚类、文本相似度计算为应用实例,使用Freebase和YAGO2这两个知识库作为通用知识的来源,在两个文本的基准数据集(20 newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。 相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。 了解更多信息.
11:55–12:35 2016年8月06日
地点: 紫金大厅B(Grand Hall B)
Pengcheng He (Microsoft)
训练速度一直是采用深度学习的一个最大的障碍,造成我们公司内的许多团队都没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。在这个演讲里我们很高兴来分享我们的一些经验。 了解更多信息.
13:50–14:30 2016年8月06日
地点: 报告厅(Auditorium)
Ting Wang (宜人贷), Jike Chong (Tsinghua University | Acorns)
平均得分:: *****
(5.00, 2 次得分)
在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。 了解更多信息.
15:30–16:10 2016年8月06日
地点: 紫金大厅A(Grand Hall A)
Zhichao Li (Intel)
在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site