O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

Apache Spark高级机器学习实践

09:00–12:30 2016年8月04日
Spark及更多新发展
地点: 报告厅(Auditorium)
平均得分:: ***..
(3.50, 2 次得分)

必要预备知识

对于Spark和Scala有基本了解

需要提前准备的资料和下载

有一个笔记本并且安装了Apache Spark, JDK和Maven。请提前下载示例代码和设置环境,具体请见https://github.com/yiheng/strata-tutorial

描述

在大数据上进行机器学习的开发往往是一个比较复杂的任务。开发者要面对诸如不同的数据源,不同的数据格式,复杂的特征提取流程,复杂的模型,数据的分布式处理,参数选择等众多问题。

Apache Spark提供一整套在大数据上的机器学习解决方案,包括构造复杂工作流的ML Pipeline,灵活方便的分布式数据表示DataFrame,自动化参数调优的Grid Search,丰富的特征提取组件,以及各种模型实现和分布式训练。这些功能组件能够大幅降低大数据机器学习工作的复杂性,帮助开发者快速进行模型实现和迭代。

作为Apache Spark国内最早的贡献者,Intel与众多大型互联网和企业用户合作,在Spark平台上进行了大量机器学习的实践和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上机器学习的组件和一些高级功能,并分享实践经验。

本次课程包括以下方面:

  1. Apache Spark的特征提取和机器学习流水线
  2. 利用Grid Search进行参数选择
  3. Apache Spark上面向稀疏数据的分布式机器学习算法
  4. Apache Spark上的深度神经网络学习
  5. 基于Apache Spark的机器学习在实践中的经验分享
Photo of 王奕恒

王奕恒

Intel

王奕恒来自于Intel大数据技术团队,专注于大数据分析领域。他的同事和他致力于在Apache Spark平台上开发分布式机器学习算法,以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化,以及帮助Intel的客户为他们的业务开发大数据分析程序。

Photo of 邱鑫

邱鑫

Intel

来自于Intel大数据技术团队,专注于大数据分析领域,主要研究分布式机器学习的原理及应用,是基于Spark的深度学习框架BigDL的核心贡献者。

Photo of Zhichao Li

Zhichao Li

Intel

Zhichao Li is a senior software engineer at Intel focused on distributed machine learning, especially large-scale analytical applications and infrastructure on Spark. He’s also an active contributor to Spark. Previously, Zhichao worked in Morgan Stanley’s FX Department.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site