O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

大章鱼:跨平台统一大数据机器学习与数据分析编程框架与系统

17:10–17:50 2016年8月05日
数据科学与高级分析
地点: 多功能厅2(Function Room 2)
平均得分:: *****
(5.00, 2 次得分)

必要预备知识

了解大数据机器学习与数据分析技术耳朵概念和方法,了解大数据处理技术与平台

描述

大数据机器学习是一个同时涉及机器学习和大数据处理两方面的交叉性研究课题。一方面,它仍然需要关注机器学习本身的模型和方法,与此同时,还要关注如何结合分布式和并行化大数据处理技术,以便能实现大规模数据分析计算。为了有效完成大数据机器学习处理,需要构建兼具机器学习和大规模分布并行计算处理能力的一体化系统,即大数据机器学习系统。 然而,目前在大数据机器学习与数据分析实际应用中一个最大的问题是:熟悉R、Python、Matlab等数据分析建模和编程语言的机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将系统性介绍大数据机器学习系统的发展背景与现状、技术特征和主要技术问题、系统分类和典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性。 报告分上下篇、共计主要分为4个部分:
  1. 上篇:大数据机器学习系统概述
  2. 大数据机器学习:从算法到系统
  3. 大数据机器学习系统的技术特征
  4. 大数据机器学习系统的主要研究问题
  5. 大数据机器学习方法分类与典型系统

下篇:大章鱼:跨平台统一大数据机器学习与数据分析编程框架与系统

Photo of Yihua Huang

Yihua Huang

Nanjing University (PASA Big Data Lab)

黄宜华, 博士, 南京大学计算机系教授、博导,南京大学PASA大数据技术实验室主任。 中国计算机学会大数据专家委员会常务委员、副秘书长, 江苏省计算机学会大数据专家委员会主任。主要研究方向为大数据并行处理。早在大数据还鲜为关注的2009年即已进入大数据技术领域,是国内最早从事大数据处理技术研究和教学的团队之一,在大数据存储查询、大规模RDF语义数据查询与推理、分布式内存文件系统、Hadoop/Spark系统优化、并行化机器学习与数据挖掘算法、大规模机器学习算法与系统等方面有一系列的研究工作,在国内外学术刊物和国际会议上发表大数据相关学术论文30多篇,撰写并出版大数据处理书籍/教材两部。在大数据领域,主持多项国家和省部级科研项目,此外还开展了与Google、Intel、UC Berkeley AMP Lab、微软亚洲研究院、百度、华为、中兴通讯等著名企业和机构的合作研究

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site