O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国
 
紫金大厅B(Grand Hall B)
Add 基于成本的Spark SQL优化器框架 (A cost-based optimizer framework for Spark SQL) to your personal schedule
14:00 基于成本的Spark SQL优化器框架 (A cost-based optimizer framework for Spark SQL) Ron Hu (Huawei Technologies), 王振华 (Huawei Technologies)
报告厅(Auditorium)
Add AWS上的MXNet (MXNet on AWS) to your personal schedule
13:10 AWS上的MXNet (MXNet on AWS) Damon Deng (AWS)
Add 使用Spark/BigDL高级机器学习实现寿险业务再发现 (Reimplement life insurance services using Spark and BigDL advanced machine learning) to your personal schedule
14:50 使用Spark/BigDL高级机器学习实现寿险业务再发现 (Reimplement life insurance services using Spark and BigDL advanced machine learning) 王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿), Pengfei Yue (Intel), Binggang Wo (Cloudera)
多功能厅2(Function Room 2)
Add Spark和TiDB (Spark on TiDB) to your personal schedule
16:20 Spark和TiDB (Spark on TiDB) 马晓宇 (PingCAP)
多功能厅5B+C(Function Room 5B+C)
Add ShadowMask: 脱敏你的敏感的大数据 (ShadowMask: Anonymize your sensitive big data) to your personal schedule
16:20 ShadowMask: 脱敏你的敏感的大数据 (ShadowMask: Anonymize your sensitive big data) 李银辉 (万达网络科技集团), 千惠子 (万达网络科技集团)
多功能厅6A+B(Function Room 6A+B)
多功能厅8A+8B(Function Room 8A+8B)
Add Hadoop上的OLTP,BeagleData赞助议题(OLTP on Hadoop—sponsored by BeagleData) to your personal schedule
13:10 Hadoop上的OLTP,BeagleData赞助议题(OLTP on Hadoop—sponsored by BeagleData) 乔旺龙 (天云融创数据科技(北京)有限公司)
多功能厅3B(Function Room 3B)
10:45 上午茶歇 (Morning Break) | Room: 赞助商区域 (Sponsor Pavilion)
15:30 下午茶歇 (Afternoon Break) | Room: 赞助商区域 (Sponsor Pavilion)
Add 来宾招待会 (Attendee Reception) to your personal schedule
17:00 Event 来宾招待会 (Attendee Reception) | Room: 赞助商区域 (Sponsor Pavilion)
Add 快速社交 (Speed Networking) to your personal schedule
08:15 Event 快速社交 (Speed Networking) | Room: 紫金大厅A序厅(Grand Hall A Foyer)
08:45 used to shorten grey space TBC
11:15-11:55 (40m) 数据工程和架构 (Data engineering and architecture), 英文讲话 (Presented in English) 数据平台 (Data Platform), 物流 (Logistics)
使用大数据推动东南亚前行 (Driving Southeast Asia forward with big data)
Feng Cheng (Grab), Edwin Law (Grab)
Grab is sitting at the junction of the digital and physical worlds. Its vision is to drive Southeast Asia forward and transform the way people travel and pay across the region. Feng Cheng and Edwin Law explain Grab's data architecture and offer a history of its data platform migration and stream-processing apps.
13:10-13:50 (40m) Spark及更多发展 (Spark & beyond) 数据平台 (Data Platform), 架构 (Architecture)
OAP: 使用Spark SQL进行即席查询 (OAP: Using Spark SQL for ad hoc queries)
Daoyuan Wang (Intel), 李元健 (百度)
OAP是英特尔大数据团队和百度基础架构团队的开源合作项目,旨在针对在Spark SQL上进行的大规模数据即席查询进行优化,满足在百度线上业务中对于海量搜索日志进行秒级查询的需求。 OAP通过用户自定义的分布式索引和自动缓存等技术,极大地加速了一些特定场景下的SQL查询。OAP支持多种索引类型,可以让用户根据数据特征选择适当的索引,加速查询的同时,引入较少的额外存储开销。 在百度的生产环境中,OAP已经作为平台提供的查询加速方案,为部分实际查询带来5倍左右的性能提升,大大节约了查询的运行时间,丰富了Spark SQL的应用场景。
14:00-14:40 (40m) Spark及更多发展 (Spark & beyond) 数据平台 (Data Platform), 架构 (Architecture)
基于成本的Spark SQL优化器框架 (A cost-based optimizer framework for Spark SQL)
Ron Hu (Huawei Technologies), 王振华 (Huawei Technologies)
我们把基于成本的优化器框架贡献给社区版本Spark 2.2。在我们的框架中,我们计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,我们能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join), 调整连接的顺序等等。这个基于成本的优化器框架对Spark SQL查询的性能有很好的提升 。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。
14:50-15:30 (40m) 数据工程和架构 (Data engineering and architecture) 架构 (Architecture)
Apache Kudo: 1.0版和未来 (Apache Kudu: 1.0 and beyond)
Hao Hao (Cloudera)
Hao Hao offers an overview of Apache Kudu, a project that enables fast analytics on big data.
16:20-17:00 (40m) Spark及更多发展 (Spark & beyond) 数据平台 (Data Platform)
Spark在今日头条的实践 (Spark in JinRi TouTiao)
Djvu Lee (今日头条)
讲述今日头条是如何用Spark来处理海量数据,以及在实际使用中的一些改进。
11:15-11:55 (40m) 数据工程和架构 (Data engineering and architecture) 人工智能 (Artificial intelligence), 深度学习 (Deep learning)
Pluto:一款分布式异构深度学习框架 (Pluto: A distributed heterogeneous deep learning framework)
杨军 (阿里巴巴)
本分享会介绍阿里云iDST PAI团队研发的一款分布式深度学习框架Pluto。在Pluto里,阿里云PAI团队基于Caffe和TensorFlow这两款开源框架进行了分布式性能的深度优化定制,相较于优化前取得了显著的性能提升,在一些场景下取得了10X的收敛加速比提升。并成功应用到了集团安全、金融风险建模、证件类图片识别、客服问答、机器翻译等集团核心业务建模场景里,显著提升了建模迭代效率。
13:10-13:50 (40m) AI应用 (AI applications) 云 (Cloud), 深度学习 (Deep learning)
AWS上的MXNet (MXNet on AWS)
Damon Deng (AWS)
Damon Deng provides a short background on deep learning, focusing on relevant application domains, and offers an introduction to using the powerful and scalable deep learning framework MXNet. Join in to learn how MXNet works and how you can spin up AWS GPU clusters to train at record speeds.
14:00-14:40 (40m) AI应用 (AI applications) 深度学习 (Deep learning)
使用BigDL在Apache Spark上进行大规模分布式深度学习 (Distributed deep learning at scale on Apache Spark with BigDL)
Zhichao Li (Intel), Shengsheng Huang (Intel), Yiheng Wang (Intel)
Zhichao Li, Shengsheng Huang, and Yiheng Wanghow explore how data scientists have adopted BigDL for deep learning analysis on large amounts of data in a distributed fashion, allowing them to use their big data cluster as a unified data analytics platform for data storage, data processing and mining, feature engineering, traditional (non-deep) machine learning, and deep learning workloads.
14:50-15:30 (40m) 数据科学&高级分析 (Data science & advanced analytics) 深度学习 (Deep learning), 金融服务 (Financial services)
使用Spark/BigDL高级机器学习实现寿险业务再发现 (Reimplement life insurance services using Spark and BigDL advanced machine learning)
王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿), Pengfei Yue (Intel), Binggang Wo (Cloudera)
中国人寿多年来积累了大量数据,如何深度挖掘数据的价值,用于业务推动、风险管理、客户服务等领域,是我们数据部门的主要目标。我们将介绍中国人寿如何使用Spark以及Spark上的深度学习库BigDL构建针对保险业务场景的高级分析应用。我们尝试了多种前沿的高级机器学习和深度学习技术,我们将分享我们的机器学习系统的架构,应用构建的流程,以及从中吸取到的经验和教训。
16:20-17:00 (40m) 数据科学&高级分析 (Data science & advanced analytics) 深度学习 (Deep learning), 顶级数据科学 (Hardcore Data Science)
从LR到DNN点击率预估系统的进化 (The evolution of CTR prediction systems, from LR to DNN)
吴炜 (万达网络研究院)
广告点击率(ctr)预估的是一个热点问题,从事计算广告的公司一般都有自己的ctr系统,如何稳定可控地改进点击率预估系统,数据,架构,算法这三方面在不同的时间点要做什么是我这次想要分享的主题.通过回顾一个点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的成熟在线系统.着重介绍在演化的几个关键节点上基于当时情况选择那个技术方向的思考过程,相当于结合ML&DL的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子来介绍大规模机器学习,分布式最优化的相关知识点,为参会者在面对在具体业务中遇到ML,DL相关问题如何做选型提供一份历史案例的参考
11:15-11:55 (40m) Hadoop内核&发展 (Hadoop internals & development), 英文讲话 (Presented in English) 数据平台 (Data Platform)
Apache Hadoop 3.0的特性和开发进展的更新 (Apache Hadoop 3.0 features and development update)
Andrew Wang (Cloudera), Daniel Templeton (Cloudera)
Apache Hadoop 3.0 has made steady progress toward a planned release this year. Andrew Wang and Daniel Templeton offer an overview of new features, including HDFS erasure coding, YARN Timeline Service v2, and MapReduce task-level optimization, and discuss current release management status and community testing efforts dedicated to making Hadoop 3.0 the best Hadoop major release yet.
13:10-13:50 (40m) 安全 (Security), 英文讲话 (Presented in English) 电子商务 (ecommerce)
在京东利用大数据进行安全分析 (Leveraging big data for security analytics at JD)
Jimmy Zhigang Su (JD.COM), Tony Lee (JD.com)
JD.com is one of the largest B2C online retailers in the world. Its mission is to provide a safe and secure marketplace for its 226M active users and 120K third-party vendors. Jimmy Zhigang Su and Tony Lee discuss the transformations big data has enabled at JD, including threat intelligence, account security, and end-point security.
14:00-14:40 (40m) Spark及更多发展 (Spark & beyond), 英文讲话 (Presented in English) 架构 (Architecture)
成为Apache Spark明星路上的技巧 (Tricks of the trade to be an Apache Spark rock star)
Ted Malaska (Capital One)
It's one thing to write an Apache Spark application that gets you to an answer. It’s another thing to know you used all the tricks in the book to make it run as fast as possible. Ted Malaska shares some of those tricks.
14:50-15:30 (40m) 安全 (Security)
在Apache Hadoop和Spark上加速大数据加密 (Speed up big data encryption in Apache Hadoop and Spark)
Haifeng Chen (Intel)
Although the processing capability of modern platforms is approaching memory speed, securing big data using encryption still hurts performance. Haifeng Chen shares proven ways to speed up data encryption in Hadoop and Spark, as well as the latest progress in open source, and demystifies using hardware acceleration technology to protecting your data.
16:20-17:00 (40m) Spark及更多发展 (Spark & beyond) 数据平台 (Data Platform), 架构 (Architecture)
Spark和TiDB (Spark on TiDB)
马晓宇 (PingCAP)
SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,TiDB将成为Hadoop生态的一部分,铺平了OLTP系统和离线分析集群之间的鸿沟。
11:15-11:55 (40m) 数据科学&高级分析 (Data science & advanced analytics) R, 数据平台 (Data Platform)
使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)
Xiaoyong Zhu (Microsoft)
R is a popular data science tool for data analysis. However, it has many drawbacks, such as its memory utilization and single-thread design, that limit its usage for big data analysis. Xiaoyong Zhu explains how to use R to analyze terabytes of data.
13:10-13:50 (40m) 数据科学&高级分析 (Data science & advanced analytics) 人工智能 (Artificial intelligence), 顶级数据科学 (Hardcore Data Science)
Fregata:在Spark上支持万亿维模型的机器学习算法库(Fregata: Machine learning algorithm libraries for supporting trillion-dimensional model on Spark)
张夏天 (TalkingData)
TalkingData的一些核心业务能力如Lookalike十分依赖大规模机器学习的能力,我们发现现有的大规模机器学习技术都不能很好的满足我们的需要。因为我们需要支持大规模数据的高速,稳定,无需调参的机器学习算法,而这是目前的一些主流平台和工具无法提供的能力。为此我们在算法和系统方面做了一些研究,取得了一些成果。我们开源的Fregata机器学习算法库完全基于Spark标准接口,在Logisti Regression, Softmax算法上能够做到无需调参,高速,支持万亿维度的模型。Fregata Logistic Regression算法,在消耗大约2-4台服务器的机器资源,对于5.1亿条,1万亿维度的训练数据,可以在15分钟内完成训练。我们在本次演讲中将介绍Fregata在算法上和系统方面的一些工作。
14:00-14:40 (40m) 数据工程和架构 (Data engineering and architecture) 架构 (Architecture), 金融服务 (Financial services)
SDK + FinGraph + Go:用一手行为数据和图谱信息创造商业价值 (SDK + FinGraph + Go: Create business value with firsthand user behavior data and knowledge graph information)
Jike Chong (Tsinghua University | Acorns), 莫云 (宜人贷)
在移动互联网流量红利过后,我们怎样深度挖掘一手移动数据,实时响应用户需求,通过用户行为和知识图谱技术,创造商业价值?我们会通过具体业务案例,分享一个SDK + FinGraph + Go的技术框架。此框架只用一行代码将SDK埋入APP,通过实时/准实时的上传机制和Flume + Kafka的实时处理分析,获取用户意向;用Spark Streaming流式处理,HBase KV查询输出,和Neo4j集群做的关联、存储来挖掘图谱信息;并通过Go高效的开发基础平台,Python连接自动提报后台,scikit-learn做事件识别,和Cypher挖掘图谱关系来预测用户意愿,引导用户行为 - 用实时数据创造商业价值。
14:50-15:30 (40m) 企业应用 (Enterprise adoption)
大数据时代银行客户社交关系圈研究与应用 (Research on and the application of a social relation circle of bank customers in the big data era)
黄文宇 (广发银行股份有限公司)
为加深对银行客户的洞察,提升银行营销获客与风险管控能力,广发银行基于Hadoop大数据平台,通过Hive on Spark、图计算进行数据加工,结合LFM社群发现、增强决策树等机器学习算法构建了银行客户社交关系模型,挖掘出银行客户社交关系圈,并应用于银行实际业务中。银行客户社交关系圈全面的反映了银行个人客户资金、社交等关系,以全新的视角实现银行对客户洞察从点到面、从单客到客群的扩展,填补银行个人客户社交关系研究与应用的空白。
16:20-17:00 (40m) 安全 (Security) 数据平台 (Data Platform)
ShadowMask: 脱敏你的敏感的大数据 (ShadowMask: Anonymize your sensitive big data)
李银辉 (万达网络科技集团), 千惠子 (万达网络科技集团)
数据安全是大数据平台需要的非常重要的特性,如何防止用户敏感信息泄露是数据安全最大的威胁之一。ShadowMask是一个基于Spark大数据平台的开源数据脱敏项目,满足大数据用户对于用户隐私数据脱敏的需求,控制隐私数据泄露风险与数据处理需求的平衡。本次演讲主要介绍项目目标,架构,挑战,应用案例以及当前项目状态。
11:15-11:55 (40m) 企业应用 (Enterprise adoption) 云 (Cloud), 数据平台 (Data Platform)
HAP:多流动态实时分析系统 (HAP: A multistream, dynamic, real-time analytic system)
Liye Zhang (新智新氦科技)
HAP是一个实时分析系统,能够支持流式的输入,并且可以支持多流的碰撞,同时,可以根据查询层来动态的改变底层的流式处理方式以实现不同业务需求。另外在Kubernetes上可以实现水平扩展、高可用、高效、高速,并在保证数据exactly once语义的情况下实现秒级的数据分析和查询。
13:10-13:50 (40m) 数据科学&高级分析 (Data science & advanced analytics) 数据平台 (Data Platform), 顶级数据科学 (Hardcore Data Science)
数据驱动企业增长 (Data-driven business growth)
ximeng zhang (GrowingIO)
当流量红利渐消,数据驱动用户和收入增长成为新的核心;用数据驱动决策,而不是靠拍脑袋;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些?
14:00-14:40 (40m) Hadoop内核&发展 (Hadoop internals & development), 英文讲话 (Presented in English) 数据平台 (Data Platform)
生产环境里的堆外内存HBase读路径——阿里巴巴的故事 (Off-heap HBase read path in production: The Alibaba story)
Yu Li (Alibaba), Ramkrishna Vasudevan (Intel)
Yu Li explains how Alibaba met the challenge of tens of millions requests per second to its Alibaba-Search HBase cluster on 2016 Singles' Day. With read-path off-heaping, Alibaba improved the throughput by 30% and achieved a predicable latency.
14:50-15:30 (40m) 物联网&实时计算 (IoT & real-time), 英文讲话 (Presented in English) 人工智能 (Artificial intelligence), 流媒体 (Streaming)
机器人的预测性维护实战:解读实时、可扩展的分析管道 (Robot predictive maintenance in action: Real-time, scalable pipelines explained)
Mathieu Dumoulin (McKinsey & Company), Mateusz Dymczyk (H2O.ai)
Mathieu Dumoulin and Mateusz Dymczyk walk you step by step through building a scalable, real-time anomaly detection pipeline applied to an industrial robot. You'll learn how to gather data from a wireless movement sensor, process it with H2O on a MapR cluster, and visualize the output through an AR headset by an operator.
16:20-17:00 (40m) Hadoop内核&发展 (Hadoop internals & development) 数据平台 (Data Platform), 架构 (Architecture)
Hadoop遇到云上对象存储——实现原理、陷阱和性能优化 (When Hadoop meets object storage: Implementation principles, pitfalls, and performance optimization)
余根茂 (阿里云), Haifeng Chen (Intel)
Hadoop社区很早就支持公有云上的对象存储,比如AWS S3和Azure Storge。最近发布的Apache Hadoop 3.0 (alpha)版本中增加了更多的云存储服务支持,比如Azure Data Lake和阿里云OSS。这些云存储都提供了Hadoop兼容的文件系统,用户可以把他们当成另一个HDFS使用。但是对象存储和HDFS在实现原理上有很多的不同,所以即使两者有类似的文件系统接口,很多API的行为完全不同。 本议题以阿里云OSS的实践出发,介绍阿里云OSS FileSystem实现进入Apache Hadoop历程。同时会介绍对象存储在文件上传、下载、删除和移动上和传统文件系统的区别,从性能和成本上评估HDFS和OSS文件系统的优劣。最后会结合对象存储的特性,给出一些优化方案,可以提升Hive或Spark等开源访问对象存储的性能。
11:15-11:55 (40m) 赞助商赞助 (Sponsored)
使用BigDL构建深度学习来驱动Apache Spark上的大数据分析,Intel赞助议题(Building deep learning power big data analytics on Apache Spark using BigDL—sponsored by Intel)
Yiheng Wang (Intel), Zhichao Li (Intel)
随着深度学习技术的不断成功,多种感知形式的应用程序在图像分类、对象检测和语音识别方面都有了快速增长。顺应这个趋势,英特尔推出的BigDL是基于Apache Spark的开源分布式深度学习框架。它包括丰富的对深度学习的支持和英特尔数学内核库(Math Kernel Library)加速,使用户能够在现有的Hadoop生态系统上快速开发具有极高性能的深度学习应用。本议程将遍历主要几个英特尔成功利用Apache Spark和BigDL搭建的深度学习应用。了解他们开发出的技术以及他们从构建这些应用中学到的经验教训,包括系统中的工具栈和设计中的考虑;图像识别和对象检测(faster-rcnn和SSD)的应用;具有深度语音和声学特征变换器的语音识别的应用。英特尔在使用Apache Spark MLlib和BigDL构建统一数据分析平台的同时获得的其他见解和经验也将被分享。
13:10-13:50 (40m) 赞助商赞助 (Sponsored)
Hadoop上的OLTP,BeagleData赞助议题(OLTP on Hadoop—sponsored by BeagleData)
乔旺龙 (天云融创数据科技(北京)有限公司)
在电信运营商、银行、保险、公安、军队、广电、政府等多个行业,每天都有巨量的数据产生,为了及时准确从数据中获取价值,合理高效的处理数据,我们结合在各个项目上的实施工作,在大数据领域做了很多实际的研究,在这里分享下我们在大数据领域里是如何实现高并发实时事务的,完成大数据的最后一公里的
14:00-14:40 (40m) 英文讲话 (Presented in English), 赞助商赞助 (Sponsored)
HDF 3.0: 轻松使用的开源物流网平台 - Hortonworks赞助议题(HDF 3.0: An open source IoT platform for everyone—sponsored by Hortonworks)
Yifeng Jiang (Hortonworks)
Yifeng Jiang offers an overview of HDF 3.0, the open source IoT platform that everyone can easily start using right now. HDF supports data collection from the edge, flow management to send data to the data center and the cloud, real-time processing, and visualization and analytics with open source technology and can be used with simple drag-and-drop operations.
14:50-15:30 (40m) 数据科学&高级分析 (Data science & advanced analytics) 人工智能 (Artificial intelligence), 深度学习 (Deep learning), 金融服务 (Financial services)
使用开源人工智能和机器学习工具训练现实世界的信用模型(Training a real-world credit model using open source artificial intelligence and machine learning tools)
Michael Li (The Data Incubator)
Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years.
16:20-17:00 (40m) 数据工程和架构 (Data engineering and architecture) 数据平台 (Data Platform), 架构 (Architecture)
GeaBase:蚂蚁金服大规模实时分布式图数据库(GeaBase: Ant Financial’s large-scale and real-time distributed graph database)
Benquan Yu (Ant Financial), 叶小萌 (Ant Financial)
介绍GeaBase(Graph Exploration and Analytics Database),蚂蚁金服自主研发的新一代分布式实时图数据库。支持海量数据规模,高并发的低延迟实时响应和大规模迭代运算。本次分享将介绍GesBase架构,工程实现和实际的应用。
11:15-11:55 (40m) 赞助商赞助 (Sponsored)
大数据即服务: 蓝鲸大数据私有云平台分享 - Dell赞助议题 (Big data as a service: Blue Whale big data private cloud platform sharing—sponsored by Dell)
Franky Ho (Dell), Albert Cheng (Advanced Analytic Service)
企业级的计算平台, 应该 能灵活的尝试现有的或新兴的大数据技术, 然后选择需要的技术以规模化部署, 本演讲分享了如何改造利用现有的IT基础设施 为一个敏捷的大数据私有云平台, 让各种规模的企业从他们的数据中获取更多价值。
14:50-15:30 (40m) Spark及更多发展 (Spark & beyond), 英文讲话 (Presented in English) 深度学习 (Deep learning)
Jumpy:一个曾经没有的深度学习的JVM接口 (Jumpy: The missing JVM interface for deep learning)
Adam Gibson (Skymind)
Adam Gibson offers a high-level overview of jumpy, a better Python interface for deep learning applications, and explains why Spark's Py4J interface for deep learning makes it impractical for deep learning applications.
16:20-17:00 (40m) AI应用 (AI applications) 人工智能 (Artificial intelligence), 架构 (Architecture), 深度学习 (Deep learning)
TensorFlow与自然语言处理模型的应用 (TensorFlow applications for natural language processing models)
李嘉璇 (Independent)
常常听到这种说法,自然语言处理是人工智能的桂冠。NLP从语言学上来看,研究的方向包括词干提取、词性还原、分词、词性标注、命名实体识别、词性消歧、句法分析、篇章分析等等。在这些基础的研究内容之上,面向具体的文本处理应用有机器翻译、文本摘要、情感分类、问答系统、聊天机器人等。使用的模型也在非常新颖地发展,从原来的RNN到GRU、到LSTM、到CW-RNN、到Seq2Seq、到加入Attention机制。从原本的Static unrolling到现在的Dynamic unrolling,甚至seqGAN。 自然语言处理的各个模型都有什么特点,除了加入双向以及加深网络外还有什么演化规律,每一次演化都是为了解决哪些技术哪点?接下来NLP基础模型还可能有哪些研究方向?在Sequential Data的处理及表示上有什什么演进规律和可以借鉴的经验?让我们来一起聊一聊这些话题。
09:00-09:05 (5m)
周五欢迎致辞 (Friday opening welcome)
Ben Lorica (O'Reilly Media), Doug Cutting (Cloudera), Jason (Jinquan) Dai (Intel)
大会日程主席 Ben Lorica、Jason Dai 与 Doug Cutting致辞开始第一天主题演讲。
09:05-09:20 (15m) 英文讲话 (Presented in English)
驱动金融服务的可能性 (Powering possibilities in financial services)
Mick Hollison (Cloudera), Jien Zhou (UnionPay)
Mick Hollison and Jien Zhou discuss how organizations are applying machine learning and advanced analytics to improve customer service and reduce the threat of fraud and cyberattack and explain how China UnionPay is using big data to deliver a better customer experience and manage risk.
09:20-09:35 (15m)
成长的烦恼--领英大数据平台500倍扩展中应对的挑战 (Growing pains: When your big data platform grows really big)
Zhe Zhang (LinkedIn)
领英是全球最早应用大数据技术的公司之一。在过去9年的时间里,领英的大数据平台扩展了将近500倍,从20台节点支持10个用户运行MapReduce,到现在超过1万台节点支持几千名工程师和科学家运行从交互式Presto查询到TensorFlow深度学习的各种大规模数据分析。这个报告会分享领英的大数据平台团队怎样解决大规模和高速增长带来的各种挑战。
09:35-09:45 (10m) 赞助商赞助 主题演讲 (Sponsored Keynote)
英特尔技术加速实现分析与人工智能的未来 - 英特尔赞助 (Accelerating the future for analytics and AI with Intel technologies—sponsored by Intel)
马子雅 (Ziya Ma) (Intel)
本主题将突出英特尔多方面的努力:大数据技术借助民主化进程,通过广泛的产品组合而整合生态系统;通过新的高度优化的AI解决方案的贡献,推进创新;并释放智慧以解决世界上最大的挑战,同时提供给客户最大的商业价值。
09:45-09:50 (5m)
机器学习时代(The Age of Machine Learning)
Ben Lorica (O'Reilly Media)
Details to come.
09:50-10:10 (20m)
发生在腾讯AI实验室里的大数据研究(Big data research at Tencent AI Lab)
Han Liu (Tencent AI Lab)
敬请期待更多细节。
10:10-10:25 (15m)
电子商务的未来:AI和大数据(An ecommerce future: AI and big data)
Dennis Weng (JD Group)
Online shopping accounts for over 15% of China's overall shopping market and has been growing more than 20% every year. Over the past 13 years, JD has successfully become a direct sale online retail giant. Dennis Weng explains how JD has used rich and high-value customer and business data to become one of the most important data companies in China.
10:25-10:45 (20m)
大数据在滴滴出行的应用 (Big data at DiDi Chuxing)
叶杰平 (Ye Jieping) (滴滴出行)
Every day, Didi Chuxing's platform generates over 70 TB worth of data, processes more than 20 billion routing requests, and produces over 14 billion location points. Ye Jieping explains how Didi Chuxing applies AI technologies to analyze such big transportation data and improve the travel experience for people in China.
10:45-11:15 (30m)
上午茶歇 (Morning Break)
15:30-16:20 (50m)
下午茶歇 (Afternoon Break)
17:00-18:00 (1h)
来宾招待会 (Attendee Reception)
喝着饮料和Strata Data Conference来宾交流,了解一下数据领域领先公司的最新技术和产品。
11:55-13:10 (1h 15m)
周五午餐行业桌会及午餐,由Intel赞助 (Friday Industry Tables and lunch sponsored by Intel)
行业桌会是相似行业或对同一主题感兴趣的人们轻松交流的最佳方式。
08:15-08:45 (30m)
快速社交 (Speed Networking)
周五和周六主题演讲之前的快速社交活动。大家会见到与会同行并享受随意的交流。
08:45-09:00 (15m)
Plenary: used to shorten grey space
To be confirmed

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site