O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

HAP:多流动态实时分析系统 (HAP: A multistream, dynamic, real-time analytic system)

此演讲使用中文 (This will be presented in Chinese)

Liye Zhang (新智新氦科技)
11:15–11:55 Friday, 2017-07-14
企业应用 (Enterprise adoption)
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)

必要预备知识 (Prerequisite Knowledge)

参加者需要对Docker,Kubernetes,OLAP有基本概念和了解,并对分布式系统、流处理有相关经验。

您将学到什么 (What you'll learn)

能够大体上了解流式处理,并且能够学习到多流碰撞及动态实时分析系统的整个架构实现。

描述 (Description)

批处理的计算框架诸如Hadoop和spark在处理海量数据时比较高效,但是如果使用它们来做流式处理的时候显得过于笨重,较高的延时对于某些流式应用是不可接受的。虽然对于流式应用我们可以选择Flink、Spark Streaming、Heron等这些处理框架,但是这些框架只能够支持受限的多流的碰撞处理。一般情况下,企业会使用Lambda架构来实现流式的分析,这个过程需要开发者针对特定的业务去开发相应的代码,开发成本相对较高。另一方面,对于当前一些主流的OLAP系统,虽然可以提供较好的分析能力,但对于流式的输入甚至对于多流的预处理会显得无能为力。

在本会话里,我们会介绍HAP,一个多流动态实时分析系统。HAP是一个实时分析系统,能够支持流式的输入,并且可以支持多流的碰撞,同时,可以根据查询层来动态的改变底层的流式处理方式以实现不同业务需求。我们可以看到HAP在Kubernetes上可以实现水平扩展、高可用、高效、高速,并在保证数据exactly once语义的情况下实现秒级的数据分析和查询。


Batch processing frameworks such as Hadoop and Spark are more efficient in handling massive amounts of data. But if they are used to do stream processing, they are too bulky and have higher latency. Flink, Spark Streaming, and Heron are commonly used for streaming applications, but these frameworks can only support limited multistream collision processing. Under normal circumstances, companies can use the Lambda architecture to implement streaming analytics, but this process requires developers to develop specific codes for specific businesses, which makes the development cost relatively high. On the other hand, although some of the current mainstream OLAP systems offer better analysis, they are incapable of facing the streaming input or even multistream preprocessing.

Liye Zhang offers an overview of HAP, a multistream dynamic real-time analytic system that can support streaming input and multistream collision and can dynamically change the underlying streaming approach to support different business needs. HAP on Kubernetes can achieve scale-out, high availability, high efficiency, and high speed as well as second-level data analysis and query with exactly once semantic ensured.

Photo of Liye Zhang

Liye Zhang

新智新氦科技

张李晔是新氦科技大数据架构师,目前主要专注于基于容器的流处理和实时分析平台的搭建和开发。新氦科技是新智集团下属,上海的一家大数据基础架构公司。在加入新氦科技之前张李晔在英特尔亚太研发有限公司担任大数据软件工程师,曾从事Spark和Hive的相关的代码开发、性能调优等工作。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site