O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

Alluxio (前Tachyon) 以内存为中心的虚拟分布式存储系统的原理与使用

15:30–16:10 2016年8月05日
Spark及更多新发展
地点: 多功能厅5B+C(Function Room 5B+C)

必要预备知识

对大数据生态系统有初步的了解,比如知道Hadoop和Spark等系统。对分布式技术有初步的了解。

描述

在大数据应用场景中,针对不同的计算框架与任务分别配置数据源和存储资源,以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio(前Tachyon)是世界上第一个以内存为中心的虚拟分布式存储系统. 它为不同的计算框架提供的统一的接口来访问不同类型的数据源,并实现了多层次的存储机制,从而有效的解决数据存储的管理与配置问题:

  1. 针对集群内存容量有限的情况,Alluxio提供的分层存储机制,不仅可以管理内存,也可以同时管理SSD和HDD。这不但能够扩大Alluxio管理资源的容量,使得计算框架可以处理更大规模的数据,同时还可以自动的把更经常访问的热数据迁移到更快的存储层上,使得数据的访问速度能比现有常规方案快几个数量级。而这一切过程都对计算框架完全透明.
  2. Alluxio为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据,比如阿里巴巴OSS/亚马逊S3/谷歌GCS等云存储、OpenStack Swift、Ceph、HDFS、GlusterFS等。并且Alluxio提供了统一的命名空间以及挂载API,可以使得用户在Alluxio中同时访问管理多个数据源中的数据。并且在Alluxio上进行的如创建、删除、重命名等操作会直接映射到底层存储上的操作。

Alluxio的工程师富羽鹏与范斌会详细讲解Alluxio的分层存储管理机制与统一命名空间的设计与使用。演示如何在Alluxio中配置内存、SSD、HDD,以及Alluxio内部对数据在不同层之间迁移的机制与策略。同时也会介绍定制化的数据管理策略,例如用户可以把一个文件指定存储在某个层上,或者设定一个文件的生命周期。此外还会讲解Alluxio与底层存储的对接接口,与对不同类型的底层存储进行无缝对接的操作。

Photo of Yupeng Fu

Yupeng Fu

Alluxio

富羽鹏是Alluxio公司的工程师,也是开源软件Alluxio的主要贡献者与PMC成员。在加入Alluxio之前,曾在Palantir带领团队开发存储平台,再之前在加州大学圣地亚哥分校进行了博士学习。富羽鹏本科与硕士毕业于清华大学。

Photo of Bin Fan

Bin Fan

Alluxio

Alluxio核心软件工程师,博士毕业于卡内基梅隆大学。曾经在Google, Microsoft Research就职。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site