O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

Fregata:在Spark上支持万亿维模型的机器学习算法库(Fregata: Machine learning algorithm libraries for supporting trillion-dimensional model on Spark)

此演讲使用中文 (This will be presented in Chinese)

张夏天 (TalkingData)
13:10–13:50 Friday, 2017-07-14
数据科学&高级分析 (Data science & advanced analytics)
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): Intermediate
平均得分:: *****
(5.00, 1 次得分)

必要预备知识 (Prerequisite Knowledge)

A basic knowledge of machine learning

您将学到什么 (What you'll learn)

Understand Fregata's core technology

描述 (Description)

1. 我们在机器学习上遇到的挑战
在实现Lookalike功能时,我们遇到了训练时间太慢,调参太繁琐,对于大规模模型很难支持等等问题。现有的大规模机器学习工具,都还不能很好的支持我们的需求,因此我们基于我们的需求和各种现实约束,研究了适合我们的大规模机器学习方法。我们整理后,开源了Fregata项目,从2016年11月中旬开源以来,在Github上已经获得了超过400颗星

2. Fregata的特点
Fregata完全基于Spark标准接口,没有修改Spark任何源码,可以非常容易的在Spark平台上使用。Fregata的核心算法无需调参,可以保证在不同的问题上保持很高的模型精度。Fregata算法训练速度很快,支持模型维度可达到一万亿维。Fregata Logistic Regression算法,在消耗大约2-4台服务器的机器资源,对于5.1亿条,1万亿维度的训练数据,可以在15分钟内完成训练。

3. GSA-无参数的优化方法
Fregata的核心优化方法是我们提出的GSA优化方法,该方法在优化过程中没有任何参数需要设置。真正做到无参数,其收敛速度和稳定性在不同的问题上都有很好的表现。

4. 适合Spark的模型并行方法
Spark的计算模型对机器学习有很大的限制,我们对于线性模型发现模型平均的方法能够取得很好的效果,在大规模数据上通常能达到扫描数据一遍即收敛。

5. 实验结果和应用
一些对比实验和我们的实际应用。

6. Fregata的未来
未来的目标,坚持 轻量级,易使用,高性能的定位



In the implementation of its Lookalike function, TalkingData encountered various difficulties: training time was too slow; parameter tuning was too complicated; it was hard to support large-scale models; and so on. Existing large-scale machine learning tools did not support its requirements. Therefore, the company developed its own large-scale machine learning method, which was open-sourced as the Fregata project. Since it was open-sourced in 2011, Fregata has obtained more than 400 stars on GitHub.



Fregata uses standard Spark APIs without any modification of Spark’s source code, which allows it to be very easily used on Spark platforms. Fregata’s core algorithms are parameter free, which ensures very high model accuracy for various problems. Fregata algorithms have higher training speed compared to MLlib and can support models with trillion dimensions. Using two to four server resources, Fregata’s Logistic Regression algorithm can complete training for a 51 million training dataset with 1 trillion dimensions within 15 minutes.

 Fregata uses our own GSA optimization method, which doesn’t require any parameter tuning during the optimization process, hence archiving truly parameter-free. In terms of convergence speed and stability, it offers good performance for various problems.



张夏天 discusses the challenges encountered in machine learning, how they can be overcome with Fregata, the parameter free optimization method GSA, parallel methods suited for Spark, experiment results and applications

, and the future of Fregata.

Photo of 张夏天

张夏天

TalkingData

TalkingData首席数据科学家。2016年创建Fregata开源项目。曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职。10年大规模机器学习,数据挖掘有深入的研究和实践经验。目前在TalkingData, 负责数据科学工作。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site