O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

融合知识图谱的文本异构信息网络构建以及在机器学习中的应用

11:55–12:35 2016年8月06日
数据科学与高级分析
地点: 报告厅(Auditorium)
平均得分:: *****
(5.00, 1 次得分)

必要预备知识

大学理工科高年级的基本知识,例如概率论。

描述

机器学习的过程往往是需要监督的,要耗费领域专家的宝贵时间来标注数据,这阻碍了机器学习走向实用。与此同时,无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。

我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络。我们使用两个已有的知识库作为通用知识的来源。 一个是Freebase,它是一个合作收集的知识库,包含了实体以及他们的连接方式。另一个是YAGO2,它是一个自动从Wikipedia 抽取知识,并映射到语言知识 库WordNet上的一个知识库。

异构信息网络中的特定化知识应用于机器学习模型中。在文本聚类中,我们提出了一种新的基于通用知识约束的方法,其中的约束来自异构信息网络中的多个类型和子类型。在文本相似度计算中,我们提出了一种新的基于异构信息网络的无结构数据的相似度度量方 法,其中使用到了多类型的实体所组成的关系元路径作为关键信息。在两个文本的基准数据集(20 newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。

相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。我们将深入研究如何得到更多、更有效的世界知识来更好地帮助机器学习任务提升学习效果。

Photo of 张铭

张铭

北京大学

张铭,北京大学信息科学技术学院教授,博士生导师,ACM Education Council惟一的中国委员兼任中国ACM教育专委会主 席,是ACM/IEEE IT2017学科规范起草小组成员。自1984年考入北京大学,分别获得学士、硕士和博士学位。研究方向为文本挖掘、社会网络分析、教育大数据等,目前主持国家自然科学基金和教育部博士点基金在研项目,合作发表科研学术论文100多篇(ICML, KDD, AAAI, IJCAI, ACL, WWW, TKDE等A类会议和期刊),获得ICML 2014最佳论文奖。发表了SIGCSE、L@S等教学研究论文,出版学术专著1部,获软件著作权6项,获发明专利3项。主编多部教材,其中2部教材为国家“十一五”规划教材,《数据结构与算法》获北京市精品教材奖并得到国家“十二五”规划教材支持。主持的“数据结构与算法”被评选为国家级和北京市级精品课程,也是教育部精品资源共享课程。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site