报告题目:基于元数据主题模型的短文本分析和主题结构挖掘
报告摘要:
作为一种概率生成模型,主题模型主要应用于离散数据并假设输入数据由若干“潜在因素”生成。在文本分析中,这些“潜在因素”通常包含一些特定的含义,而每一种含义又可以被一组特定的词所解释,所以这些“潜在因素”又可以被称为“主题”。因此,一篇文章里的词频可以视作是由若干不同含义的主题共同生成的,而每种主题在文章中所占的比重也不同。在近二十年里,主题模型在机器学习,数据挖掘及自然语言处理等领域已取得了广泛应用和巨大成功。
然而,传统主题模型仅仅依靠文本里的词频信息来挖掘主题,限制了这些模型在短文本分析和主题结构发现等领域的应用。具体而言,互联网,社交网络,手机应用等近年来生成了大量的短文本数据,如微博,产品评论,新闻头条等。在这些短文本中,由于词频信息不足,传统主题模型很可能无法挖掘出有意义的主题。另一方面,很多现有模型对多个主题的独立性作出了假设。然而,我们很容易发现不同主题之间有语义相关性,甚至是结构性。 为了挖掘主题结构,我们通常需要提升模型的复杂度,进而模型训练则需要更多的词频信息。在以上两个领域里,平衡模型复杂度与词频信息丰富度之间的冲突,是我们要解决的关键问题。除了词频信息,互联网生成的文本中存在大量不同种类的元数据,比如文章的作者,类别,时间等,又如词相似性和词向量等。这些元数据信息可以用来丰富词频信息,帮助我们解决主题模型在上述领域里的问题。
为了利用多种元数据提升主题模型在短文本分析和主题结构挖掘中的性能和可解释性,我们在研究中提出了若干具有理论性的方法。这些方法在基于主题模型的文本分析,如文本分类,聚类及可视化中,取得了较好的效果和广泛的应用,并发表在ICML,NeurIPS,ACL,ICDM等会议中。在本次报告中,我将系统性地介绍我们在这方面的工作。
报告人介绍:
赵贺博士目前在澳大利亚莫纳什大学IT学院担任研究员。他在南开大学和南京大学分别取得学士和硕士学位,并于2019年在莫纳什大学取得博士学位。他主要研究方向是基于统计的机器学习,特别是针对大规模复杂数据的贝叶斯建模与统计推断,及其在自然语言处理,图模型,协同过滤,和计算机视觉等领域中的应用。他的研究致力于以自动化方式完成对复杂数据的表示学习,不确定性分析,及对其生成机制和动态变化的理解。目前,他专注于利用深度学习来提高概率建模和推断的性能,效率,鲁棒性及在大数据上的可拓展性。他的科研成果发表在一流机器学习,自然语言处理,数据挖掘会议中,如ICML,NeurIPS,ACL, AISTATS, ICDM。 他是多个国际会议的程序委员会委员和期刊审稿人,如ICML,NeurIPS, ICLR,AISTATS,AAAI,IEEE Transactions on Pattern Analysis and Machine Intelligence,Machine Learning Journal等。
报告时间:2019年11月28日(星期四)10:00-11:30
报告地点:yl6809永利官网中心校区行政楼601会议室
主办单位:yl6809永利官网yl6809永利官网