报告标题:课程学习-从类人学习到混合智能(Curriculum Learning: from Human-like Learning to Hybrid Intelligence)
报告摘要:
人工智能发展至今,在某些特定任务上的表现已经超越了人类,但是在另外一些方面却远不如人类智能。机器学习与人类学习之间的边界在哪里?如何缩小两者差距?如何结合两者的优势构建更强大的混合智能?在本次报告中,我们会聚焦课程学习 (Curriculum Learning)。人类学习离不开课程。课程决定了学习的顺序。好的课程设计会加速和简化学习过程,并帮助我们获得普遍适用的知识和技能;但是坏的课程会让学习变得艰难,容易遗忘,难以融会贯通。然而当前主流的机器学习框架主要建立在用随机顺序多次重复的学习大量样本和任务的基础上,并不会像人类那样提前计划多个学习阶段或者根据目前学习进度调整下一步的学习内容和目标。现有的课程学习方法主要用启发式分数来选择每一步的训练数据,但是缺乏对整个学习过程的建模和优化。在它们主要专注的单任务监督学习上,课程学习并不能带来特别显著的优势,而实际应用中的数据和任务远比这复杂,所以为不同学习阶段选择训练数据和任务变得更为重要。
在报告的第一部分,我将介绍几种新的对课程学习的优化建模和问题描述,它们可以广泛用于监督学习、半监督或自监督学习、噪声标签学习、多样化集成学习、以及强化学习,并与目前深度学习中的热点问题建立有趣的联系。实验中,我们观察到课程学习在数据不完善的弱监督学习任务中有显著优势。在报告的第二部分,我将介绍一类新的对待选的训练数据的评分机制。它们通过分析训练动态来获得分数,类比于人类教师基于学生的学习曲线和进度来调整教学内容。与常用的瞬时反馈(例如,每步的损失)相比,这些分数可以节省大量计算量,并捕获有关神经网络损失景观的锐度和训练数据不一致性的更丰富的信息,从而有针对性的提升模型短板,进而提高学习的效率和泛化能力。在这些研究中,我们有一个普遍的发现:所选训练数据的多样性与其他分数相结合,可以构建更为有效的课程。此外,我们观察到人类的学习策略有助于课程学习规划粗略的学习阶段,但基于模型训练动态的分数在精细选择具体样本和任务方面比人类更有效。对于训练目前并不完美的神经网络模型,这两者的结合有助于实现人类和机器共建的更强大且可信的混合智能。
个人简介:
周天翼(https://tianyizhou.github.io/),美国马里兰大学帕克分校计算机系Tenure-track助理教授,华盛顿大学计算机博士 (师从Jeff Bilmes教授),北京理工大学自动化专业本科。曾任谷歌访问研究科学家,曾在微软研究院和雅虎研究院实习,曾在南洋理工大学和悉尼科技大学学习和从事研究(师从陶大程教授)。研究领域为机器学习,优化算法,自然语言处理。目前研究方向为课程学习 (Curriculum Learning),人类策略与机器学习的混合智能,以及它们在各类机器学习任务中的应用,包括弱监督学习,表征学习,强化学习,对抗学习,联邦学习及去中心化学习,协同学习,集成学习,去偏见学习,多模态学习和基础模型,等等。已在NeurIPS, ICML, ICLR, AISTATS, ACL, EMNLP, NAACL, COLING, CVPR, KDD, ICDM, AAAI, IJCAI, ISIT, Machine Learning (Springer), IEEE TIP/TNNLS/TKDE等顶会与期刊上发表近80篇论文。曾获ICDM 2013最佳学生论文奖,2020 IEEE TCSC最具影响力论文奖,国家优秀自费留学生奖学金。
报告时间:2022年10月10日(上午)10:00-11:30
报告地点:腾讯会议:958-434-234