yl6809永利官网夏婷玉同学的论文被CCF-A类会议ACL'2024会议接收

发布时间:2024-05-29 点击:

yl6809永利官网夏婷玉同学的论文被CCF-A类会议ACL 2024接受。ACL全称The 62nd Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域的CCF-A类国际顶级学术会议,是公认的自然语言处理领域最具影响力的国际会议之一。该会议每年举办一次,由国际计算语言学学会协会(The Association for Computational Linguistics)主办。

论文题目:Language Models can Evaluate Themselves via Probability Discrepancy

论文作者:夏婷玉

指导教师:邬渊助理教授、常毅教授

收录会议:ACL’2024(CCF-A)

论文概述:

随着大型语言模型(LLMs)的快速发展,开发稳健的评估框架以准确衡量它们的性能变得至关重要。但目前的LLM评估方法还存在一些缺陷,首先,现有的评估范式往往依赖于专用的评估模型(如GPT4),这导致模型的评估不仅开销大且存在数据泄露的风险,此外,专用的评估模型无法实现针对新领域新能力的评估,因此,实现模型的自我评估尤为重要。本文首先分析了不同LLM在多次回答问题时的稳定程度,能力较高的模型在面对同一问题时,往往显示出更均匀的概率分布。在这一基础性见解的基础上,本文提出了一种新的自我评估方法 ProbDiff,用于评估各种LLMs的有效性。ProbDiff消除模型评测过程中对外部专有模型(如GPT-4)的依赖,它利用被评估LLM来计算初始答案和其修订答案之间的概率差异来评测模型对于不同任务的自信度,自信度越高的模型其能力越强。ProbDiff在自然语言生成(NLG)任务,如翻译、摘要生成,以及小红书博客写作任务中取得了与GPT4一致的评测结果,在LLM alignment任务中,如AlignBench、MT-Bench和AlpacaEval,ProbDiff也在大部分情况下可以得出与GPT4评测一致的结果。