我院多篇论文被自然语言处理领域顶级会议ACL2024录用

发布者：张岩峰发布时间：2024-05-22浏览次数：24

　　近日，第62届国际计算语言学年会（Annual Meeting of the Association for Computational Linguistics，简称 ACL）公布ACL 2024的论文录用消息。我院以东北大学为第一单位的9篇论文被ACL 2024录用，其中4篇论文被ACL主会录用，5篇被“Findings of ACL” 录用。

　　ACL年会是计算语言学和自然语言处理领域的国际排名第一的顶级学术会议，由国际计算语言学协会组织，每年召开一次，在中国计算机学会（CCF）推荐会议列表中被列为A类会议。2024年是第62届会议，将于2024年8月11日至8月16日在泰国曼谷举行。

　　ACL主会录用论文：

　　论文题目：STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

　　作者：张逸群，孔繁恒，王培东，孙爽，王凌帅，冯时，王大玲，张一飞，宋凯嵩

　　合作单位：阿里巴巴

　　简介：表情包虽然被广泛认为可以增强在线互动中的共情交流，但在当前的共情对话研究中仍未得到充分探索，这主要是由于缺乏全面的数据集。该论文介绍了STICKERCONV智能体(Agent4SC)，它使用协作智能体交互来真实模拟人类使用表情包的行为，从而增强多模态共情交流。在此基础上开发了多模态共情对话数据集STICKERCONV，其中包括12.9K段对话、5.8K个独特的表情包和2K个不同的对话场景。该数据集是多模态共情生成的基准。进一步，该论文提出了PErceive and Generate Stickers(PEGS)，一种多模态共情回复生成框架，并辅以一套基于大语言模型(LLM)的综合共情评价指标。该论文的实验证明，PEGS能够有效生成与语境相关并能引起情感共鸣的多模态共情回复，从而有助于开发更细致入微、更引人入胜的共情对话系统。

　　论文题目：EIT: Enhanced Interactive Transformer

　　作者：郑童，李北，鲍慧雯，肖桐，朱靖波

　　简介：两个原则：互补原则和共识原则在多视图学习文献中得到广泛认可。然而，多头自注意力（多视图学习的一个实例）目前的设计优先考虑互补性，而忽略共识。为了解决这个问题，该论文提出了增强的多头自注意力（EMHA）。首先，为了满足互补原则，EMHA消除了多个子空间中查询和键之间的一对一映射约束，并允许每个查询关注多个键。最重要的是，该论文通过引入两种交互模型，即内部子空间交互和跨子空间交互，开发了一种充分鼓励头部共识的方法。对各种语言任务（例如机器翻译、抽象概括和语法纠正、语言建模）的广泛实验显示了其优越性，模型大小略有增加。

　　论文题目：Cleaner Pretraining Corpus Curation with Neural Web Scraping

　　作者：徐志鹏，刘正皓，闫宇坤，刘知远，于戈，熊辰炎

　　合作单位：清华大学，卡内基梅隆大学

　　简介：该论文提出了NeuScraper，一种新颖的网页抓取工具，它利用浅层神经架构和页面布局信息，有效提取网页中主要且清洁的文本内容。NeuScraper的创新之处在于采用基于神经网络的方法，相较于传统的基于规则或特征的抓取工具，能更好地应对网页的复杂性和缺乏标准化。实验结果显示，NeuScraper在提取效率上实现了超过20%的性能提升，显著优于其他基线抓取工具。此外，使用NeuScraper从ClueWeb22和Common Crawl数据集中提取的数据进行语言模型预训练，能够在下游任务中获得更好的表现。NeuScraper不仅改善了语言模型的预训练数据集质量，还为深入挖掘和利用网络资源开辟了新途径，显示了广泛的应用潜力和实际价值。

　　论文题目：MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin

　　作者：周天硕，梅森，李欣泽，刘正皓，熊辰炎，刘知远，谷峪，于戈

　　合作单位：清华大学，卡内基梅隆大学

　　简介：多模态检索旨在根据用户查询在包含文本和图片的文档库中返回最相关的结果。然而，现有的多模态检索模型通常采用分而治之的方法分别检索不同模态的数据，再将结果融合，或者使用不同的编码器将不同模态的数据映射到统一的向量空间进行检索。这些方法存在模态融合困难以及不同编码器编码导致的模态差异较大等问题。为了解决这些问题并利用现有文本检索模型的优势，该论文提出了基于视觉模块插件的多模态检索模型（MARVEL）。MARVEL通过学习查询和多模态文档的嵌入空间来进行检索，使用统一的编码器模型对查询和多模态文档进行编码，从而缓解图像和文本之间的模态差距。具体来说，MARVEL通过将视觉模块编码的图像特征作为输入，使训练有素的稠密检索模型T5-ANCE具备图像理解能力。通过图片和标题对比学习的预训练方式，MARVEL使视觉模块适配到稠密检索模型，并在用户查询和不同模态文档之间的对比学习微调阶段，使语言模型能够捕获图片表示。实验结果表明，MARVEL不仅扩展了文本检索的优势到多模态场景，还展示了语言模型在提取图像语义和将图像特征映射到输入词嵌入空间的能力。

　　Findings of ACL录用论文：

　　论文题目：INTERVENOR: Prompting the Coding Ability of Large Language Models with the Interactive Chain of Repair

　　作者：王汉彬，刘正皓，王硕，崔淦渠，丁宁，刘知远，于戈

　　合作单位：清华大学

　　简介：该论文提出INTERVENOR框架，利用交互式代码修复链（Chain-of-Repair，CoR）提升大型语言模型的编码能力。INTERVENOR促使大型语言模型在代码修复过程中扮演不同的角色，充当代码学习者（Code Learner）和代码教师（Code Teacher），旨在模仿人类在代码修复过程中的代码修复和代码诊断行为。具体来说，Code Learner的任务是根据指令生成或修复代码，而Code Teacher则负责制定一个修复链，对Code Learner的代码修复过程进行指导。在生成修复链的过程中，Code Teacher需要检查Code Learner生成的代码，并利用外部工具代码编译器来编译和测试代码，进而利用返回的错误报告评估如何解决代码中的错误。借助代码编译器的反馈，INTERVENOR能够准确识别代码中的错误，并决解大型语言模型的思维退化问题。实验结果表明，INTERVENOR在代码生成和代码翻译任务中超过了基线模型，在这两个任务上比GPT-3.5分别提高了约18%和4.3%。

　　论文题目：PartialFormer: Modeling Part Instead of Whole for Machine Translation

　　作者：郑童，李北，鲍慧雯，王佳乐，单韦乔，肖桐，朱靖波

　　简介：Transformer前馈神经网络的设计选择导致了巨大的计算和参数开销。在这项工作中，该论文强调隐藏维度在设计轻量级 FFN 中的重要性，这是以前架构中经常被忽视的一个因素。在这一原则的指导下，该论文引入了PartialFormer，这是一种参数高效的Transformer架构，利用多个较小的FFN来减少参数和计算，同时保持基本的隐藏维度。这些较小的FFN被集成到多头注意力系统中，以实现有效的协作。该论文还提出了定制的头部缩放策略来增强 PartialFormer的功能。此外，该论文提出了一种类似残差的注意力计算，以改善PartialFormer 中的深度缩放。对9个翻译任务和1个摘要任务的广泛实验验证了该论文的PartialFormer方法在机器翻译和摘要任务上的有效性。

　　论文题目：Teaching Language Models to Self-Improve by Learning from Language Feedback

　　作者：胡驰，胡义民，曹航，肖桐，朱靖波

　　简介：人类反馈优化是ChatGPT等模型成功的关键，然而，现有的优化方法严重依赖人类反馈数据且流程复杂。该论文提出了一种利用语言模型自身反馈进行优化的方法。首先，利用GPT-4生成高质量的语言反馈，包括评价和改进。然后，通过指令微调增强开源模型的自我改进能力，并用微调后的模型生成大规模偏好数据，进一步对模型进行优化。实验证明，该论文的方法显著增强了Llama2的指令跟随能力，在AlpacaEval 2.0上超越了GPT-4 0314和Claude 2等强大的基线系统。

　　论文题目：Hybrid Alignment Training for Large Language Models

　　作者：王成龙，周航，常开妍，李北，穆永誉，肖桐，朱靖波

　　简介：针对LLM按序对齐（先SFT后RLHF）存在的优化冲突的问题，该论文设计了交替对齐方法和轻量化EWC方法。其中，交替对齐方法缓解了这种对齐之间数据使用不均衡所导致的LLM能力损失问题；轻量化EWC方法防止了在顺序对齐使用不同优化目标所带来的灾难性遗忘问题。该论文基于LLaMA7B和LLaMA13B在单轮对话和摘要任务进行实验，实验结果证明，该论文所提出的方法相比于基线可以实现一个更优的LLM对齐效果。此外，该论文的方法可以兼容不同的偏好对齐算法，比如PPO和DPO等。

　　论文题目：Exploiting Target Language Data for Neural Machine Translation Beyond Back Translation

　　作者：阿卜杜热西提·热合曼，罗应峰，阮俊豪，张春良，马安香，肖桐，朱靖波

　　简介：虽然神经机器翻译性能表现良好，但其在领域迁移、低频词翻译等方面的翻译能力依然较弱。为了弥补这些不足，一般的做法是为其提供额外的相似翻译知识，如双语词典、翻译记忆等。但这些双语翻译知识往往因规模不大，覆盖度不够，导致无法为MT系统提供足以相似的双语知识，无法大规模应用。这种情况在低资源领域更加突出。而单语数据在大多数语言和领域中是很丰富的，人们可以从中检索到高度相似的目标语信息。为此，该论文提出一种利用目标语言信息来增强NMT翻译能力的方法。具体来说，该论文利用交叉语言检索工具从目标语言数据中检索k个与待翻译句子相似的句子，并将其与待翻译句子配对，构造伪双语句子集。然后，利用kNN-MT的思路来解决该问题。同时，该论文还尝试了大语言模型集成到该方法中的可能性。该论文在多领域数据集上验证了该方法的有效性。该方法在富资源和低资源领域中均得到了较大幅度的性能提升。

　　上述研究成果的取得标志着东北大学计算机科学与工程学院在自然语言处理和人工智能领域取得了重要进展，有效提升了学院在相关领域的学术影响力和贡献度。