科研速递 | 广东智慧教育研究院师生论文被CCF A类会议ACM MM 2024录用

发布时间:2024-09-21 来源:广东智慧教育研究院

       近日,ACM MM 2024 (The 32nd ACM International Conference on Multimedia) 公布论文录用通知,暨南大学广东智慧教育研究院师生的一篇论文被顺利录用。ACM MM(ACM International Conference on Multimedia)由国际计算机协会主办,是计算机科学领域中多媒体研究的国际顶级学术会议,也是中国计算机学会(CCF)推荐的计算机图形学与多媒体领域A类学术会议。会议旨在吸引多媒体、数据分析等领域的学者和专家,并为研究者提供一个共同探讨多媒体技术最新发展的交流平台。

入选论文介绍

论文题目:Reason-and-Execute Prompting: Enhancing Multi-Modal Large Language Models for Solving Geometry Questions

作者:Xiuliang Duan,Dating Tan,Liangda Fang,Yuyu Zhou,Chaobo He,Ziliang Chen,Lusheng Wu,Zhiguo Gong,Weiqi Luo,Quanlong Guan

通讯作者:方良达

论文概述:多模态大型语言模型(MM-LLMs)在各种视觉问答任务中表现出强大的推理能力。然而,在解决几何问题时,他们面临着缺乏严谨推理和精确算术的挑战。为了应对这一挑战,我们提出了一种新的提示方法,即推理与执行(R&E),以提高MM-LLMs解决几何问题的准确性。具体来说,R&E提示方法包括两个模板:推理模板和执行模板。具体来说,我们首先采用逆向思维方法来构建一个严格的推理模板,以便它引导MM-LLM从问题的最相关领域知识开始推理,并最终确定算术要求。然后,我们利用程序辅助思想构建执行模板,以指导MM-LLMs从推理模板中理解算术要求并生成可执行代码块。通过执行代码块最终获得答案。与思维链(CoT)和程序辅助语言(PAL)提示方法相比,我们基于6个真实数据集(包括4个几何数据集和2个科学数据集)在9个MM-LLMs上评估了R&E提示方法。与CoT和PAL相比,R&E方法在问题的回答正确率上提高了12.8%,为解决几何问题提供了强大的推理和算术能力。此外,我们还从解决几何问题的不同角度进一步分析了影响答案的准确性的因素,包括领域知识、几何形状、问题长度和语言。