科研速递｜广东智慧教育研究院师生论文被计算机视觉领域顶级会议ICCV2023录用

2023年8月，计算机视觉领域三大顶级会议之一的ICCV会议论文接收结果公布，广东智慧教育研究院两篇论文被顺利录取！

图1 ICCV会议海报图

ICCV，英文全称International Conference on Computer Vision，中文全称国际计算机视觉大会，这个会议也是由IEEE主办的全球最高级别学术会议，每两年在世界范围内召开一次，在业内具有极高的评价。ICCV2023将于2023年10月2日至6日在法国巴黎举行。本届会议共有8068篇投稿，接收率为26.8%。暨南大学广东省智慧教育研究院一共入选两篇文章，其中涉及到多模态认知与内容生成的研究工作。

入选论文介绍

论文题目：A Retrospect to Multi-prompt Learning across Vision and language

作者：Ziliang Chen, Xin Huang, Quanlong Guan, Liang LIn, Weiqi Luo

通讯作者：Quanlong Guan

论文概述：计算机视觉研究正随着视觉-语言预训练模型的出现而取得前所未有的进展。提示学习是有效访问视觉-语言预训练模型的技术钥匙，其优势在于它允许我们利用有限的资源实现对下游任务的快速模型适应。然而，现有的提示学习研究研究往往围绕单提示范式，甚少探究其对应的多提示学习形式以及其技术潜力。本文旨在为视觉-语言多提示学习提供一个系统性的回顾。我们从最近被发现的恒等模态间隔现象开展讨论，并以实验的方式将该现象扩展到可学习优化的提示嵌入空间。同时，我们基于恒等模态间隔现象作为理论假设，证明了跨模态不可判别性问题的存在：即给定一组跨模态对比学习模型（如CLIP）下，利用单个提示模板实现的提示询问结果在面对包含多个不同视觉语义概念的图像时，其提示询问结果会不可避免地出现歧义现象。跨模态不可判别性问题的存在进一步阐释了利用多提示的方式去实现提示学习的必要性。基于该观察，我们进一步提出基于能量的多提示学习（Energy-based Multi-Prompt Learning，EMPL），通过从由视觉-语言预训练模型隐式定义的基于能量的分布中抽取实例的方式，间接为每一个图像询问生成多个提示嵌入实现多提示学习。我们的EMPL方法不仅能高效节省参数使用，同时能严格地诱导出域内和域外开放词汇泛化之间的基于不确定性建模下的理论平衡。我们在MSCOCO数据集上验证了我们对恒等模态间隔现象对提示学习背景下的构想，同时我们提出的EMPL方法也在基类新类泛化，跨领域泛化以及跨数据集迁移的实验设定下取得了卓越的性能提升

图2 论文内容图

论文题目：Law-Diffusion: Complex Scene Generation by Diffusion with Layouts

作者：Binbin Yang, Yi Luo, Ziliang Chen, Guangrun Wang, Xiaodan Liang, Liang Lin

通讯作者：Liang lin

论文概述：由于扩散模型的快速发展，目前图像合成领域取得了前所未有的进展。以往的工作主要依赖于预训练的语言模型，但文本信息往往过于抽象，我们难以通过文本准确指定图像的所有空间属性，例如场景的空间布局配置，从而导致复杂场景生成的结果不够理想。在本文中，我们通过提出一个语义可控的布局感知扩散模型，称为 LAW-Diffusion，实现了准确的复杂场景生成。与以往只探索类别关系的布局到图像生成（L2I）方法不同，LAW-Diffusion 引入了一个空间依赖解析器，将对象之间的位置感知语义一致性编码为布局嵌入，并生成一个具有和谐物体上下文关系的场景。此外，LAW-Diffusion 还引入布局感知的隐变量嫁接机制来重新组合局部区域语义，实现对图像的实例级别重配置。为了更好地验证生成场景的合理性，我们还提出了一个新的 L2I 任务评估指标，称为场景关系分数，用于衡量图像在保持上下文对象之间合理和谐关系方面的表现。在 COCO-Stuff 和 Visual-Genome 上进行的综合实验表明，我们的 LAW-Diffusion 在生成性能方面达到了最先进的水平。

图3 论文内容图

科研速递 ｜ 广东智慧教育研究院师生论文被计算机视觉领域顶级会议ICCV2023录用

科研速递｜广东智慧教育研究院师生论文被计算机视觉领域顶级会议ICCV2023录用