近日,由广东智慧教育研究院和中山大学HCP实验室一同发起,联合牛津大学、MetaAI、莱斯大学、和约翰霍普金斯大学等多所国外多个知名科技企业及高校的专家学者共同举办的“NFVLR@CVPR2023研讨会”圆满结束。
研讨会主页见:https://nfvlr-workshop.github.io/
更多现场视频和精彩报告回放,请移步:https://youtu.be/q61jQwX6V5U
图1 研讨会主办地温哥华会议中心现场
本次讨论会的主题围绕着现在的视觉语言多模态研究下的三大技术方案“因果推理”,“大模型与提示”以及“视觉组合化”展开,盛情邀请了包括UCB、哥伦比亚大学、华盛顿大学、南洋理工大学在内的多位知名学者进行交流。
图2 图灵奖得主Judea Pearl的学生,哥伦比亚大学的Elias Bareinboim教授
图3 南洋理工大学刘子纬教授
图4 著名华人学者李飞飞教授的学生,华盛顿大学Ranjay Krishna教授
大会特邀报告的具体嘉宾名单和主题报告内容如下——
研讨会特邀报告
1
Hanwang Zhang, Nanyang Technological University, “Causality in Visual Recognition”.
2
Elias Bareinboim, Columbia University, “On the Causal Foundations of Artificial Intelligence (Explanability and Decision-Making)”.
3
Anna Rohrbach, University of California, Berkeley, “Learning from Language”.
4
Zepney Akata, Universität Tübingen, “Explanability in Deep Learning through Communication”.
5
Allan Yuile, Johns Hopkins University, “Visual-Language Models: An Analysis By Synthesis Perspective”.
6
Ziwei Liu, Nanyang Technological University,“Towards Building Practical AI Assistant”.
7
Ranjay Krishna, Washington University, “Vision-language compositionality”.
此外本次研讨会的paper track还接收到来自全球各地的知名学者共十来多投稿,经过严格筛选,共有5篇论文被我们录取。
研讨会收录论文
1
Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hung Chen, Marcel Worring.
Causalainer: Causal Explainer for Automatic Video Summarization
2
Giacomo Camposampiero, Loïc Houmard, Benjamin Estermann, Joël Mathys, Roger Wattenhofer.
Abstract Visual Reasoning Enabled by Language
3
Avinash Madasu, Vasudev Lal.
Is Multimodal Vision Supervision Beneficial to Language?
4
Jun Zhu, Jiandong Jin, Zihan Yang, Xiaohao Wu, Xiao Wang.
Learning CLIP Guided Visual-Text Fusion Transformer for Video-Based Pedestrian Attribute Recognition
5
Xiaoxuan Fan, Yulu Li, Yuyu Zhou, Quanlong Guan.
A Survey for Multimodal Mathematical Reasoning
近年来,基于大模型的语言视觉跨模态智能已经成为当前人工智能革命的重要力量。广东智慧教育研究院将继续坚持源头创新、应用驱动和开放共享的原则,致力于在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究。我们将与国内外知名企业和机构合作,推动人工智能技术的发展和应用,为推动人工智能的进步和应用做出贡献。