近日,暨南大学广东智慧教育研究院师生论文《A Synergistic Multi-Agent Framework for Camouflage Attack on Large Language Models》被自然语言处理领域重要期刊 IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP) 正式录用。

TASLP 主要聚焦语言计算、音频技术与语音处理等研究方向,持续发表兼具理论深度与实际应用价值的高水平原创成果。该期刊由 IEEE 信号处理学会出版,是相关领域科研人员高度关注的重要学术交流平台之一。TASLP 在2024年的影响因子为4.1,位列JCR Q1分区,是中国计算机学会(CCF)推荐的B类期刊、中国人工智能学会(CAAI)和清华大学推荐的A类期刊。
入选论文介绍
论文题目:A Synergistic Multi-Agent Framework for Camouflage Attack on Large Language Models |
作者:李薛毅(暨南大学)、周卓能(暨南大学)、刘子韬(暨南大学)、吴永东(暨南大学)、罗伟其(暨南大学) |
通讯作者:刘子韬 |
摘要:大语言模型依托大规模且多样化的预训练语料,在复杂决策任务中展现出较强的能力。然而,在安全攻防背景下,攻击者不断提出新的攻击手段,诱导模型生成有害内容,对模型的安全性与鲁棒性带来了严峻挑战。现有研究中的攻击方法大多采用单智能体策略,难以刻画真实世界攻击中普遍存在的协同行为特征,攻击者往往通过相互配合来掩盖恶意意图,从而显著增加检测与防御的难度。针对上述问题,本文提出了一种多智能体攻击框架 CamouflageAttack,通过协同对抗提示的方式,同时提升攻击效果与伪装效果。该框架通过协调策略智能体、伪装智能体和执行智能体,生成既能规避检测、又能稳定诱导模型产生目标响应的攻击提示。其中,策略智能体负责生成候选提示以提高攻击成功率,伪装智能体对提示进行优化以增强语言自然性,执行智能体则基于最终提示完成具体的攻击过程。在离线实验环境和真实应用场景中的大量实验结果表明,与现有方法相比,CamouflageAttack 在攻击成功率和伪装效果方面均取得了更加稳定且显著的提升。 |
