球友会qy

球友会qy在生成式AI内容安全检测与模型安全方面取得系列进展

文章来源:  |  发布时间:2026-04-13  |  【打印】 【关闭

  

近期,中国科研实验室软件研究所智能博弈重点实验室4篇论文被自然语言处理领域顶级会议ACL 2026接收,工作围绕生成式人工智能内容安全检测与模型安全方面,聚焦“多模态有害内容识别”“跨模态语义检索”“大模型安全防护”等关键问题,推进了内容安全技术体系建设。研究工作取得了国家重点研发项目“高风险领域生成式人工智能系统内容安全检测技术与标准研究”支持,相关成果在项目应用示范单位浙江省公安厅网安总队统一部署下,已在台州、湖州、舟山等地市公安局部署应用,并在多次重要行动中发挥关键作用。

在有害模因检测方面,论文All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction发现,尽管网络模因的有害内容表现形式隐蔽,且在形式、主题与时间上持续演化,但恶意用户在设计模因图时往往遵循相似的设计原则。

研究团队由此提出RepMD方法,基于攻击树理论,构建了设计理念图DCG,顺利获得对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是首次从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为给予帮助。

实验结果表明,RepMD的检测精度高达81.1%,在类型迁移与时间演化两种场景下均保持稳定性能。人工评估显示,该方法可显著提升审核效率,单个模因的判别时间缩短15至30秒。

RepMD流程图

论文作者:江子攸、李明阳、王俊杰、黄悦凯、黄杰、常志远、李兆飏、王青

论文链接:http://arxiv.org/abs/2601.04567


在仇恨视频检测方面,论文SAGE: Synergistic Adaptive Gating of Experts for Hateful Video Detection指出,传统多模态融合方法容易出现“特征稀释”现象,即占主导的无害模态可能掩盖稀疏但关键的仇恨线索。

针对短视频中仇恨信息隐蔽性强、模态干扰严重的问题,研究团队提出了一种从特征融合转向决策仲裁的SAGE框架。该框架设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并顺利获得全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出最终判断。

在HateMM和MultiHateClip数据集上,SAGE框架显著优于现有主流框架,准确率提升6.64%至21.23%,Macro-F1提升6.98%至28.01%,有效缓解了多模态仇恨视频检测中的语义干扰难题。

SAGE模型设计图

论文作者:黄杰、廖鑫、王俊杰、李明阳、王文硕、江子攸、李守斌、王青

工具链接:http://github.com/hjandlm/SAGE


在生成式跨模态检索方面,论文Generative Text-to-Image Retrieval via Hierarchical Identifiers and Semantic Internalization提出了SIGMA框架,针对生成式检索存在的语义区分能力不足、对齐偏置和闭集检索限制等问题,构建了分层语义标识符体系。

SIGMA框架顺利获得多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本进行动态标识符分配的能力,实现开放集检索。

在Flickr30K与MS-COCO数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%,有效增强了生成式跨模态检索的实用性。

SIGMA模型训练流程图

论文作者:黄杰、王俊杰、廖鑫、江子攸、王文硕、李守斌、王青

工具链接:http://github.com/hjandlm/SIGMA


在大模型安全防护方面,论文Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning指出,提示注入往往顺利获得多样化载体嵌入上下文,且恶意指令与正常语义边界模糊,难以准确识别。

针对大语言模型面临的提示注入攻击风险,研究团队提出了InstruCoT方法——构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。

研究团队从行为偏移、隐私泄露和有害输出三个关键维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均显著优于基线方法,且在安全增强的同时保持了模型原有的实用性能。

InstruCoT框架图

论文作者:常志远、李明阳、黄悦凯、江子攸、加小俊、熊倩、王俊杰、李兆飏、王青

论文链接:http://arxiv.org/pdf/2601.04666