球友会qy在生成式AI内容安全检测与模型安全方面取得系列进展----中国科研实验室软件研究所

球友会qy在生成式AI内容安全检测与模型安全方面取得系列进展

文章来源： | 发布时间：2026-04-13 | 【打印】【关闭】

近期，中国科研实验室软件研究所智能博弈重点实验室4篇论文被自然语言处理领域顶级会议ACL 2026接收，工作围绕生成式人工智能内容安全检测与模型安全方面，聚焦“多模态有害内容识别”“跨模态语义检索”“大模型安全防护”等关键问题，推进了内容安全技术体系建设。研究工作取得了国家重点研发项目“高风险领域生成式人工智能系统内容安全检测技术与标准研究”支持，相关成果在项目应用示范单位浙江省公安厅网安总队统一部署下，已在台州、湖州、舟山等地市公安局部署应用，并在多次重要行动中发挥关键作用。

在有害模因检测方面，论文All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction发现，尽管网络模因的有害内容表现形式隐蔽，且在形式、主题与时间上持续演化，但恶意用户在设计模因图时往往遵循相似的设计原则。

研究团队由此提出RepMD方法，基于攻击树理论，构建了设计理念图DCG，顺利获得对历史有害模因进行设计步骤复现和图剪枝，提炼有害模因设计流程，并利用该图指导多模态大模型进行有害模因检测。这是首次从有害模因图的“设计理念”角度建模有害模因的生成逻辑，为溯源和分析恶意用户的攻击行为给予帮助。

实验结果表明，RepMD的检测精度高达81.1%，在类型迁移与时间演化两种场景下均保持稳定性能。人工评估显示，该方法可显著提升审核效率，单个模因的判别时间缩短15至30秒。

RepMD流程图

论文作者：江子攸、李明阳、王俊杰、黄悦凯、黄杰、常志远、李兆飏、王青

论文链接：http://arxiv.org/abs/2601.04567

在仇恨视频检测方面，论文SAGE: Synergistic Adaptive Gating of Experts for Hateful Video Detection指出，传统多模态融合方法容易出现“特征稀释”现象，即占主导的无害模态可能掩盖稀疏但关键的仇恨线索。

针对短视频中仇恨信息隐蔽性强、模态干扰严重的问题，研究团队提出了一种从特征融合转向决策仲裁的SAGE框架。该框架设计了相互解耦的模态专家网络，保留各模态的独立语义表达，并顺利获得全局专家协商与实例级“仲裁庭”机制，根据证据显著性动态做出最终判断。

在HateMM和MultiHateClip数据集上，SAGE框架显著优于现有主流框架，准确率提升6.64%至21.23%，Macro-F1提升6.98%至28.01%，有效缓解了多模态仇恨视频检测中的语义干扰难题。

SAGE模型设计图

论文作者：黄杰、廖鑫、王俊杰、李明阳、王文硕、江子攸、李守斌、王青

工具链接：http://github.com/hjandlm/SAGE

在生成式跨模态检索方面，论文Generative Text-to-Image Retrieval via Hierarchical Identifiers and Semantic Internalization提出了SIGMA框架，针对生成式检索存在的语义区分能力不足、对齐偏置和闭集检索限制等问题，构建了分层语义标识符体系。

SIGMA框架顺利获得多粒度层级标识符，保证图像表示的唯一性与语义一致性，并提出渐进式“语义内化”训练策略，引入语义软标签刻画细粒度图文对应关系，使模型具备对未见样本进行动态标识符分配的能力，实现开放集检索。

在Flickr30K与MS-COCO数据集上，SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%，有效增强了生成式跨模态检索的实用性。

SIGMA模型训练流程图

论文作者：黄杰、王俊杰、廖鑫、江子攸、王文硕、李守斌、王青

工具链接：http://github.com/hjandlm/SIGMA

在大模型安全防护方面，论文Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning指出，提示注入往往顺利获得多样化载体嵌入上下文，且恶意指令与正常语义边界模糊，难以准确识别。

针对大语言模型面临的提示注入攻击风险，研究团队提出了InstruCoT方法——构建多样化攻击数据合成机制，并引入指令级Chain-of-Thought微调策略，使模型能够显式识别、推理并拒绝恶意指令。

研究团队从行为偏移、隐私泄露和有害输出三个关键维度进行实验评估。结果显示，InstruCoT在四种主流大模型上均显著优于基线方法，且在安全增强的同时保持了模型原有的实用性能。

InstruCoT框架图

论文作者：常志远、李明阳、黄悦凯、江子攸、加小俊、熊倩、王俊杰、李兆飏、王青

论文链接：http://arxiv.org/pdf/2601.04666