研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-05 01:57:21   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容黄冈市某某商贸厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功黄冈市某某商贸厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 刚上任2个月,A股80后董事长被留置

    ST长园董事长兼法定代表人乔文健因涉嫌职务违法被留置,这让本就处于治理困境中的ST长园再添变数。80后董事长被实施留置11月24日深夜,ST长园公告称,公司当天收到惠州市惠阳区监察委员会签发的关于公司
    2025-12-05
  • 李树生:走好国际化道路 学会需加强自身建设

    近期,中国内燃机学会副理事长兼秘书长李树生围绕“凝聚高水平人才,助力发展新质生产力”主题对一流学会建设发展分享了自身观点。他表示,学会需要走国际化道路,想在国际上得到同行认可,没有行业的发展作支撑,没
    2025-12-05
  • 金正恩指导朝鲜无人攻击机性能试验

    原标题:金正恩指导朝鲜无人攻击机性能试验) 金正恩指导朝鲜无人攻击机性能试验,图为金正恩 资料图据朝中社消息,当地时间14日,朝鲜劳动党总书记、国务委员长金正恩现
    2025-12-05
  • 一国企招中学毕业生当总监?最新回应:符合“特别优秀”的要求

    来源:中国青年报微信近日,有网友称山西晋中一国企公开招聘公示中,有一入选者学历为高中毕业,不符合该岗位的学历要求。11月10日,“左权融媒”公众号发布《左权县开花调文化发展有限公司公开招聘工作人员公示
    2025-12-05
  • 国务院安委会部署开展高层建筑重大火灾风险隐患排查整治行动

    原标题:国务院安委会部署开展高层建筑重大火灾风险隐患排查整治行动) 延伸阅读 李家超:不论涉及任何人都追责到底
    2025-12-05
  • 国家统计局:1

    原标题:国家统计局:1-10月全国城镇调查失业率平均值为5.1% 比上年同期下降0.2个百分点) 财联社11月15日电,国家统计局数据显示,1-10月份,全国城镇
    2025-12-05

最新评论

pigbz.rlgr.ppve.tkdty.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs