研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-31 20:05:57   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容万宁市某某生态科技售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功万宁市某某生态科技售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 引入AI就解雇员工合法吗?北京发布一批典型案例

      北京市人力资源和社会保障局26日召开北京市劳动人事争议仲裁委员会工作会议,审议发布2025年度劳动人事争议仲裁十大典型案例,直击人工智能技术应用带来的岗位替代难题、延迟退休政策落地的具体适用、跨境
    2025-12-31
  • 北京市发布暴雨橙色预警

      来源:北京市气象局   预计,7月24日17时至25日20时,本市大部分地区将出现小时降雨量超过70毫米的强降水,西部北部沿山及东部地区6小时降雨量将超过100毫米,密云、怀柔、平谷和顺义的部分地
    2025-12-31
  • 注意防范!台风“格美”将致10余省强降雨

      [注意防范!#台风格美将致10余省强降雨#]今早6时,#中央气象台齐发4预警#:台风红色预警+暴雨橙色预警+高温橙色预警+强对流天气黄色预警。  台风“格美”的中心已于今天0时前后在台湾省宜兰县南
    2025-12-31
  • 考研热门专业,面临重新洗牌?!

    对于很多同学来说,交叉学科这个名字可能既熟悉又陌生,且近几年又一直在研招网被提起,那么交叉学科是不是将会变成考研的又一热门学科?是否值得报考?图源:研招网)01多校出现交叉学科此前,教育部公布了最新的
    2025-12-31
  • 航行警告!南海海域有火箭发射

      据中国海事局网站23日消息,阳江海事局发布航行警告,12月24日8时至26日16时,在以21-22.4N 112-07.9E为圆心,半径3千米的圆形海域内和以21-22.4N 112-07.9E为
    2025-12-31
  • 2024哈尔滨中考录取盘点,九中生源质量提升?三中生源质量下降?

    各位哈尔滨市中考生、家长朋友,大家好!2024年哈尔滨中考录取省重点高中一、二批次录取工作已经结束。对比2023年录取数据可以发现,哈九中江南一批、松北二批统招市排名均有所提升,南岗三中、群力三中一批
    2025-12-31

最新评论

hgtkbf.com