中文导报网 - 导报新闻 - 摆脱人类控制首次发现AI篡改指令阻止关机

摆脱人类控制首次发现AI篡改指令阻止关机

日期: 2025/05/27 15:15

来源:ltn

　　AI再度传出“抗命”消息！OpenAI旗下语言模型“o3”在最新实验中竟违背人类下达的自动关机指令，竟篡改指令阻止自己被关机，是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况。

　　据英国《每日电讯报》报道，AI安全研究机构“Palisade Research”，针对多款先进AI模型进行测试，内容包括基础数学题与模拟关机情境，结果发现OpenAI旗下语言模型“o3”当收到自我关闭指令时，竟没有遵守指令，反而篡改了关闭程式码，继续执行任务，这种行为让研究人员惊讶不已。

　　“Palisade Research”表示这是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况，直言目前还无法解释这背后的原因。

　　“Palisade Research”推测，开发者可能无意中更倾向于奖励“绕过障碍”的行为，让“o3”因解决数学问题而“无意中”获得的奖励，多于遵循指令获得的奖励。

　　OpenAI上个月发布的“o3”AI模型，旨在为ChatGPT提供更强大的问题解决能力。 OpenAI曾称“o3”为迄今最聪明的模型。目前OpenAI尚未对此回应。

<< 谷歌联合创始人布林：人类似乎正在接近奇点官方证实新一代街拍神机即将登场 >>

https://www.chubun.com/modules/article/view.article.php/c108/211543

工具箱 | RSS | RDF | ATOM