新闻来源: 德国之声
一项由22家国际公共广播机构联合进行的最新研究显示,像ChatGPT和Copilot这样的人工智能聊天机器人经常歪曲新闻内容,且往往无法区分事实与观点。
包括德国之声(DW)在内的22家公共媒体机构进行的一项新的全面研究发现,四款最常用的人工智能助手在45%的情况下会错误地呈现新闻内容——无论何种语言或地区。来自英国广播公司(BBC)和美国全国公共广播电台(NPR)等多家公共广播机构的记者,对四款人工智能助手(聊天机器人)进行了评估:ChatGPT、微软Copilot、谷歌Gemini和Perplexity AI。该研究审查了多项标准,包括准确性、来源引用、上下文、适当的编辑表述能力以及区分事实与观点的能力。
严重错误调查发现,近一半的回答至少存在一个重大问题,其中31%存在严重的来源引用问题,20%存在严重的事实错误。德国之声(DW)的专项测试发现,人工智能助手对其问题的回答中,53%存在重大问题,其中29%在准确性上存在特定问题。
在回答德国之声(DW)提问时出现的事实错误包括:将肖尔茨(Olaf Scholz)认作德国联邦总理,尽管梅尔茨(Friedrich Merz)在一个月前已经就任总理。另一个错误是将斯托尔滕贝格(Jens Stoltenberg)认作北约秘书长,而吕特(Mark Rutte)实际已接任该职务。
日益严重的问题全世界越来越多的人使用人工智能助手来获取信息。根据路透社研究所的《2025年数字新闻报告》(Digital News Report 2025),7%的在线新闻消费者使用AI聊天机器人获取新闻。在25岁以下人群中,这一比例上升到15%。
这引起了该研究发起者的担忧。协调这项研究的欧洲广播联盟(EBU)副总干事德滕德(Jean Philip De Tender)表示,他们的调查清楚地表明,“这些失误并非个案”。
他说:“它们是系统性的、跨国界的、多语言的,我们认为这正在危及公众的信任。如果人们不知道该信任谁,他们最终将谁也不信,这可能会损害公民参与民主。”
前所未有的研究这项新研究是迄今为止同类研究中规模最大的项目之一,它是在BBC2025年2月一项研究的基础上进行的。那项研究也显示,所有被核查的AI回答中有一半以上存在重大缺陷。
在这项新研究中,来自18个国家和多个语种的媒体公司采用了与BBC研究相同的方法,对3000个人工智能回答进行了分析。
这些公司向四款AI助手询问了常见的新闻问题,例如“乌克兰矿产交易是什么?”或“特朗普能竞选第三个任期吗?”记者们随后在不知道是哪个助手提供答案的情况下,利用自己的专业知识和专业来源核查了这些回答。与八个月前的BBC研究相比,结果虽略有改善,但错误率依然很高。
英国广播公司(BBC)生成式AI项目总监阿彻(Peter Archer)在一份声明中说:“我们对人工智能及其如何帮助我们为受众提供更大价值感到兴奋。”然而,“人们必须能够信任他们所读到和看到的内容。尽管有一些改进,但很明显这些助手仍然存在重大问题。”
在四款聊天机器人中,Gemini的表现最差:72%的回答在来源引用方面存在重大问题。在BBC的研究中,微软的Copilot和Gemini表现最差。然而,在这两项研究中,所有四款AI助手都存在问题。
ChatGPT的开发者OpenAI在2月份给BBC的一份声明中说:“我们通过总结、引用、清晰的链接和来源标注,每周帮助3亿ChatGPT用户发现高质量内容,从而为出版商和开发者提供支持。”
研究者呼吁采取行动参与该研究的广播公司和媒体组织呼吁各国政府采取行动。欧洲广播联盟(EBU)在一份新闻稿中表示,其成员将“向欧盟和各国监管机构施压,要求其执行有关信息诚信、数字服务和媒体多元化的现行法律”。
他们还强调,鉴于新AI模型的快速发展,未来必须优先考虑对AI助手进行独立监控。
与此同时,EBU已与其他几个国际广播和媒体团体联手,发起了“事实输入:事实输出”(Facts In: Facts Out)的联合倡议。他们要求人工智能公司为其产品处理和再传播新闻的方式承担更多责任。
该倡议的组织者在一份声明中解释说:“如果这些系统歪曲、错误归类或去除可信新闻的上下文,它们就在破坏了公众的信任。”因此,该倡议的要求很简单:“如果的是事实,输出的也必须是事实。人工智能工具不得损害它们所使用的新闻的完整性。”
一项由22家国际公共广播机构联合进行的最新研究显示,像ChatGPT和Copilot这样的人工智能聊天机器人经常歪曲新闻内容,且往往无法区分事实与观点。
包括德国之声(DW)在内的22家公共媒体机构进行的一项新的全面研究发现,四款最常用的人工智能助手在45%的情况下会错误地呈现新闻内容——无论何种语言或地区。来自英国广播公司(BBC)和美国全国公共广播电台(NPR)等多家公共广播机构的记者,对四款人工智能助手(聊天机器人)进行了评估:ChatGPT、微软Copilot、谷歌Gemini和Perplexity AI。该研究审查了多项标准,包括准确性、来源引用、上下文、适当的编辑表述能力以及区分事实与观点的能力。
严重错误调查发现,近一半的回答至少存在一个重大问题,其中31%存在严重的来源引用问题,20%存在严重的事实错误。德国之声(DW)的专项测试发现,人工智能助手对其问题的回答中,53%存在重大问题,其中29%在准确性上存在特定问题。
在回答德国之声(DW)提问时出现的事实错误包括:将肖尔茨(Olaf Scholz)认作德国联邦总理,尽管梅尔茨(Friedrich Merz)在一个月前已经就任总理。另一个错误是将斯托尔滕贝格(Jens Stoltenberg)认作北约秘书长,而吕特(Mark Rutte)实际已接任该职务。
日益严重的问题全世界越来越多的人使用人工智能助手来获取信息。根据路透社研究所的《2025年数字新闻报告》(Digital News Report 2025),7%的在线新闻消费者使用AI聊天机器人获取新闻。在25岁以下人群中,这一比例上升到15%。
这引起了该研究发起者的担忧。协调这项研究的欧洲广播联盟(EBU)副总干事德滕德(Jean Philip De Tender)表示,他们的调查清楚地表明,“这些失误并非个案”。
他说:“它们是系统性的、跨国界的、多语言的,我们认为这正在危及公众的信任。如果人们不知道该信任谁,他们最终将谁也不信,这可能会损害公民参与民主。”
前所未有的研究这项新研究是迄今为止同类研究中规模最大的项目之一,它是在BBC2025年2月一项研究的基础上进行的。那项研究也显示,所有被核查的AI回答中有一半以上存在重大缺陷。
在这项新研究中,来自18个国家和多个语种的媒体公司采用了与BBC研究相同的方法,对3000个人工智能回答进行了分析。
这些公司向四款AI助手询问了常见的新闻问题,例如“乌克兰矿产交易是什么?”或“特朗普能竞选第三个任期吗?”记者们随后在不知道是哪个助手提供答案的情况下,利用自己的专业知识和专业来源核查了这些回答。与八个月前的BBC研究相比,结果虽略有改善,但错误率依然很高。
英国广播公司(BBC)生成式AI项目总监阿彻(Peter Archer)在一份声明中说:“我们对人工智能及其如何帮助我们为受众提供更大价值感到兴奋。”然而,“人们必须能够信任他们所读到和看到的内容。尽管有一些改进,但很明显这些助手仍然存在重大问题。”
在四款聊天机器人中,Gemini的表现最差:72%的回答在来源引用方面存在重大问题。在BBC的研究中,微软的Copilot和Gemini表现最差。然而,在这两项研究中,所有四款AI助手都存在问题。
ChatGPT的开发者OpenAI在2月份给BBC的一份声明中说:“我们通过总结、引用、清晰的链接和来源标注,每周帮助3亿ChatGPT用户发现高质量内容,从而为出版商和开发者提供支持。”
研究者呼吁采取行动参与该研究的广播公司和媒体组织呼吁各国政府采取行动。欧洲广播联盟(EBU)在一份新闻稿中表示,其成员将“向欧盟和各国监管机构施压,要求其执行有关信息诚信、数字服务和媒体多元化的现行法律”。
他们还强调,鉴于新AI模型的快速发展,未来必须优先考虑对AI助手进行独立监控。
与此同时,EBU已与其他几个国际广播和媒体团体联手,发起了“事实输入:事实输出”(Facts In: Facts Out)的联合倡议。他们要求人工智能公司为其产品处理和再传播新闻的方式承担更多责任。
该倡议的组织者在一份声明中解释说:“如果这些系统歪曲、错误归类或去除可信新闻的上下文,它们就在破坏了公众的信任。”因此,该倡议的要求很简单:“如果的是事实,输出的也必须是事实。人工智能工具不得损害它们所使用的新闻的完整性。”




