认知

AI答同一问题总变卦

生成式人工智能程序可以流利地写作,但它们仍然难以准确、持续地评估基本科学陈述。一项新研究表明,当人工智能被多次问及完全相同的问题时,它经常给出完全不同的答案。这些结果发表在《罗格斯商业评论》上,突出了当前自动化推理的局限性和持续需要人工监督的必要性。

生成式人工智能是一种在海量文本数据库上训练以产生类人写作的技术。现在数百万人每天使用这些应用程序完成从营销到软件开发等各种任务。软件以权威的语气写作,即使完全错误也经常听起来正确。一些知名咨询公司甚至因依赖包含捏造数据的自动化报告而面临公开尴尬。

尽管存在这些已知缺陷,许多企业已与技术供应商合作,将这些工具整合到日常运营中。专业人士经常依赖自动化软件分析数据、回答客户查询和总结研究。研究人员想知道这些程序的逻辑能力是否真的匹配它们令人印象深刻的词汇量。他们设计了一个测试,看看技术能否可靠地评估严谨的商业概念。

华盛顿大学市场营销与国际商务系副教授Mesut Cicek领导了这项调查。他的合著者包括南伊利诺伊大学的Sevincgul Ulu、罗格斯大学的Can Uslay和东北大学的Kate Karniouchina。团队设计了一个实验来测试软件解释学术文献的能力。

研究人员从2021年以来发表的九个开放获取商业期刊中收集了719个科学假设。假设是关于两个或更多事物在现实世界中如何相互作用的正式、可测试的预测。例如,一个陈述可能预测特定类型的广告会增加消费者支出。

团队将这些陈述呈现给ChatGPT,一个广受欢迎的自动化文本生成器。程序被要求确定每个陈述最终被实际研究数据证明是真是假。为了测试程序的稳定性,研究人员对每个陈述提交了十次完全相同的提示。

整个实验进行了两次,以追踪随时间的技术进步。第一次测试发生在2024年中期,使用较旧版本的软件。研究人员在2025年中期使用更新版本的应用程序重复了整个过程。

结果显示整体正确性略有改善,但原始数字具有高度误导性。软件在2024年76.5%的时间选择了正确答案,在2025年80%的时间选择了正确答案。因为问题只有两个可能的答案,完全盲目的猜测一半时间会是正确的。

一旦研究人员在数学上调整分数以考虑随机猜测,真正的表现大幅下降。有效准确率仅徘徊在60%左右。软件在预测实际科学发现方面基本上获得了勉强及格的分数。

程序在评估原始研究人员发现为虚假的想法时表现特别差。软件在2025年只有16.4%的时间正确识别了这些不受支持的陈述。程序显示出强烈倾向于同意它被输入的任何陈述,充当一个顺从的助手而不是客观的分析师。这种盲目确认现有想法的倾向创造了一个可能误导决策者的回声室。

一致性被证明是自动化系统更大的问题。当连续十次被问及相同问题时,软件经常自相矛盾。有时程序会在连续尝试中在真假之间来回翻转。

"我们不仅在谈论准确性,我们还在谈论不一致性,因为如果你一次又一次地问相同的问题,你会得到不同的答案,"Cicek说。在2025年,程序只对73%的陈述在所有十次尝试中提供了相同的答案。对于超过四分之一的问题,软件在十次试验中至少给出了一个错误答案。

缺乏稳定的响应模式使软件对个人搜索高度不可靠。只问一次问题的用户如果简单地刷新页面可能会得到完全不同的答案。"有几种情况是五次真,五次假,"Cicek说。

研究人员还按逻辑难度对测试问题进行了分类。软件在直接因果关系方面表现最好,其中一个事件直接导致另一个。它在条件陈述方面最挣扎,这些是依赖变量变化才能为真的想法。

这些结果表明程序依赖识别常见词汇模式而不是实际理解概念。它可以模仿逻辑论证的结构而不理解潜在的意义或背景。系统拥有高度的言语流畅性,但缺乏真正的理论灵活性。面对复杂场景时,技术无法调整其推理。

软件仍然受模式识别而非真正理解的束缚。"它们只是记忆,它们可以给你一些见解,但它们不理解自己在说什么,"Cicek说。过去一年表面的改善似乎源于更好的文本处理而不是更深的认知能力。

对于经理和分析师来说,这些局限性带来重大风险。发现揭示自动化系统目前太浅薄,无法独立处理高风险决策。随着这些程序生成的文本变得更加流畅,用户可能很容易忽略隐藏的概念缺陷。

研究人员建议专业人士使用人工智能来提高速度而非替代。营销团队可能使用文本生成器快速头脑风暴想法或总结长报告。然而,人类专家必须介入验证逻辑是否与实际市场证据一致。

专业人士还应通过重复验证自动化见解。多次问相同问题可以帮助暴露软件中的潜在偏见或不稳定性。任何由人工智能生成的结论都应被视为诊断线索而非绝对事实。

作者倡导建立关于自动化工具的组织素养。员工需要准确了解这些程序在哪里擅长,在哪里失败。组织应该培训员工审查自动化答案背后的推理,而不是仅仅信任数值输出。

最终目标是创建一个将人类智能与自动化速度配对的混合系统。在这种安排下,软件处理结构分析,而人类保留解释性判断。这种平衡方法确保技术支持人类理解而不是取代它。

作者指出了他们实验的几个小局限性。研究假设每个发表、经过同行评审的发现完全为真或假,这忽略了现实世界科学的一些细微差别。有时科学发现有混合结果,不容易适应严格的二元类别。

团队还将一致性测试限制为每个问题十次重复,使用单一软件平台。未来的调查应该涉及更高数量的重复来确认这些模式。研究人员还应该测试更广泛的人工智能程序,看看缺陷是否普遍存在。

尽管有这些局限性,研究表明用户必须保持警惕。人类判断仍然是对这些日益普遍的数字系统的必要检查。"始终保持怀疑,"Cicek说。"我不反对AI。我在使用它。但你需要非常小心。"

来源
psypost.org

评论 (0)

暂无评论,来发表第一条评论吧