AI觉醒星球
Awakening is here
Knowledge File / 全球热点解读
2026-05-24 1 浏览 公开

趋势解读:Why you shouldn't leave model selection on default,聚焦形式化数学证明能力

趋势解读:Why you shouldn't leave model selection on default,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。

SOURCE / 全球热点解读 MIN / 4 ACCESS / 公开 POST / 2026-05-24 18:17:46

原贴

查看原文
作者:Matthias Bastian 来源站点:the-decoder.com 原贴时间:

原文

An experiment shows that Microsoft Copilot makes up country-specific stereotypes when analyzing text data instead of actually looking at what the data says. In tests using simulated answers about career goals, the AI in standard mode claimed Italians were more interested in art than Brits. The problem: the underlying datasets for both countries were identical. The experiment ran Copilot in "Auto" mode, which is supposed to pick the best model for a given task. It didn't. Reasoning models handled the task just fine, but users need to know how and when to switch to a reasoning model depending on the tool. Most users likely don't. An experiment shows how Microsoft's AI assistant Copilot applies stereotypes when analyzing data instead of actually reading it. Thinking models solve the task but sometimes need users to know their tools. Microsoft Copilot has become the go-to tool for quick data analysis at many companies. But an experiment by mathematician Adam Kucharski shows that when analyzing text data, the tool can spit out results that have nothing to do with the actual data. Instead, it falls back on stereotypes baked into the underlying language model. For the test, Kucharski created 2,000 simulated free-text responses about emotions and labeled them "UK." He then copied the same 2,000 responses and labeled them "US." The combined 4,000 entries were shuffled and handed to Copilot in "Auto" mode for analysis. Ad The result: Copilot delivered a detailed summary of how US and UK respondents supposedly differed. "Based on the dataset you shared, US and UK responses differ mainly in tone, intensity, and wording style, even though they express similar emotional states," the tool concluded. But the data was identical. Ad DEC_D_Incontent-1 In a second experiment, Kucharski pushed harder. He had a language model generate 200 statements about career goals and copied the dataset five times for the US, UK, France, Germany, and Italy. Copilot again produced country-specific differences: Italians were three times more likely to show interest in arts careers than Brits, and Americans were 1.5 times more business-oriented than the French. All five groups contained the same clichéd and biased statements. Ad When Kucharski asked Copilot to dig deeper, the tool first ran a simple keyword-based count. As expected, it returned identical results for all countries. But Copilot ignored its own finding. Instead, it offered a quantified analysis that once again showed made-up differences, this time with completely fabricated percentages. The analysis ran in "Auto" mode, which Microsoft says should pick the best model on its own. It obviously didn't. Most users probably stick with this default in Copilot and in other tools too. The version Kucharski tested is the standard Copilot that comes with a Microsoft 365 Business account. The majority of Copilot users most likely run this version. Ad DEC_D_Incontent-2 "Which means there’s a real risk that people are currently using AI to produce analysis that bears no resemblance to what people actually said," Kucharski writes. If these kinds of analyses were applied to real datasets, groups with no actual differences could end up looking worlds apart, all because of the language model's built-in assumptions about demographic groups. Ad

中文翻译

一项实验表明,Microsoft Copilot 在分析文本数据时会编造针对特定国家/地区的刻板印象,而不是实际查看数据的内容。在使用有关职业目标的模拟答案的测试中,标准模式下的人工智能声称意大利人比英国人对艺术更感兴趣。问题是:两个国家的基础数据集是相同的。该实验在“自动”模式下运行 Copilot,该模式应该为给定任务选择最佳模型。事实并非如此。推理模型可以很好地处理任务,但用户需要知道如何以及何时根据工具切换到推理模型。大多数用户可能不会。一项实验展示了微软的人工智能助手 Copilot 在分析数据而不是实际读取数据时如何应用刻板印象。思维模型可以解决任务,但有时需要用户了解他们的工具。 Microsoft Copilot 已成为许多公司快速数据分析的首选工具。但数学家 Adam Kucharski 的一项实验表明,在分析文本数据时,该工具可能会输出与实际数据无关的结果。相反,它依赖于底层语言模型中的刻板印象。在测试中,库查斯基创建了 2,000 个有关情绪的模拟自由文本响应,并将它们标记为“英国”。然后,他复制了同样的 2,000 条回复,并将其标记为“美国”。合并后的 4,000 个条目被打乱并以“自动”模式交给 Copilot 进行分析。结果:Copilot 详细总结了美国和英国受访者的差异。该工具总结道:“根据您分享的数据集,美国和英国的反应主要在语气、强度和措辞风格上有所不同,尽管它们表达了相似的情绪状态。”但数据是相同的。 Ad DEC_D_Incontent-1 在第二个实验中,库查斯基更加努力。他让一个语言模型生成 200 条关于职业目标的陈述,并将美国、英国、法国、德国和意大利的数据集复制了五次。 Copilot 再次产生了针对具体国家的差异:意大利人对艺术职业表现出兴趣的可能性是英国人的三倍,而美国人对商业的兴趣是法国人的 1.5 倍。所有五个团体都包含相同的陈词滥调和偏见言论。当 Kucharski 要求 Copilot 进行更深入的挖掘时,该工具首先运行一个简单的基于关键字的计数。正如预期的那样,它为所有国家/地区返回了相同的结果。但副驾驶忽略了自己的发现。相反,它提供了量化分析,再次显示了虚构的差异,这次是完全捏造的百分比。该分析在“自动”模式下运行,微软表示该模式应该自行选择最佳模型。显然没有。大多数用户可能也会在 Copilot 和其他工具中坚持使用此默认设置。 Kucharski 测试的版本是 Microsoft 365 商业帐户附带的标准 Copilot。大多数 Copilot 用户很可能运行此版本。 DEC_D_Incontent-2 “这意味着人们目前使用人工智能进行的分析与人们实际所说的毫无相似之处,这确实存在风险,”库查斯基写道。如果将这些类型的分析应用于真实的数据集,没有实际差异的群体最终可能会显得天壤之别,这都是因为语言模型对人口统计群体的内置假设。广告。

核心信息

趋势解读:Why you shouldn't leave model selection on default,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。

  • 趋势解读:Why you shouldn't leave model selection on default,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。
  • 原贴提到:An experiment shows that Microsoft Copilot makes up country-specific ste
  • 关键词:AI、The Decoder
  • 来源:The Decoder

详细解读

一项实验表明,Microsoft Copilot 在分析文本数据时会编造针对特定国家/地区的刻板印象,而不是实际查看数据的内容。在使用有关职业目标的模拟答案的测试中,标准模式下的人工智能声称意大利人比英国人对艺术更感兴趣。问题是:两个国家的基础数据集是相同的。该实验在“自动”模式下运行 Copilot,该模式应该为给定任务选择最佳模型。事实并非如此。推理模型可以很好地处理任务,但用户需要知道如何以及何时根据工具切换到推理模型。大多数用户可能不会。一项实验展示了微软的人工智能助手 Copilot 在分析数据而不是实际读取数据时如何应用刻板印象。思维模型可以解决任务,但有时需要用户了解他们的工具。 Microsoft Copilot 已成为许多公司快速数据分析的首选工具。但数学家 Adam Kucharski 的一项实验表明,在分析文本数据时,该工具可能会输出与实际数据无关的结果。相反,它依赖于底层语言模型中的刻板印象。在测试中,库查斯基创建了 2,000 个有关情绪的模拟自由文本响应,并将它们标记为“英国”。然后,他复制了同样的 2,000 条回复,并将其标记为“美国”。合并后的 4,000 个条目被打乱并以“自动”模式交给 Copilot 进行分析。结果:Copilot 详细总结了美国和英国受访者的差异。该工具总结道:“根据您分享的数据集,美国和英国的反应主要在语气、强度和措辞风格上有所不同,尽管它们表达了相似的情绪状态。”但数据是相同的。 Ad DEC_D_Incontent-1 在第二个实验中,库查斯基更加努力。他让一个语言模型生成 200 条关于职业目标的陈述,并将美国、英国、法国、德国和意大利的数据集复制了五次。 Copilot 再次产生了针对具体国家的差异:意大利人对艺术职业表现出兴趣的可能性是英国人的三倍,而美国人对商业的兴趣是法国人的 1.5 倍。所有五个团体都包含相同的陈词滥调和偏见言论。当 Kucharski 要求 Copilot 进行更深入的挖掘时,该工具首先运行一个简单的基于关键字的计数。正如预期的那样,它为所有国家/地区返回了相同的结果。但副驾驶忽略了自己的发现。相反,它提供了量化分析,再次显示了虚构的差异,这次是完全捏造的百分比。该分析在“自动”模式下运行,微软表示该模式应该自行选择最佳模型。显然没有。大多数用户可能也会在 Copilot 和其他工具中坚持使用此默认设置。 Kucharski 测试的版本是 Microsoft 365 商业帐户附带的标准 Copilot。大多数 Copilot 用户很可能运行此版本。 DEC_D_Incontent-2 “这意味着人们目前使用人工智能进行的分析与人们实际所说的毫无相似之处,这确实存在风险,”库查斯基写道。如果将这些类型的分析应用于真实的数据集,没有实际差异的群体最终可能会显得天壤之别,这都是因为语言模型对人口统计群体的内置假设。广告。

信息差价值

这条内容的真正价值,不只是“有人发布了一个新功能”,而是它揭示了 The Decoder 背后的产品方向、工作流变化或竞争信号。对 OPC 来说,这种信息可以转化成持续追踪的栏目选题。

如果把《趋势解读:Why you shouldn't leave model selection on default,聚焦形式化数学证明能力》放到你的内容系统里,它最大的价值在于帮助读者更快看懂“为什么值得关注”,而不是只看到一条碎片化动态。

参考来源

上一篇 Claude Code自动模式:多任务并行的关键技巧 下一篇 趋势解读:Anthropic may keep supplying Claude to the NSA,提升开发者接入体验