AI觉醒星球
Awakening is here
Knowledge File / 全球热点解读
2026-05-25 2 浏览 公开

趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力

趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。

SOURCE / 全球热点解读 MIN / 9 ACCESS / 公开 POST / 2026-05-25 15:30:09

原贴

查看原文
作者:Jonathan Kemper 来源站点:the-decoder.com 原贴时间:

原文

Just because a language model nails a question about a PDF doesn't mean it actually found the answer where it claims to. Researchers at Peking University and the Shanghai Artificial Intelligence Laboratory built a new benchmark called CiteVQA to expose this gap between getting the right answer and pointing to the right source. They call it "attribution hallucination." Standard document analysis tests like DocVQA or MMLongBench-Doc only grade the final answer. They can't tell whether a model actually pulled information from the document or just guessed based on what it already knew. In law, financial audits, or medicine, though, traceability is what makes an AI output usable in the first place, the paper argues. CiteVQA makes models back up every statement with a precise marker in the document. They have to point to the exact paragraph, table, or figure. A page number alone won't do. The dataset covers 1,897 questions across 711 PDFs from seven subject areas: 451 in English and 260 in Chinese. The documents average 40.6 pages each, way longer than most benchmarks. Rather than hand-labeling everything, the team built an automated pipeline. It breaks documents into individual elements, has models like Gemini 3.0 Flash trace the chain of evidence, and then checks which pieces are truly needed. Each document gets pulled out on a trial basis. If the model can't answer the question without it, that document counts as essential. The core metric is called Strict Attributed Accuracy. A model only gets points when the answer is correct and the citation lands on the right spot. Twenty current models were put through the test. The best performer, Gemini-3.1-Pro-Preview , scored just 76 out of 100. GPT-5.4 often knew the right answer but couldn't show its work: 87.1 for raw answer quality, just 59 once correct citations were required. Open-source models fared much worse. Qwen3-VL-235B-A22B, the strongest freely available system, managed 22.5 points. Smaller open models mostly landed below 10, making them "extremely risky" for regulated industries, the researchers say. Many models can't even find the correct page. The Gemini 3 series gets there in over 87 percent of cases. Qwen3-VL-235B-A22B manages just under 58 percent. Harder tasks make things worse. Single-document questions still work okay, but when a model has to pull together info from multiple documents, recall for Gemini 3.1 Pro Preview drops from around 69 to 55 percent. Math tasks do fairly well because the logic demands obvious evidence. Things fall apart when a model first has to spot a document element by its color, position, or heading, then figure out what it means. Academic papers with tidy layouts score best. Newspapers and magazines with busy designs hold even the top models to around 63 points. In an ablation study, the researchers narrowed the search space on purpose, feeding models only the relevant pages or the right document. Scores jumped fast - over 13 points for Qwen3-VL-8B. The not-so-surprising takeaway: models that know where to look also give better answers. Accurate source information directly improves answer quality and is not just about transparency. This also points to why context engineering matters so much : an AI model performs best when it gets exactly the information it needs for the task.

中文翻译

仅仅因为语言模型解决了有关 PDF 的问题,并不意味着它实际上找到了它声称的答案。北京大学和上海人工智能实验室的研究人员建立了一个名为 CiteVQA 的新基准,以揭示获得正确答案和指出正确来源之间的差距。他们称之为“归因幻觉”。标准文档分析测试(如 DocVQA 或 MMLongBench-Doc)仅对最终答案进行评分。他们无法判断模型是否确实从文档中提取了信息,或者只是根据已知信息进行猜测。然而,该论文认为,在法律、财务审计或医学领域,可追溯性是人工智能输出可用的首要因素。 CiteVQA 使模型用文档中的精确标记来支持每个陈述。他们必须指出确切的段落、表格或图形。仅靠页码是不行的。该数据集涵盖来自七个主题领域的 711 个 PDF 中的 1,897 个问题:其中 451 个英文,260 个中文。这些文档平均每份有 40.6 页,比大多数基准测试要长得多。该团队没有手工标记所有内容,而是建立了自动化管道。它将文档分解为单独的元素,让 Gemini 3.0 Flash 等模型追踪证据链,然后检查哪些部分是真正需要的。每份文件都会在试用的基础上被撤出。如果模型没有它就无法回答问题,那么该文档就很重要。核心指标称为严格属性准确性。只有当答案正确且引用正确时,模型才会获得分数。二十种当前型号通过了测试。表现最好的 Gemini-3.1-Pro-Preview 的得分仅为 76 分(满分 100 分)。GPT-5.4 通常知道正确答案,但无法展示其工作:原始答案质量为 87.1,在需要正确引用时仅为 59。开源模型的表现要糟糕得多。 Qwen3-VL-235B-A22B是最强的免费系统,得分为22.5分。研究人员表示,较小的开放模型大多低于 10,这使得它们对于受监管的行业来说“风险极大”。许多模型甚至找不到正确的页面。 Gemini 3 系列的成功率超过 87%。 Qwen3-VL-235B-A22B 的利用率略低于 58%。更艰巨的任务会让事情变得更糟。单文档问题仍然可以正常工作,但当模型必须从多个文档中收集信息时,Gemini 3.1 Pro Preview 的召回率从 69% 左右下降到 55%。数学任务做得相当好,因为逻辑需要明显的证据。当模型首先必须通过颜色、位置或标题来识别文档元素,然后弄清楚它的含义时,事情就会崩溃。布局整洁的学术论文得分最高。设计繁杂的报纸和杂志甚至将顶级模特的得分控制在 63 分左右。在一项消融研究中,研究人员有意缩小搜索空间,仅向模型提供相关页面或正确的文档。 Qwen3-VL-8B 的分数跃升超过 13 分。不那么令人惊讶的结论是:知道往哪里看的模型也能给出更好的答案。准确的来源信息直接提高答案质量,而不仅仅是透明度。这也说明了上下文工程如此重要的原因:人工智能模型在准确获取任务所需的信息时表现最佳。

核心信息

趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。

  • 趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力:这条内容属于全球热点,核心焦点是聚焦形式化数学证明能力,适合继续追踪它对内容生产、业务执行和工具工作流的直接影响。
  • 原贴提到:Just because a language model nails a question about a PDF doesn't mean
  • 关键词:AI、研究、The Decoder
  • 来源:The Decoder

详细解读

这是什么信号

这条内容的中文标题可以概括为《趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力》。它来自 The Decoder,原始标题是 AI models often give the right answers but point to the wrong sources。从信号类型上看,它不是单纯的资讯快讯,而是更适合做长期跟踪的结构化内容源。

核心信息

Just because a language model nails a question about a PDF doesn't mean it actually found the answer where it claims to. Researchers at Peking University and the Shanghai Artificial Intelligence Laboratory built a new benchmark called CiteV 结合标题和来源可以判断,这条内容至少覆盖了 AI、研究、The Decoder 这些方向。它释放出来的不是一个孤立更新,而是一个可以继续拆成方法、案例、选题或专题页的内容切口。

为什么值得关注

聚焦形式化数学证明能力 之所以重要,是因为它通常直接连接到开发效率、内容生产、业务验证或团队协作。对 OPC 这种内容管理系统来说,真正有价值的不是“它发生了”,而是“它能否成为下一条高质量栏目内容的起点”。因此这类内容比普通新闻更适合作为深度文章的素材基础。

对 OPC 的实际价值

从栏目匹配来看,这条内容更偏向 全球热点。你可以把它看成一个“可二次加工”的信号:一方面能生成面向前台的中文解读,另一方面能沉淀成后续的专题、周报和历史回顾。如果持续积累这类内容,OPC 的内容池就不会只有热点速览,而会逐渐形成可复用、可串联、可推荐的知识资产。

对读者意味着什么

如果读者只是看到一条短资讯,他通常只会知道“有这回事”;但当它被整理成深度文章后,读者才能进一步理解这件事为什么值得关注、适合谁、会影响哪些工作流。这也是 OPC 内容引擎需要做扩写和结构化整理的原因:不是单纯翻译,而是把一条原始信号加工成真正可阅读、可理解、可行动的中文内容。

可以继续追问的方向

接下来最值得继续补充的,不是重复原文,而是把这条内容延伸成三个问题:第一,它解决的到底是哪类真实问题;第二,它和你现有工作流的哪一段最相关;第三,是否能沉淀成可执行的 SOP、模板或栏目专题。这样整理出来的文章,才会比普通搬运更有留存价值。

后续可扩写的栏目角度

如果后面继续补材料,这条内容还能进一步扩成几个栏目方向,比如工具测评、场景案例、行业影响、工作流改造、以及给个体创业者或团队管理者的行动清单。也就是说,一条高质量信号不仅能生成一篇文章,还能成为一组内容的上游素材,这正是你想要的“内容活起来”的基础。

编辑提示

如果后续改成模型增强版,这一段还可以继续补充三类信息:第一是关键事实和时间点,第二是与现有同主题内容的差异,第三是对不同读者角色的适用建议。这样文章既能保留“信息密度”,又不会只是空泛结论,整体阅读价值会比普通摘要更高。

可沉淀为知识资产的部分

从长期看,这类文章最有价值的部分并不是标题本身,而是它背后的结构:问题是什么、变化发生在哪里、为什么重要、读者能做什么。只要这个结构稳定下来,后面无论接入更多信源还是更强的模型,OPC 都能把它们持续沉淀成越来越厚的内容资产库,而不是一堆一次性快讯。

行动建议

  1. 把这条内容归档到对应栏目,并记录 3 个最重要的关键词。
  2. 补一段“对业务/创作的直接启发”,避免文章停留在资讯层。
  3. 如果后续 7 天内还有同主题内容出现,就把它们合并成系列文章或专题页。

来源说明

来源站点:The Decoder。当前版本为规则整理稿,评分约 82 分,已优先转成中文表达,并保留原始来源用于后续复核。

信息差价值

这条内容的真正价值,不只是“有人发布了一个新功能”,而是它揭示了 The Decoder 背后的产品方向、工作流变化或竞争信号。对 OPC 来说,这种信息可以转化成持续追踪的栏目选题。

如果把《趋势解读:AI models often give the right answers but,聚焦形式化数学证明能力》放到你的内容系统里,它最大的价值在于帮助读者更快看懂“为什么值得关注”,而不是只看到一条碎片化动态。

参考来源

上一篇 趋势解读:At the launch of Pope Leo XIV's encyclical,,提升开发者接入体验 下一篇 趋势解读:自从ChatGPT里可以调用远程电脑的codex,合上笔记本也能用时。 连mac mini的价值也在降低,不过多一台不关机的电脑。 钓鱼间隙可以让co