Knowledge File / 全球热点解读
AIHOT 日报参考 2026-06-18
AIHOT 日报参考 2026-06-18:这条内容来自 AIHOT 补充信号池,核心焦点是聚焦形式化数学证明能力。为什么值得看:它已经被上游系统筛过一轮,适合继续判断能否转化成 OPC 的选题、案例或工作流启发。
SOURCE / 全球热点解读
MIN / 3
ACCESS / 公开
POST / 2026-06-18 08:00:00
原贴
查看原文中文翻译
模型发布/更新
- molmomotion:语言引导的3d运动预测模型:molmomotion基于molmo 2骨干网络,输入视频帧、物体上的3d点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3d轨迹。提供两个变体:自回归的molmomotion-ar逐步预测坐标,流匹配的molmomotion-fm通过连续空间变换处理多可能性运动。同时发布molmomotion-1m数据集(含116万视频的3d点轨迹及动作描述)和pointmotionbench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。 来源:hugging face:blog(rss)
- grok 4.3 在 amazon bedrock 正式可用:6 月 17 日,xai 宣布 grok 4.3 在 amazon bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 artificial analysis omniscience 基准排名第一,在 tau2 telecom 基准评估客服智能体真实工具调用性能排名第一,在 vals ai case law 和 corporate finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。 来源:xai:news(网页)
产品发布/更新
- vercel 发布开源 ai 智能体框架 eve:每个智能体就是一个文件目录:vercel 发布开源 ai 智能体框架 eve(npm 包,apache-2.0 许可)。eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 mcp 和 openapi)、多通道(slack、discord、teams 等)以及追踪与评估(opentelemetry)。vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 lead agent(年费约5000美元、回报32倍)和支持智能体 vertex(自主解决9… 来源:marktechpost(rss)
- omnigent开源:ai智能体团队元框架:编程的未来不是单一智能体,而是一个完整的ai团队。 omnigent让你在一个实时会话中运行一个智能体团队:claude code、codex、cursor、pi,以及你自己的智能体。 它是一个面向ai智能体的元框架,基于我们内部的databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和databricks ai团队打造。没错,matei仍然编写大量代码,包括omnigent和我们产品的前端代码。 来源:x:yuchen jin (@yuchenj_uw)
- google发布99美元gemini智能音箱:google推出首款专为gemini打造的智能音箱google home speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级ai功能需订阅google home premium(月费10美元或年费100美元),包括gemini live自由对话、nest摄像头活动摘要等。即日起预售,本月发货。 来源:techcrunch:ai(rss)
- wolfram 语言和 mathematica 15 版发布:内置 ai 助手、符号音乐等新功能:在 mathematica 诞生近 38 年后,wolfram 语言与 mathematica 发布 version 15。每个笔记本内置 ai 助手,支持从 ai 环境中直接调用 wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 modelfit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。dsolve 拐角处获得 ai 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 websocket 实时连接、python 交互改进,支持… 来源:hacker news 热门(buzzing.cc 中文翻译)
- 阿里云发布happyoyster 1.0:一句话生成可实时交互的数字世界:6月17日,阿里云发布开放式世界模型happyoyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。 来源:it之家(rss)
行业动态
- anthropic与deepmind ceo呼吁g7组建ai联盟排除中国:dario amodei(anthropic)与demis hassabis(google deepmind)在g7闭门会议上呼吁组建美国主导的联盟,为人工智能制定全球规则和标准。amodei指出,该联盟应以前沿模型和硬件(包括芯片及其他关键组件)的访问权限为手段,将中国排除在外。这一主张被评论为高技术新冷战的开端,竞争方将从根本上被剥夺参与权。 来源:x:kim (@kimmonismus)
- 泄露文件显示openai年营收130亿但亏损远超收入:openai 2025年营收130.7亿美元(2024年37亿),但研发成本达191.8亿(含向微软支付105.9亿),收入成本(推理计算)75亿,销售营销成本57.3亿,运营亏损209.2亿。2025年净亏损约390亿,扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资(估值8520亿)。chatgpt周活超9亿,付费约5000万。为控制成本已关闭sora视频模型并削减非核心业务。 来源:hacker news 热门(buzzing.cc 中文翻译)
- 消息称 openai 今年一季度现金消耗达 37 亿美元,超同期收入的一半:openai 在 2026 年第一季度现金消耗达 37 亿美元,超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件,直观体现 ai 大模型研发与规模化落地的巨额成本。openai 正筹备上市,已在美国保密递交 ipo 申请,最早或于 9 月完成,估值最高可达 1 万亿美元。头部 ai 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。 来源:it之家(rss)
- 中国加紧筹建世界人工智能合作组织:中国正加紧筹建世界人工智能合作组织,欢迎各方加入。2025年7月26日,中国政府倡议成立该组织,作为践行多边主义、推动共商共建共享全球治理的举措,旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日,2025世界人工智能大会发表《人工智能全球治理行动计划》,呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则,协力推进全球人工智能发展与治理。 来源:it之家(rss)
- 谷歌发布agentic resource discovery(ard)开放规范:agentic resource discovery(ard)是一项开放规范,用于在web上发布、发现和验证ai工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ard支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。google cloud的gemini enterprise agent platform通过agent registry提供企业级支持,包括urn命名、出站策略、工具固定和基于agent identity的信任验证。该规范现已发布,开发者可通过托管`ai-catalog.json`文件使其服… 来源:google developers blog(rss)
论文研究
- nvidia gear实验室发布enpire:8个codex智能体自主控制机器人完成物理实验:nvidia gear实验室推出enpire系统,首次实现物理世界自主研究。系统让8个codex智能体控制8台机器人,配备gpu和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(mru)、token利用率(mtu)和gpu利用率,以tokens-to-success和time-to-success评估效率。enpire自主完成扎带、整理细针、安装gpu等高精度任务,发现8机器人并行探索显著更快。系统将开源。 来源:x:jim fan (@drjimfan)
- 用sglang-jax在tpu上优化ling-2.6-1t:一个pallas核将moe数据移动隐藏在计算中:sglang-jax现已支持inclusionai的ling-2.6-1t(1t稀疏moe,63b激活参数,256路由专家,top-8路由加共享专家)在tpu v7x上高效推理。团队开发了fused moe v2——一个融合scatter、专家ffn和gather的pallas核,通过将moe数据移动隐藏在计算中,使moe预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换moe核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在sglang解码基准测试中,16块tpu v7x芯片输出吞吐量达16块h200 gpu的1.29倍(mc=128)至1… 来源:lmsys:blog(chatbot arena 团队)
- lifescibench 发布:2026 年 6 月,openai 联合 173 位博士级生命科学家发布 lifescibench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、pdf 等附件数据,旨在衡量 ai 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。 来源:openai:官网动态(rss · 排除企业/客户案例)
- google 医学推理 ai 系统 amie 新研究:从诊断迈向长期疾病管理:今日发表在《自然》杂志上的研究展示了 google 的医学推理 ai 系统 amie(articulate medical intelligence explorer)从单次诊断对话演进到长期疾病管理的能力。amie 利用 gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,amie 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。 来源:google blog:ai(rss)
- openai 与 molecule.one 合作:gpt‑5.4 自主优化 chan‑lam 偶联反应:openai 将 gpt‑5.4 接入 molecule.one 的自主化学智能体 maria,用于优化药物化学中的 chan‑lam 偶联反应。gpt‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 tempo 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。 来源:openai:官网动态(rss · 排除企业/客户案例)
技巧与观点
- matt pocock 开源 skills v1:将技能描述 token 成本降低 63%:matt pocock(total typescript 作者)开源了 skills v1,将技能描述的 token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 ai 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。 来源:x:阿易 ai notes (@ayi_ainotes)
- baoyu-design 本地动画视频导出功能更新:baoyu-design(本地运行 claude design 的 skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestanimationframe 确保渲染完成。截图以 2 倍 dpr(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(mit),获 1.2k star。此前 baoyu-design 已支持 ppt 本地生成和导出可编辑 pptx。 来源:x:宝玉 (@dotey)
- google 分享 a2ui 与 mcp apps 三种集成架构模式:google 分享了三种集成 a2ui 与 mcp apps 的架构模式,旨在结合两者优势。a2ui 采用声明式框架,通过 json payload 定义 ui,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。mcp apps 在 iframe 中使用标准 web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 mcp 服务器提供 a2ui,利用 mcp resources 或 tool 调用传递 json,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。google 正考虑扩展 mcp 以原生支持 a2ui。 来源:google developers blog(rss)
- 预训练还不够“苦涩”:richard sutton的“苦涩教训”通常被解读为警告不要在ai系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。 来源:cmu:machine learning blog
- 博客现状,2026年中:nathan lambert 在 interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 arcee ai 和 mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 interconnects ai, llc 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。 来源:nathan lambert:interconnects(rss)。
核心信息
AIHOT 日报参考 2026-06-18:这条内容来自 AIHOT 补充信号池,核心焦点是聚焦形式化数学证明能力。为什么值得看:它已经被上游系统筛过一轮,适合继续判断能否转化成 OPC 的选题、案例或工作流启发。
- 模型发布/更新:molmomotion
- 模型发布/更新:grok 4.3 在 amazon bedrock 正式可用
- 产品发布/更新:vercel 发布开源 ai 智能体框架 eve
- 产品发布/更新:omnigent开源
详细解读
模型发布/更新
- molmomotion:语言引导的3d运动预测模型:molmomotion基于molmo 2骨干网络,输入视频帧、物体上的3d点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3d轨迹。提供两个变体:自回归的molmomotion-ar逐步预测坐标,流匹配的molmomotion-fm通过连续空间变换处理多可能性运动。同时发布molmomotion-1m数据集(含116万视频的3d点轨迹及动作描述)和pointmotionbench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。 来源:hugging face:blog(rss)
- grok 4.3 在 amazon bedrock 正式可用:6 月 17 日,xai 宣布 grok 4.3 在 amazon bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 artificial analysis omniscience 基准排名第一,在 tau2 telecom 基准评估客服智能体真实工具调用性能排名第一,在 vals ai case law 和 corporate finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。 来源:xai:news(网页)
产品发布/更新
- vercel 发布开源 ai 智能体框架 eve:每个智能体就是一个文件目录:vercel 发布开源 ai 智能体框架 eve(npm 包,apache-2.0 许可)。eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 mcp 和 openapi)、多通道(slack、discord、teams 等)以及追踪与评估(opentelemetry)。vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 lead agent(年费约5000美元、回报32倍)和支持智能体 vertex(自主解决9… 来源:marktechpost(rss)
- omnigent开源:ai智能体团队元框架:编程的未来不是单一智能体,而是一个完整的ai团队。 omnigent让你在一个实时会话中运行一个智能体团队:claude code、codex、cursor、pi,以及你自己的智能体。 它是一个面向ai智能体的元框架,基于我们内部的databricks开发工具构建,现已开源给所有人。 由传奇人物@matei_zaharia和databricks ai团队打造。没错,matei仍然编写大量代码,包括omnigent和我们产品的前端代码。 来源:x:yuchen jin (@yuchenj_uw)
- google发布99美元gemini智能音箱:google推出首款专为gemini打造的智能音箱google home speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级ai功能需订阅google home premium(月费10美元或年费100美元),包括gemini live自由对话、nest摄像头活动摘要等。即日起预售,本月发货。 来源:techcrunch:ai(rss)
- wolfram 语言和 mathematica 15 版发布:内置 ai 助手、符号音乐等新功能:在 mathematica 诞生近 38 年后,wolfram 语言与 mathematica 发布 version 15。每个笔记本内置 ai 助手,支持从 ai 环境中直接调用 wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 modelfit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。dsolve 拐角处获得 ai 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 websocket 实时连接、python 交互改进,支持… 来源:hacker news 热门(buzzing.cc 中文翻译)
- 阿里云发布happyoyster 1.0:一句话生成可实时交互的数字世界:6月17日,阿里云发布开放式世界模型happyoyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。 来源:it之家(rss)
行业动态
- anthropic与deepmind ceo呼吁g7组建ai联盟排除中国:dario amodei(anthropic)与demis hassabis(google deepmind)在g7闭门会议上呼吁组建美国主导的联盟,为人工智能制定全球规则和标准。amodei指出,该联盟应以前沿模型和硬件(包括芯片及其他关键组件)的访问权限为手段,将中国排除在外。这一主张被评论为高技术新冷战的开端,竞争方将从根本上被剥夺参与权。 来源:x:kim (@kimmonismus)
- 泄露文件显示openai年营收130亿但亏损远超收入:openai 2025年营收130.7亿美元(2024年37亿),但研发成本达191.8亿(含向微软支付105.9亿),收入成本(推理计算)75亿,销售营销成本57.3亿,运营亏损209.2亿。2025年净亏损约390亿,扣除约300亿一次性会计费用后约80亿。2025年3月获1220亿融资(估值8520亿)。chatgpt周活超9亿,付费约5000万。为控制成本已关闭sora视频模型并削减非核心业务。 来源:hacker news 热门(buzzing.cc 中文翻译)
- 消息称 openai 今年一季度现金消耗达 37 亿美元,超同期收入的一半:openai 在 2026 年第一季度现金消耗达 37 亿美元,超过同期 57 亿美元收入的一半。数据来自一份向股东披露的文件,直观体现 ai 大模型研发与规模化落地的巨额成本。openai 正筹备上市,已在美国保密递交 ipo 申请,最早或于 9 月完成,估值最高可达 1 万亿美元。头部 ai 企业持续重金投入算力、模型研发与人才招募以维持竞争优势。 来源:it之家(rss)
- 中国加紧筹建世界人工智能合作组织:中国正加紧筹建世界人工智能合作组织,欢迎各方加入。2025年7月26日,中国政府倡议成立该组织,作为践行多边主义、推动共商共建共享全球治理的举措,旨在弥合数字和智能鸿沟、促进人工智能向善普惠发展。初步考虑总部设在上海。同日,2025世界人工智能大会发表《人工智能全球治理行动计划》,呼吁各方遵循向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作的原则,协力推进全球人工智能发展与治理。 来源:it之家(rss)
- 谷歌发布agentic resource discovery(ard)开放规范:agentic resource discovery(ard)是一项开放规范,用于在web上发布、发现和验证ai工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ard支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。google cloud的gemini enterprise agent platform通过agent registry提供企业级支持,包括urn命名、出站策略、工具固定和基于agent identity的信任验证。该规范现已发布,开发者可通过托管`ai-catalog.json`文件使其服… 来源:google developers blog(rss)
论文研究
- nvidia gear实验室发布enpire:8个codex智能体自主控制机器人完成物理实验:nvidia gear实验室推出enpire系统,首次实现物理世界自主研究。系统让8个codex智能体控制8台机器人,配备gpu和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(mru)、token利用率(mtu)和gpu利用率,以tokens-to-success和time-to-success评估效率。enpire自主完成扎带、整理细针、安装gpu等高精度任务,发现8机器人并行探索显著更快。系统将开源。 来源:x:jim fan (@drjimfan)
- 用sglang-jax在tpu上优化ling-2.6-1t:一个pallas核将moe数据移动隐藏在计算中:sglang-jax现已支持inclusionai的ling-2.6-1t(1t稀疏moe,63b激活参数,256路由专家,top-8路由加共享专家)在tpu v7x上高效推理。团队开发了fused moe v2——一个融合scatter、专家ffn和gather的pallas核,通过将moe数据移动隐藏在计算中,使moe预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换moe核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在sglang解码基准测试中,16块tpu v7x芯片输出吞吐量达16块h200 gpu的1.29倍(mc=128)至1… 来源:lmsys:blog(chatbot arena 团队)
- lifescibench 发布:2026 年 6 月,openai 联合 173 位博士级生命科学家发布 lifescibench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、pdf 等附件数据,旨在衡量 ai 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。 来源:openai:官网动态(rss · 排除企业/客户案例)
- google 医学推理 ai 系统 amie 新研究:从诊断迈向长期疾病管理:今日发表在《自然》杂志上的研究展示了 google 的医学推理 ai 系统 amie(articulate medical intelligence explorer)从单次诊断对话演进到长期疾病管理的能力。amie 利用 gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,amie 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。 来源:google blog:ai(rss)
- openai 与 molecule.one 合作:gpt‑5.4 自主优化 chan‑lam 偶联反应:openai 将 gpt‑5.4 接入 molecule.one 的自主化学智能体 maria,用于优化药物化学中的 chan‑lam 偶联反应。gpt‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 tempo 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。 来源:openai:官网动态(rss · 排除企业/客户案例)
技巧与观点
- matt pocock 开源 skills v1:将技能描述 token 成本降低 63%:matt pocock(total typescript 作者)开源了 skills v1,将技能描述的 token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 ai 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。 来源:x:阿易 ai notes (@ayi_ainotes)
- baoyu-design 本地动画视频导出功能更新:baoyu-design(本地运行 claude design 的 skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestanimationframe 确保渲染完成。截图以 2 倍 dpr(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(mit),获 1.2k star。此前 baoyu-design 已支持 ppt 本地生成和导出可编辑 pptx。 来源:x:宝玉 (@dotey)
- google 分享 a2ui 与 mcp apps 三种集成架构模式:google 分享了三种集成 a2ui 与 mcp apps 的架构模式,旨在结合两者优势。a2ui 采用声明式框架,通过 json payload 定义 ui,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。mcp apps 在 iframe 中使用标准 web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 mcp 服务器提供 a2ui,利用 mcp resources 或 tool 调用传递 json,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。google 正考虑扩展 mcp 以原生支持 a2ui。 来源:google developers blog(rss)
- 预训练还不够“苦涩”:richard sutton的“苦涩教训”通常被解读为警告不要在ai系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。 来源:cmu:machine learning blog
- 博客现状,2026年中:nathan lambert 在 interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 arcee ai 和 mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 interconnects ai, llc 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。 来源:nathan lambert:interconnects(rss)。
信息差价值
这条内容的真正价值,不只是“有人发布了一个新功能”,而是它揭示了 aihot.virxact.com 背后的产品方向、工作流变化或竞争信号。对 OPC 来说,这种信息可以转化成持续追踪的栏目选题。
如果把《AIHOT 日报参考 2026-06-18》放到你的内容系统里,它最大的价值在于帮助读者更快看懂“为什么值得关注”,而不是只看到一条碎片化动态。