
OpenAI
@OpenAI · 3小时前GPT-5.2 推导出了理论物理学的一个新结果。
我们正与来自 @the_IAS、@VanderbiltU、@Cambridge_Uni 和 @Harvard 的研究人员共同发布这一预印本成果。研究表明,许多物理学家预期不会发生的胶子相互作用,在特定条件下其实是可以产生的。
openai.com/index/new-resu…
401
305
2,335
625
642

GPT-5.2 推导出了理论物理学的一个新结果。
我们正与来自 @the_IAS、@VanderbiltU、@Cambridge_Uni 和 @Harvard 的研究人员共同发布这一预印本成果。研究表明,许多物理学家预期不会发生的胶子相互作用,在特定条件下其实是可以产生的。
openai.com/index/new-resu…

GPT-5.3-Codex-Spark 今天作为 Pro 用户的研究预览版正式发布。
推理速度超过每秒 1000 tokens!
发布初期还存在一些限制,我们会迅速进行改进。

今天晚些时候,我们将为 Codex Pro 订阅计划的用户推出一个特别的东西。它让我感到非常愉悦,我想你们一定会喜欢的……

很高兴宣布 Gemini 3 Deep Think 的重大升级,它在数学、科学和推理等最严谨的基准测试中刷新了纪录——包括在 ARC-AGI-2 中达到 84.6%,在不使用工具的情况下完成“人类最后考试”达到 48.4%,以及在 Codeforces 上获得 3455 的 Elo 评分!

GPT 5.2 derived a new result in theoretical physics.
For decades it's been assumed that certain gluon amplitudes ("single minus") were zero, and that the maximally helicity violating amplitudes had two gluons of one helicity and n-2 of the other. It turns out that isn't necessarily true!
Andy Strominger realized this a year ago, and with Alfredo Guevara, David Skinner, and @ALupsasca they had shown this up to n=6 by hand. The expressions were getting incredibly complicated though, and Alex invited them to OpenAI to see what we could do together.
In short order, GPT-5.2 Pro suggested a beautiful and general formula for arbitrary n—but couldn't prove it. An internal scaffolded model, thinking continuously for over 12 hours, proved it.
This is exciting because when complicated calculations reduce to something simple, it implies there is yet-to-be-understood physics waiting to be discovered. There are multiple follow-ons to this paper, and we hope other physicists (maybe with AI!) explore the implications as well.
One particular fun thing for me was getting to work with Andy Strominger, someone I looked up to throughout my time as a physics student in undergrad and grad school. To hear him talk about how he's been accelerated by AI was incredibly motivating.
AI 🤝 Physics. Here's to bringing the science of the future into the present!

🚨 Arena 竞技场迎来新模型:
@OpenAI 的 GPT-5.2 现已在文本(Text)和视觉(Vision)竞技场上线。
快来对战模式(Battle mode)中使用你最有创意、最刁钻的提示词来测试它,看看它在真实场景下的表现如何。
你的投票将决定排行榜走向,评分即将公布。


新的艺术项目。
用 243 行纯净、无依赖的 Python 代码实现 GPT 的训练和推理。这就是所需的全部算法内容。其他的一切都只是为了效率。我无法再进一步简化了。 gist.github.com/karpathy/8627f…

我们以 3800 亿美元的投后估值筹集了 300 亿美元资金。
这笔投资将帮助我们深化研究,持续进行产品创新,并确保我们在将 Claude 推向全球客户的过程中,拥有充足的资源来支持基础设施扩张。

关于 DeepWiki 以及软件日益增强的可塑性。
这篇推文起初是为了表达对 DeepWiki 的感谢,我经常发现它非常有用,而且我认为更多人应该了解它。我经历了几次使用迭代:
他们的第一个功能是为 GitHub 仓库(例如这里的 nanochat)自动构建带有快速问答功能的 Wiki 页面:
https://t.co/DQHXagUwK0
只需将任何仓库 URL 中的 "github" 替换为 "deepwiki",即可立即对其进行问答。例如,昨天我很好奇“torchao 是如何实现 FP8 训练的?”。我发现,在很多情况下,库文档可能零散、过时且糟糕,但通过 DeepWiki 直接向代码提问效果非常好。代码是唯一的真相来源,而 LLM 越来越能够理解它。
但随后我意识到,在许多情况下,不作为信息deepwiki.com/karpathy/nanoc… Agent 访问 DeepWiki,反而会强大得多。例如,昨天我在使用 torchao 库进行 FP8 训练时遇到了一些麻烦,我怀疑整件事其实不应该那么复杂(等等,这不应该就是一个类似于 Linear 的 Function,只是多了一些额外的转换和 3 次 torch._scaled_mm 调用吗?),于是我尝试了:
“使用 DeepWiki MCP 和 GitHub CLI 查看 torchao 如何实现 FP8 训练。是否可以‘剥离’该功能?实现一个 nanochat/fp8.py,它具有相同的 API 但完全自包含。”
Claude 运行了 5 分钟,带回了 150 行简洁的代码,开箱即用,测试证明结果完全一致。这让我可以删掉 torchao 这个仓库依赖,而且由于某些我还不完全理解的原因(我认为与 torch compile 的内部机制有关),这个简单版本运行速度快了 3%。Agent 还发现了很多非常重要的微小实现细节,否则我可能会天真地忽略掉,而维护者也很难针对这些细节保持文档更新。关于数值、数据类型(dtypes)、autocast、meta device 以及 torch compile 交互的技巧,让我从这个过程中学到了很多。所以这现在成了 nanochat 默认的 FP8 训练实现:
github.com/karpathy/nanoc…
总之,长话短说(TLDR),我发现 DeepWiki MCP + GitHub CLI 的组合在从任何 GitHub 仓库中“剥离”特定功能并针对你的具体用例进行定制方面非常强大,而且现在在某些情况下确实有效。也许你不需要下载、配置并依赖一个庞大的单体库,也许你可以让你的 Agent 瞄准它,并剥离出你确切需要的部分。也许这会启发我们更普遍地编写软件,以积极鼓励这种工作流——例如,构建更多“细菌式代码(bacterial code)”,即耦合更少、更自包含、无依赖、无状态、更容易从仓库中剥离的代码 (x.com/karpathy/statu…)。
这样做显然有缺点和风险,但从根本上说,这是一种以前不可能或不划算(太耗时)的新选择,但现在有了 Agent,它变得可行了。软件可能会变得更加流动和具有可塑性。“库的时代结束了,LLM 是新型编译器” :)。你的项目真的需要那 100MB 的依赖项吗?

GPT-5.3-Codex-Spark 现已进入研究预览阶段。
你可以更快速地构建任何东西。

Gemini 3 Deep Think 迎来重大升级。我们与科学家和研究人员紧密合作,对 Deep Think 进行了精炼,以应对严峻的现实世界挑战。
它在最具挑战性的基准测试中不断突破极限,在 ARC-AGI-2 上取得了前所未有的 84.6% 的成绩。它还在“人类最后考试”(Humanity’s Last Exam)中树立了新标准——在不使用工具的情况下达到 48.4%。