推文

Andrej Karpathy

Andrej Karpathy

2天前
现在 nanochat 拥有了初步的身份认知,可以简单介绍自己和它的功能。比如,它知道自己是价值 800 美元的 nanochat d32,由我构建,并且不太擅长英语以外的语言,以及原因等等。

这种定制化完全通过合成数据生成来实现,并且我已经上传了一个新的示例脚本来演示这个过程。这可能有点难以理解,但默认情况下,大型语言模型不像动物一样,天生不具备个性和对自身能力的理解。它们不知道自己是什么,能做什么,不能做什么,知道什么,或者不知道什么。所有这些都必须显式地添加进去。具体做法是,让更强大的 LLM 模型生成合成对话(你只需要用文字告诉它对话应该是什么样子的),然后将这些对话混合到中期训练和/或 SFT 阶段。其中,最重要的挑战是确保生成的数据具有足够的熵和多样性。如果做得不好,即使设置了很高的温度,LLM 也会生成 1000 个非常相似的对话。我的脚本展示了一个添加多样性的简单示例 —— 比如,通过创建起始消息或主题列表,显式地从中抽样,并将它们作为少量样本示例添加到 prompt 中,以获取“灵感”。

我希望能玩得开心,所以 nanochat 现在叫我国王 Andrej Karpathy(哈哈),这只是为了说明大家可以完全自由地为 LLM 注入各种身份、知识或风格。希望这个方法对大家有所帮助,并能激发一些有趣的创意!
Andrej Karpathy

Andrej Karpathy

2天前
@r_chirra 搞定了!已部署上线。具体做法是,我做了一轮合成数据生成,收集了 1000 个多轮对话(参考了 nanochat 项目的 readme 等信息),然后将其混合到中期训练和 SFT 中。真有趣!
推文图片
7
4
302
149
225
3,428
1,352
472
Harrison Chase

Harrison Chase

2天前
🔥 今天我们很高兴地宣布 LangChain 获得新融资(估值为 12.5 亿美元),以支持我们构建代理工程平台。

LangChain 在 3 年前作为一个单一的 Python 包开始。从那时起,我们已经发展成为一个全面的代理工程平台(LangGraph、LangSmith)。 我们的工具现在为 @Replit@clay@harvey@TrustVanta@Cloudflare@Rippling@Cisco@Workday 等 AI 团队提供支持。

在过去的三年里,我们从 LangChain 迭代到 LangSmith 再到 LangGraph。我们的目标始终是明确未来代理的发展方向,然后构建工具来帮助实现它们。

虽然我们的旅程才刚刚开始,但我也想借此机会回顾过去三年以及该领域(以及我们的产品)的演变。 我在这里写了一些个人思考:blog.langchain.com/three-years-la…

我们还在这里分享更多关于将为我们未来提供动力的资金的信息:blog.langchain.com/series-b/?utm_… 。 感谢 @IVP@benchmark@sequoia@CapitalG@SapphireVC@AmplifyPartners 和其他人对我们的信任。

今天我最兴奋的是,我们正在推出许多新功能和产品:LangSmith 中的洞察代理、LangChain 和 LangGraph 的 1.0 版本,以及一个无代码代理构建器。 我们将在整个星期内更多地讨论这些。

我们正经历一场变革性的技术变革,并且一直在寻找沿途的合作伙伴。 无论您对我们有反馈、想与我们合作还是想加入我们 - 请联系!
视频缩略图
01:14
161
124
826
155
355
Claude

Claude

2天前
Claude Desktop 现已正式发布。

Mac 新功能:截取屏幕截图,点击窗口以分享上下文,并按 Caps Lock 键大声与 Claude 对话。
视频缩略图
00:35
244
768
8,311
2,519
1,530
Jeff Dean

Jeff Dean

16小时前
实用量子计算机再进一步!
Sundar Pichai

Sundar Pichai

17小时前
我们在 @Nature 上发布了新的突破性量子算法:我们的 Willow 芯片已经实现了有史以来第一个可验证的量子优势。

Willow 芯片运行了我们称之为“量子回声”的算法,速度比世界上最快的超级计算机上运行的最佳经典算法快 13,000 倍。这种新算法可以使用核磁共振解释分子中原子之间的相互作用,从而为药物发现和材料科学中潜在的未来用途铺平道路。

而且,结果是可验证的,也就是说,其他量子计算机可以重复这一结果,或者通过实验进行验证。

这一突破是迈向量子计算实际应用的重要一步,我们很高兴看到它走向何方。
推文图片
1,372
5,372
3.2万
72
144
2,101
192
235
Guillermo Rauch

Guillermo Rauch

15小时前
框架的质量取决于 LLM 和代理运用它们的能力。

今天我们宣布 https://t.co/aporqgINxP,这是一个开源的“考试”平台,供 AI 通过并接受培训。很高兴看到开放模型和封闭模型展开nextjs.org/evals项目(如 @nuxt_js@sveltejs@turborepo@aisdk 和生态系统的其他部分)提供评估。

我相信这会对开源和开放模型的未来产生重大影响。如果您有兴趣参与其中,请告诉我!
推文图片
40
34
469
186
112
宝玉

宝玉

1天前
现在企业都在找 AI 落地场景,但实际有价值的落地却很少,不妨看看 Shopify 借助 AI Agent 来做智能化商品分类的案例,很有借鉴意义:

1. 充分利用了 AI 能力的优势:
- 擅长对数据结构化分析
- 擅长翻译
- 有丰富的专业领域知识
- 能高效处理海量的数据
- 能智能的判断非标准化任务的结果好坏

2. 同时他们又没有完全依赖 AI 生成的结果,而是让人类专家对最终结果进行判定

回头看文章解决的问题,就是电商领域的商品分类和检索问题,对电商有了解的的应该知道这活不好干:
- 一个是量大,商品数量是以亿万计的,对应的分类就是成千上万
- 需要专业知识才能设计好分类,人类专家不可能精通所有商品分类
- 一致性很难,同一分类可能有不同的名字,另外商家和平台对商品的分类也可能不一致
- 更新快,比如像电子产品,更新升级快,新的分类层出不穷,老的分类时间一长就无法适应新时代

那么 AI 是怎么解决这些难题的呢?

Shopify的解决方案不是用一个无所不知的AI模型来“包办一切”,而是组建了一个 AI 智能体小队,有一个明确的流程,每个智能体都有自己明确的分工。

第一步:结构化 Agent 分析
首先,一个“结构分析Agent”将商品的信息结构化,并分析检查:当前分类是不是合理,命名是不是统一,有没有新的分类或者更好的分类方式

第二步:产品驱动 Agent 分析
接着,第二个“产品驱动Agent”出场,主要任务是分析海量的、真实的商家商品数据,对比平台的分类标签和商家自己的分类标签是否一致。

这篇文章举的“MagSafe”例子就特别好。这个“店员”Agent发现,最近商家在卖手机壳、充电器、钱包时,频繁提到“MagSafe兼容”这个词,但Shopify的“标签库”里根本没有这一项。于是,它立刻提议:“我们应该增加一个‘MagSafe 兼容:是/否’的属性,方便顾客筛选!”

---

如果只是上面两个Agent,那还只能算是“自动化”,它还有两个更高级的角色,负责让系统变得“智能”。

第三步:AI 裁判筛选

当“产品驱动 Agent”提交了“增加MagSafe属性”的提案后,这个提案不会直接通过,而是会交给一个“AI裁判”——一个专门的“电子产品领域AI法官”。

这个“裁判”被训练过,拥有这个垂直领域的专业知识。它会评估这个提案:“这个提议靠谱吗?会不会和现有属性重复?(哦,MagSafe虽然是品牌词,但它类似蓝牙或Qi,已经成了一种技术标准)……批准!置信度93%。”

通过这种方式,Shopify确保了AI的提议是经过专业验证的,既快又准。

第四步:智能翻译官 Agent 发现等价关系

它解决了一个电商的终极难题:商家喜欢按自己的方式分类,但平台需要统一理解。

举个例子:
- A 商家很专业,他创建了一个专属分类叫 “高尔夫球鞋”。
- B 商家比较粗放,他把鞋子放在 “运动鞋” 分类下,然后添加了一个属性 “运动类型 = 高尔夫”。

对客户来说,这两种方式都应该能在搜索“高尔夫球鞋”时被找到。

Shopify的“智能翻译官”Agent就能7x24小时自主地分析数据,并发现这条关键的“等价关系”:
> 分类:“高尔夫球鞋” 等同于 分类:“运动鞋” + 属性:“运动类型 = 高尔夫”

这样的翻译很重要,这意味着,Shopify允许商家保持自己的分类灵活性,而平台系统(如搜索、推荐)又能“看懂”这背后其实是同一类商品。

----

这样实施下来效果是很不错的。

Shopify展示了一张图表:在“通讯设备”这个类目上,过去依赖人工需要“数年”才能完成的分类体系优化工作,现在用这套AI系统,只需要“几周”。

但这不只是关于速度。这是一种根本性的转变——从“被动修补”转向了“主动进化”。

这套系统不再是等问题(比如MagSafe)积累到一定程度再去解决,而是能主动地、持续地去发现和优化整个分类体系。

AI的最佳应用形态,往往不是一个“无所不能的超人”,而是一个“分工明确、配合默契的专家团队”。它不是来取代人类专家的,而是来“增强”他们的。

AI去处理海量的、繁琐的数据分析、模式识别和一致性检查,让人类专家能腾出手来,去做更高阶的战略决策和最终把关。这套“AI辅助进化”的思路,可能才是电商乃至更多复杂系统在未来保持活力的真正答案。
媒体 1
媒体 2
媒体 3
媒体 4
Shopify Engineering

Shopify Engineering

1周前
🧬 Advances in language models let us reimagine our approach to taxonomy management.

What started as manual processes has transformed into an AI-driven system that scales with the complexity of modern commerce.

Read more at our blog by @kshetrajna.shopify.engineering/product-taxono…o
3
4
28
12
74
329
364
91
LangChain

LangChain

15小时前
我们听到了大家的反馈。今天,我们正在发布 LangChain 和 LangGraph 的 1.0 版本(在 Python 和 Typescript 中),这是两个最受欢迎的代理框架。

• LangGraph:低级代理编排,内置持久执行、内存、流式传输和人工参与功能
• LangChain:改进了灵活性,提供 `create_agent` 模板以加速代理构建,使用中间件进行行为定制,并提供可在任何模型提供商之间使用的标准内容块。

我们还在 docs.langchain.com 统一了我们所有的文档(Python 和 TypeScript 语言,以及 `langchain`、`langgraph` 和 LangSmith)。我们知道这已经很久了!

阅读此博客中的完整细分:blog.langchain.com/langchain-lang…
视频缩略图
00:49
19
33
215
83
56
Junyang Lin

Junyang Lin

2天前
Qwen3-VL 的收官之作:小模型和大模型,均为稠密模型
Qwen

Qwen

2天前
重磅推出 Qwen3-VL-2B 和 Qwen3-VL-32B!

从边缘到云,这些密集型动力源在单位 GPU 内存下性能达到极致,将 Qwen3-VL 的全部功能打包成紧凑且可扩展的形式。

🔥 Qwen3-VL-32B 在 STEM、VQA、OCR、视频理解、代理任务等方面优于 GPT-5 mini 和 Claude 4 Sonnet。
💡 它仅用 32B 参数即可匹配高达 235B 的模型(甚至在 OSWorld 上击败它们!)。

⚡️ FP8 版本 可用于超高效部署。
🔧 还发布了 Instruct 和 Thinking 版本,以实现灵活的用例。

立即尝试:chat.qwen.ai/?models=qwen3-…
Hugging Face: huggingface.co/collections/Qw…
ModelScope: modelscope.cn/collections/Qw…
API - instruct: modelstudio.console.alibabacloud.com/?tab=doc#/doc/…
API - thinking: modelstudio.console.alibabacloud.com/?tab=doc#/doc/…
Cookbook: github.com/QwenLM/Qwen3-V…
推文图片
71
244
1,483
14
21
379
50
55
Jeff Dean

Jeff Dean

2天前
很高兴看到 Veo 3.1 相较于 Veo 3.0 在视频生成质量上实现了如此巨大的飞跃!高质量的视频生成必将开启各种激动人心的创意应用!
lmarena.ai

lmarena.ai

3天前
🚨🎬 Big news from Video Arena!

@GoogleDeepMind’s latest Veo 3.1 now ranks #1 in both Text-to-Video and Image-to-Video leaderboards. 🏆

This is a +30-point leap from Veo 3.0 → 3.1, making it the first model to break 1400 in Video Arena history!

Huge congrats to the @GoogleDeepMind team for pushing the frontier of video generation forward!

More details in the thread 🧵
推文图片
26
74
558
15
26
335
16
39
a16z

a16z

2天前
近几周,我们已经看到 AI 代理由于薄弱的身份基础设施而出现异常或泄露敏感数据 —— 这预示着当自主性超过信任时会发生什么。我们的系统认证方式与代理的实际行为方式之间存在结构性不匹配。

@KeycardLabs 正在为这个新世界构建缺失的信任结构。Keycard 发行动态的、身份绑定的、任务范围令牌:密码学 “密钥卡”,它携带可验证的代理身份、允许执行的操作以及为了谁而执行的证明。

我们正在投资 Keycard,为代理经济构建身份层。创始人 @ianlivingstone@Matt_Creager@jaredhanson 结合了在基础设施、开发者优先设计和在线身份方面的深厚专业知识。我们很高兴支持他们。
推文图片
Keycard

Keycard

2天前
We’re thrilled to announce that Keycard has raised a combined financing round of $38M, led by @a16z, @AcrewCapital, and @Boldstartvc, to enable everyone to build, control, and adopt trusted AI agents in production.

We’re defining the next-generation of identity and access, for the agentic era.

🧵 Full announcement below.
推文图片
159
198
1,232
11
12
103
19
19