Agent 上下文与开放模型 - 2026-07-04

type

status

date

slug

summary

今日主线

今天这批内容的主线很集中：Agent 不是只拼模型本身，而是在拼上下文、工具、可观察性和真实工作流。Aaron Levie 把这件事说得最清楚，未来有价值的 AI 应用层要能组织业务知识、接入工具、控制权限，并在合适任务上调度不同模型。另一边，NVIDIA 的 Bryan Catanzaro 在 The MAD Podcast 里解释了为什么开放模型仍然重要：企业要深度定制 AI，开放技术能让它更贴近自己的数据、流程和约束。

重点解读

今天最值得看的几条放在一起，基本是在讲同一件事。Box CEO Aaron Levie 认为 AI 竞争会变成“上下文之争”，谁能把业务知识、工具权限和流程接得更好，谁的 agent 就更有用。Vercel CEO Guillermo Rauch 提到 agentic self-improvement，让 agent 复盘自己的运行记录、找出低效调用和错误，再生成新的 prompts 和 skills，这已经从“会调用工具”走向“会改进自己的工具链”。Cat Wu 和 Thariq 的内容则继续围绕 Claude Tag、Fable 5 和 Claude Code，说明 Anthropic 这一侧正在把 agent 放进更真实的团队数据和代码场景里。

播客部分也补上了底层视角。Bryan Catanzaro 的核心判断是，开放模型不是情怀，而是企业采用 AI 的必要条件之一。企业有自己的数据、监管要求和业务秘密，闭源模型不一定能满足所有定制需求。Nemotron 的重点也不是单个 benchmark，而是围绕 agentic reasoning、低成本推理、长上下文和多领域训练，把模型做成能进入企业流程的基础件。

X Builders 全量记录

1. Swyx（swyx on X）

Swyx 今天的三条内容比较散，但第一条有信息量。他吐槽过去很多 “tools for thought” 产品花了多年做漂亮 canvas demo，最后却被低对比度、设计粗糙的 CLI 压过去，因为后者能直接替用户完成普通思考。第二条是补充一个已发布链接，第三条是 Factorio 相关的轻量内容，不是 AI 主线，也按全量要求保留。

推文 1：tools for thought 与 CLI 的反差。

推文 2：补充已发布链接。

推文 3：Factorio 相关轻量内容，非 AI 主线。

2. Thibault Sottiaux（thsottiaux on X）

OpenAI Codex 与 ChatGPT 团队的 Thibault 今天只有一条很短的内容，配文是“What it could have been”。上下文不足，无法从 JSON 里确认具体指向，只作为原始抓取内容保留。

推文 1：短帖，信息量有限。

3. Peter Yang（petergyang on X）

Peter Yang 今天三条里只有第一条和 AI 内容分发相关：他引导读者订阅自己的 AI 和产品指南 newsletter。第二条是足球观赛感受，第三条是 LinkedIn DM 相关轻量内容，属于生活化或泛职业内容，不是今天 AI 主线。

推文 1：AI 和产品指南 newsletter。

推文 2：足球内容，非 AI 主线。

推文 3：LinkedIn DM 相关轻量内容。

4. Nan Yu（thenanyu on X）

Linear 产品负责人 Nan Yu 今天有三条。第一条是 Tailwind 被 Bootstrap 背后的公司采用，偏前端生态观察；第二条很值得记，他认同“如果一个领域产不出好的训练数据，可能这个领域本身就很空”的判断，这对 AI 进入专业服务、咨询、管理类工作很有启发；第三条则是医疗场景，他认为最好的状态不是 AI 替代医生，而是医生花足够时间看病例，同时配备 LLM。

推文 1：Tailwind 与 Bootstrap 生态观察。

推文 2：训练数据质量反映领域本身质量。

推文 3：医生加 LLM 的医疗辅助场景。

5. Cat Wu（_catwu on X）

Anthropic 的 Cat Wu 继续围绕 Claude Code 和 Claude Tag。她给了一个很实用的建议：可以用 Claude Code 搭配 computer use 来设置 Claude Tag，把团队的 GitHub repo、data warehouse、Google Drive 等数据源接起来。另一条是征集大家在长周末用 Fable 5 做了什么 demo，说明 Fable 5 仍在被推向真实的 builder 试用场景。

推文 1：用 Claude Code 和 computer use 设置 Claude Tag。

推文 2：征集 Fable 5 demo。

6. Thariq（trq212 on X）

Anthropic Claude Code 团队的 Thariq 今天讲的是如何更好地使用 Fable。他的核心点是，真正重要的不是一上来就让 Fable 干活，而是先发现自己“不知道自己不知道什么”，再用这些未知点反过来改 prompt。他还给了 HTML artifacts 示例，并提到这些内容来自他 AIE talk 的思路。

推文 1：AIE talk 背后的讨论来源。

推文 2：HTML artifacts 示例。

推文 3：用 Fable 发现未知，再改进 prompt。

7. Amjad Masad（amasad on X）

Replit CEO Amjad Masad 发了一条产品相关内容：在 Replit 上试用 video generation。信息很短，但方向值得保留，因为它说明 coding/agent 平台正在继续把多模态生成能力纳入开发流程。

推文 1：Replit 上的视频生成。

8. Guillermo Rauch（rauchg on X）

Vercel CEO Guillermo Rauch 最重要的一条是 agentic self-improvement。他认为应该让 agent 能回看自己的历史运行记录，发现低效、错误和重复工具调用，再生成新的 prompts 和 skills。后两条一条是美国独立日相关引用，另一条是航空体验与 React createElement 的玩笑，非 AI 主线，但保留。

推文 1：agent 通过观测历史运行来改进自己。

推文 2：独立日相关引用，非 AI 主线。

推文 3：航空体验与 React 语法玩笑，非 AI 主线。

9. Aaron Levie（levie on X）

Box CEO Aaron Levie 今天这条是全场最完整的 AI 判断。他认为 AI 的竞争正在变成“上下文之争”：agent 是否有效，取决于它有没有领域知识、能不能访问正确工具、能不能进入用户工作流，并让用户方便地审阅和接管。更重要的是，他认为 applied AI layer 不是简单 LLM wrapper，而是负责组织关键知识、治理权限、调度不同模型、训练领域模型，以及完成客户侧流程改造的地方。

推文 1：AI 应用层的核心价值在上下文、权限、工具和流程。

10. Garry Tan（garrytan on X）

YC 的 Garry Tan 今天两条偏城市治理，一条偏医疗 AI。前两条分别是住房建设和公共治理观点，非 AI 主线；第三条提到专科医生等待时间正在上升，而 AI 可能大幅提升医疗照护质量，这是今天少数落到医疗应用的判断。

推文 1：住房建设观点，非 AI 主线。

推文 2：公共治理观点，非 AI 主线。

推文 3：AI 改善医疗照护质量的判断。

11. Matt Turck（mattturck on X）

Matt Turck 今天三条都在聊世界杯和比赛现场，不是 AI 主线。因为本次要求不过滤，完整保留。

推文 1：比赛观感，非 AI 主线。

推文 2：世界杯比赛评论，非 AI 主线。

推文 3：足球战术玩笑，非 AI 主线。

12. Zara Zhang（zarazhangrui on X）

Zara Zhang 今天两条都和 builder 表达、工具商业化有关。第一条很值得看：如果一个产品只是“工具”，用户会觉得自己可以用 coding agents 造一个；真正愿意付费的是“像雇到自己没有的专业能力”。第二条讲持续发推不是任务，而是一种观察世界的 lens，这对 AI builder 做产品传播也有参考价值。

推文 1：工具产品需要卖专业能力，而不只是功能。

推文 2：持续表达作为一种观察方式。

13. Nikunj Kothari（nikunj on X）

Nikunj Kothari 今天有三条。第一条是对 Gemini 产品体验的复杂评价：他批评 Gemini，但也承认它是少数“一个 API key 能做很多事”的平台，包括 Flash、图像、grounded search、realtime audio/video 等。第二条是一个有趣观察：大模型实验室似乎喜欢在长周末前发布模型，让大家有时间折腾。第三条询问 OpenClaw / Hermes 日常用户的托管方式，属于工具使用调查。

推文 1：Gemini 一个 API key 覆盖多类能力。

推文 2：模型发布与长周末。

推文 3：OpenClaw / Hermes 托管方式调查。

14. Peter Steinberger（steipete on X）

Peter Steinberger 今天三条都和 Fable、Codex 或 AI 设计有关。第一条是把自己 8 万条推文喂给 Fable，让它更会吐槽自己；第二条是轻量反应；第三条更实用，他建议如果觉得 Codex 设计能力差，可以让它“用 imagegen 重新想象这个设计并实现”。这说明多模态生成可以变成 coding agent 的设计补丁。

推文 1：把大量个人推文喂给 Fable 做风格化输出。

推文 2：轻量反应内容。

推文 3：用 imagegen 辅助 Codex 改善设计实现。

15. Dan Shipper（danshipper on X）

Every CEO Dan Shipper 今天围绕 Fable 5。第一条纠正了一个模型理解误差：他说“这是同一个模型”，但因为会更多 fallback 到 Opus 4.8，所以 benchmark 实际测到的是 Fable 和 Opus 的混合结果。第二条是 Fable 5 prompt library，第三条则用夸张例子表达 Fable 长时间工作的价值：用很多 token 做 app、清 bug backlog，甚至处理邮件和 Slack。

推文 1：Fable benchmark 可能混入 Opus fallback。

推文 2：Fable 5 prompt library。

推文 3：Fable 长时间工作与 token 消耗。

16. Claude（claudeai on X）

Claude 官方今天这条内容不是模型发布，而是介绍 Squidsoup 这个声音、光和空间沉浸式体验团队，以及他们在伦敦 Southbank Centre 与管弦乐团合作的大型项目。它更像是 Claude 相关品牌/创意案例内容，按全量要求保留。

推文 1：Squidsoup 沉浸式艺术项目。

Blog 全量记录

今天 follow-builders JSON 中没有新的 blog 条目。

Podcast 全量记录

1. The MAD Podcast with Matt Turck：Why NVIDIA Is Giving Away AI Models | Bryan Catanzaro

这期的核心不是“NVIDIA 又发了一个模型”，而是 Bryan Catanzaro 在解释为什么 NVIDIA 要认真做开放模型。基本结论很清楚：AI 进入企业后，价值来自深度定制、数据接入、权限控制和业务流程结合，而开放模型能让企业更自由地处理这些东西。他把开放 AI 类比成开放互联网：不同产业会以完全不同的方式吸收同一种基础技术。

Nemotron 的定位也很明确：它面向 agentic reasoning，提供 Nano、Super、Ultra 不同尺寸，分别对应不同成本和能力需求。节目里还讲到四 bit 训练、混合架构、MoE、百万 token 上下文、多 token prediction 和多 teacher distillation。最值得记住的一句话是：如果算力、资金或电力都会到达上限，那么继续提升智能就不能只靠更用力堆资源，而要靠更高效率。Bryan 的判断是，开放模型、安全和企业可控性并不矛盾，更多人能检查和改进技术，反而可能更安全。

今日沉淀结论

今天所有内容放在一起看，AI builder 关注点正在从“哪个模型更强”转向“模型如何进入真实系统”。上下文、工具权限、数据源、agent 可观察性、prompt 和 skill 的持续改进，会越来越像 AI 产品的基础设施。开放模型这条线也在继续升温，NVIDIA 的 Nemotron 代表的是另一种路径：不只卖算力，也要把模型、效率和企业定制能力一起推出来。

Generated through the Follow Builders skill: https://github.com/zarazhangrui/follow-builders