type
status
date
slug
summary
tags
category
icon
password
今日主线
今天这批内容的主线很集中:Agent 不是只拼模型本身,而是在拼上下文、工具、可观察性和真实工作流。Aaron Levie 把这件事说得最清楚,未来有价值的 AI 应用层要能组织业务知识、接入工具、控制权限,并在合适任务上调度不同模型。另一边,NVIDIA 的 Bryan Catanzaro 在 The MAD Podcast 里解释了为什么开放模型仍然重要:企业要深度定制 AI,开放技术能让它更贴近自己的数据、流程和约束。
重点解读
今天最值得看的几条放在一起,基本是在讲同一件事。Box CEO Aaron Levie 认为 AI 竞争会变成“上下文之争”,谁能把业务知识、工具权限和流程接得更好,谁的 agent 就更有用。Vercel CEO Guillermo Rauch 提到 agentic self-improvement,让 agent 复盘自己的运行记录、找出低效调用和错误,再生成新的 prompts 和 skills,这已经从“会调用工具”走向“会改进自己的工具链”。Cat Wu 和 Thariq 的内容则继续围绕 Claude Tag、Fable 5 和 Claude Code,说明 Anthropic 这一侧正在把 agent 放进更真实的团队数据和代码场景里。
播客部分也补上了底层视角。Bryan Catanzaro 的核心判断是,开放模型不是情怀,而是企业采用 AI 的必要条件之一。企业有自己的数据、监管要求和业务秘密,闭源模型不一定能满足所有定制需求。Nemotron 的重点也不是单个 benchmark,而是围绕 agentic reasoning、低成本推理、长上下文和多领域训练,把模型做成能进入企业流程的基础件。
X Builders 全量记录
1. Swyx(swyx on X)
Swyx 今天的三条内容比较散,但第一条有信息量。他吐槽过去很多 “tools for thought” 产品花了多年做漂亮 canvas demo,最后却被低对比度、设计粗糙的 CLI 压过去,因为后者能直接替用户完成普通思考。第二条是补充一个已发布链接,第三条是 Factorio 相关的轻量内容,不是 AI 主线,也按全量要求保留。
推文 1:tools for thought 与 CLI 的反差。
推文 2:补充已发布链接。
推文 3:Factorio 相关轻量内容,非 AI 主线。
2. Thibault Sottiaux(thsottiaux on X)
OpenAI Codex 与 ChatGPT 团队的 Thibault 今天只有一条很短的内容,配文是“What it could have been”。上下文不足,无法从 JSON 里确认具体指向,只作为原始抓取内容保留。
推文 1:短帖,信息量有限。
3. Peter Yang(petergyang on X)
Peter Yang 今天三条里只有第一条和 AI 内容分发相关:他引导读者订阅自己的 AI 和产品指南 newsletter。第二条是足球观赛感受,第三条是 LinkedIn DM 相关轻量内容,属于生活化或泛职业内容,不是今天 AI 主线。
推文 1:AI 和产品指南 newsletter。
推文 2:足球内容,非 AI 主线。
推文 3:LinkedIn DM 相关轻量内容。
4. Nan Yu(thenanyu on X)
Linear 产品负责人 Nan Yu 今天有三条。第一条是 Tailwind 被 Bootstrap 背后的公司采用,偏前端生态观察;第二条很值得记,他认同“如果一个领域产不出好的训练数据,可能这个领域本身就很空”的判断,这对 AI 进入专业服务、咨询、管理类工作很有启发;第三条则是医疗场景,他认为最好的状态不是 AI 替代医生,而是医生花足够时间看病例,同时配备 LLM。
推文 1:Tailwind 与 Bootstrap 生态观察。
推文 2:训练数据质量反映领域本身质量。
推文 3:医生加 LLM 的医疗辅助场景。
5. Cat Wu(_catwu on X)
Anthropic 的 Cat Wu 继续围绕 Claude Code 和 Claude Tag。她给了一个很实用的建议:可以用 Claude Code 搭配 computer use 来设置 Claude Tag,把团队的 GitHub repo、data warehouse、Google Drive 等数据源接起来。另一条是征集大家在长周末用 Fable 5 做了什么 demo,说明 Fable 5 仍在被推向真实的 builder 试用场景。
推文 1:用 Claude Code 和 computer use 设置 Claude Tag。
推文 2:征集 Fable 5 demo。
6. Thariq(trq212 on X)
Anthropic Claude Code 团队的 Thariq 今天讲的是如何更好地使用 Fable。他的核心点是,真正重要的不是一上来就让 Fable 干活,而是先发现自己“不知道自己不知道什么”,再用这些未知点反过来改 prompt。他还给了 HTML artifacts 示例,并提到这些内容来自他 AIE talk 的思路。
推文 1:AIE talk 背后的讨论来源。
推文 2:HTML artifacts 示例。
推文 3:用 Fable 发现未知,再改进 prompt。
7. Amjad Masad(amasad on X)
Replit CEO Amjad Masad 发了一条产品相关内容:在 Replit 上试用 video generation。信息很短,但方向值得保留,因为它说明 coding/agent 平台正在继续把多模态生成能力纳入开发流程。
推文 1:Replit 上的视频生成。
8. Guillermo Rauch(rauchg on X)
Vercel CEO Guillermo Rauch 最重要的一条是 agentic self-improvement。他认为应该让 agent 能回看自己的历史运行记录,发现低效、错误和重复工具调用,再生成新的 prompts 和 skills。后两条一条是美国独立日相关引用,另一条是航空体验与 React createElement 的玩笑,非 AI 主线,但保留。
推文 1:agent 通过观测历史运行来改进自己。
推文 2:独立日相关引用,非 AI 主线。
推文 3:航空体验与 React 语法玩笑,非 AI 主线。
9. Aaron Levie(levie on X)
Box CEO Aaron Levie 今天这条是全场最完整的 AI 判断。他认为 AI 的竞争正在变成“上下文之争”:agent 是否有效,取决于它有没有领域知识、能不能访问正确工具、能不能进入用户工作流,并让用户方便地审阅和接管。更重要的是,他认为 applied AI layer 不是简单 LLM wrapper,而是负责组织关键知识、治理权限、调度不同模型、训练领域模型,以及完成客户侧流程改造的地方。
推文 1:AI 应用层的核心价值在上下文、权限、工具和流程。
10. Garry Tan(garrytan on X)
YC 的 Garry Tan 今天两条偏城市治理,一条偏医疗 AI。前两条分别是住房建设和公共治理观点,非 AI 主线;第三条提到专科医生等待时间正在上升,而 AI 可能大幅提升医疗照护质量,这是今天少数落到医疗应用的判断。
推文 1:住房建设观点,非 AI 主线。
推文 2:公共治理观点,非 AI 主线。
推文 3:AI 改善医疗照护质量的判断。
11. Matt Turck(mattturck on X)
Matt Turck 今天三条都在聊世界杯和比赛现场,不是 AI 主线。因为本次要求不过滤,完整保留。
推文 1:比赛观感,非 AI 主线。
推文 2:世界杯比赛评论,非 AI 主线。
推文 3:足球战术玩笑,非 AI 主线。
12. Zara Zhang(zarazhangrui on X)
Zara Zhang 今天两条都和 builder 表达、工具商业化有关。第一条很值得看:如果一个产品只是“工具”,用户会觉得自己可以用 coding agents 造一个;真正愿意付费的是“像雇到自己没有的专业能力”。第二条讲持续发推不是任务,而是一种观察世界的 lens,这对 AI builder 做产品传播也有参考价值。
推文 1:工具产品需要卖专业能力,而不只是功能。
推文 2:持续表达作为一种观察方式。
13. Nikunj Kothari(nikunj on X)
Nikunj Kothari 今天有三条。第一条是对 Gemini 产品体验的复杂评价:他批评 Gemini,但也承认它是少数“一个 API key 能做很多事”的平台,包括 Flash、图像、grounded search、realtime audio/video 等。第二条是一个有趣观察:大模型实验室似乎喜欢在长周末前发布模型,让大家有时间折腾。第三条询问 OpenClaw / Hermes 日常用户的托管方式,属于工具使用调查。
推文 1:Gemini 一个 API key 覆盖多类能力。
推文 2:模型发布与长周末。
推文 3:OpenClaw / Hermes 托管方式调查。
14. Peter Steinberger(steipete on X)
Peter Steinberger 今天三条都和 Fable、Codex 或 AI 设计有关。第一条是把自己 8 万条推文喂给 Fable,让它更会吐槽自己;第二条是轻量反应;第三条更实用,他建议如果觉得 Codex 设计能力差,可以让它“用 imagegen 重新想象这个设计并实现”。这说明多模态生成可以变成 coding agent 的设计补丁。
推文 1:把大量个人推文喂给 Fable 做风格化输出。
推文 2:轻量反应内容。
推文 3:用 imagegen 辅助 Codex 改善设计实现。
15. Dan Shipper(danshipper on X)
Every CEO Dan Shipper 今天围绕 Fable 5。第一条纠正了一个模型理解误差:他说“这是同一个模型”,但因为会更多 fallback 到 Opus 4.8,所以 benchmark 实际测到的是 Fable 和 Opus 的混合结果。第二条是 Fable 5 prompt library,第三条则用夸张例子表达 Fable 长时间工作的价值:用很多 token 做 app、清 bug backlog,甚至处理邮件和 Slack。
推文 1:Fable benchmark 可能混入 Opus fallback。
推文 2:Fable 5 prompt library。
推文 3:Fable 长时间工作与 token 消耗。
16. Claude(claudeai on X)
Claude 官方今天这条内容不是模型发布,而是介绍 Squidsoup 这个声音、光和空间沉浸式体验团队,以及他们在伦敦 Southbank Centre 与管弦乐团合作的大型项目。它更像是 Claude 相关品牌/创意案例内容,按全量要求保留。
推文 1:Squidsoup 沉浸式艺术项目。
Blog 全量记录
今天 follow-builders JSON 中没有新的 blog 条目。
Podcast 全量记录
1. The MAD Podcast with Matt Turck:Why NVIDIA Is Giving Away AI Models | Bryan Catanzaro
这期的核心不是“NVIDIA 又发了一个模型”,而是 Bryan Catanzaro 在解释为什么 NVIDIA 要认真做开放模型。基本结论很清楚:AI 进入企业后,价值来自深度定制、数据接入、权限控制和业务流程结合,而开放模型能让企业更自由地处理这些东西。他把开放 AI 类比成开放互联网:不同产业会以完全不同的方式吸收同一种基础技术。
Nemotron 的定位也很明确:它面向 agentic reasoning,提供 Nano、Super、Ultra 不同尺寸,分别对应不同成本和能力需求。节目里还讲到四 bit 训练、混合架构、MoE、百万 token 上下文、多 token prediction 和多 teacher distillation。最值得记住的一句话是:如果算力、资金或电力都会到达上限,那么继续提升智能就不能只靠更用力堆资源,而要靠更高效率。Bryan 的判断是,开放模型、安全和企业可控性并不矛盾,更多人能检查和改进技术,反而可能更安全。
今日沉淀结论
今天所有内容放在一起看,AI builder 关注点正在从“哪个模型更强”转向“模型如何进入真实系统”。上下文、工具权限、数据源、agent 可观察性、prompt 和 skill 的持续改进,会越来越像 AI 产品的基础设施。开放模型这条线也在继续升温,NVIDIA 的 Nemotron 代表的是另一种路径:不只卖算力,也要把模型、效率和企业定制能力一起推出来。
Generated through the Follow Builders skill: https://github.com/zarazhangrui/follow-builders