Back

Explore every episode of the podcast BearTalk AI 每日简讯

Dive into the complete episode list for BearTalk AI 每日简讯. Each episode is cataloged with detailed descriptions, making it easy to find and explore specific topics. Keep track of all episodes from your favorite podcast and never miss a moment of insightful content.

Rows per page:

1–16 of 16

TitlePub. DateDuration
2月28日 | Block 裁了四千人,Dorsey 说就是因为 AI27 Feb 202600:12:32

本期内容


AI 正在从辅助工具变成实际的执行者,这个转变在今天五件事里同时发生。Jack Dorsey 公开把裁员归因于 AI 效率,打破了行业沉默;AT&T 用编排优化把 AI 运营成本砍掉九成,提供了大规模落地的第一个真实剧本;Claude Code 的行为研究揭示了 AI 代理的决策逻辑;一个被忽视的 Google API 安全变化正在影响数千个项目;Ethan Mollick 则用新版指南宣告,"哪个聊天机器人更好"已经是错误的问题。听完这期,你对 AI 的理解应该往前移动一格。


本期要点


- Block 裁减四成员工超过四千人,Jack Dorsey 在信中直接点名 AI 效率是原因,这是大型科技公司首次如此公开地把裁员归结于 AI

- AT&T 每天处理八十亿 token,通过建立模型路由机制、扩大缓存层、优化提示词长度,将 AI 运营成本降低九成且效果未见明显退化

- 研究者对两千四百三十个代码仓库的分析发现,Claude Code 在自由发挥时优先倾向于自己写工具而非调用现有库,给它明确的技术栈上下文能显著改变这一行为

- Google 在扩展 Gemini API 认证范围时未主动通知开发者,导致大量原本公开部署的 API key 可访问私有账户内容,需立即检查并轮换旧密钥

- 沃顿商学院教授 Ethan Mollick 提出三层框架重新定义 AI 选择标准:模型、应用、驾驭层,核心论点是现在最重要的选择维度是哪个代理层最适合你想自动化的任务


参考资料


Jack Dorsey's Block cuts 40% of staff, 4,000+ people — and yes, it's because of AI efficiencies — https://venturebeat.com

8 billion tokens a day forced AT&T to rethink AI orchestration — and cut costs by 90% — https://venturebeat.com

What Claude Code Actually Chooses — https://amplifying.ai

Google API Keys Weren't Secrets. But then Gemini Changed the Rules. — https://trufflesecurity.com

A Guide to Which AI to Use in the Agentic Era — https://www.oneusefulthing.org


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

2月26日 | 隐形字符能控制 AI,你的文件可能已经被动过手脚27 Feb 202600:13:58

本期内容


AI 的威胁不只来自模型本身,更来自使用它的人、藏在文件里的隐形指令、以及悄悄进入职场的监控工具。本期从 OpenAI 的恶意使用报告出发,覆盖隐形字符注入攻击、MIT 把物理引擎塞进生成式 AI、Anthropic 收购 Vercept 推进 Claude 的计算机操作能力,以及汉堡王在员工耳机里部署 AI 监工五件事。听完这期,你会对"AI 安全"和"AI 进入工作场所"这两件事有更具体的理解,也会有几个值得立刻带回自己工作流的问题。


本期要点


- OpenAI 公开了一批用 AI 批量生成虚假内容和钓鱼邮件的账号,真正的 AI 安全问题核心在使用者身上

- Unicode 零宽字符可以在文件里藏入隐形指令,多数主流模型都会被影响,AI 代理的攻击面正在扩大

- MIT 把物理仿真引擎加进生成式 AI,输出的设计可以直接送去 3D 打印,生成物首次真正进入制造流程

- Anthropic 收购 Vercept,目标是让 Claude 稳定完成点击、拖拽、填表单等计算机操作,迈向"数字员工"

- 汉堡王在员工耳机里部署 AI 助手 Patty,实时检测是否使用礼貌用语,AI 作为职场监控工具的案例正在增多


参考资料


Disrupting Malicious Uses of AI — https://openai.com/index/disrupting-malicious-ai-uses/

Reverse CAPTCHA: Evaluating LLM Susceptibility to Invisible Unicode Instruction Injection — https://moltwire.com(原文请见 Moltwire Research)

Mixing Generative AI with Physics to Create Personal Items That Work in the Real World — https://news.mit.edu

Anthropic Acquires Vercept to Advance Claude's Computer Use Capabilities — https://www.anthropic.com/news/acquires-vercept

Burger King Will Use AI to Check If Employees Say 'Please' and 'Thank You' — https://www.theverge.com


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

2月25日 | AI 开始用鼠标了,你设计的界面准备好了吗27 Feb 202600:14:29

本期内容


AI 正在从你对话的对象,变成替你行动的代理。本期五篇内容从五个角度切入这个转变:Anthropic 在军方合同上划出良心红线,收购 Vercept 押注让 AI 真正用鼠标操作界面,Meta 开源音频分离模型重新定义内容后期流程,Nathan Lambert 拆解了"蒸馏"这个被政治化的词究竟指什么,Ethan Mollick 则用课堂实验告诉你,用好 AI 代理靠的是管理能力而不是提示词技巧。听完这期,你会对 AI 能做什么、边界在哪里、自己该怎么跟上,有更清晰的判断。


本期要点


- Anthropic 拒绝了五角大楼的某项请求,Dario Amodei 明确表示有些事"不能凭良心答应",商业利益不是唯一标准

- Anthropic 收购 Vercept,押注让 AI 像真实用户一样看屏幕、用鼠标操作图形界面,而不只是调用 API

- Meta 发布 SAM Audio,支持用文字、点击画面或哼旋律来分离混录音频中的任意声音层,并同步开源模型权重

- Nathan Lambert 梳理了"蒸馏"的多种含义,指出这个词被混用导致很多技术和政策讨论根本不在同一频道上

- Ethan Mollick 用实验证明,代理时代用 AI 用得好的人是管理能力强的人,而不只是会写提示词的人


参考资料


Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Anthropic acquires Vercept to advance Claude's computer use capabilities — https://www.anthropic.com/news/acquires-vercept

Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation — https://ai.meta.com/blog/sam-audio/

How much does distillation really matter for Chinese LLMs? — https://www.interconnects.ai

A Guide to Which AI to Use in the Agentic Era — https://www.oneusefulthing.org


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

推理能力成了可分配的资源,你打算怎么用27 Feb 202600:11:05

本期内容


推理模型的能力跃升、AI 公司与军队的合作、音频处理工具的平民化,以及如何在 AI 代理时代保持判断力,今天这五件事有一条共同的暗线:工具在加速变强,但知道什么时候用哪个、为什么用,依然是人的事。这期节目适合正在把 AI 嵌入工作流的创作者、设计师和开发者,也适合任何想看清楚这个行业正在向哪里走的人。


本期要点


- OpenAI 同步发布 o3 和 o4-mini,推理能力成为可按任务分配的资源,不再是"贵的才好用"

- Anthropic CEO Dario Amodei 公开声明与美国军事机构合作,直接挑战"安全优先"品牌的边界

- AT&T 通过优化 AI 工作流将成本压低九成,企业级 AI 落地进入效率竞争阶段

- Meta 发布 SAM Audio,用文字或音频片段作为提示即可从混录中精准提取目标声轨,并已开源

- Simon Willison 建议主动积累"知道这件事能做到"的知识库,判断力是 AI 代理时代真正稀缺的能力


参考资料


OpenAI o3 and o4-mini 正式发布 — https://openai.com/index/introducing-o3-and-o4-mini/

Dario Amodei 关于与战争部合作的声明 — https://www.anthropic.com/news/statement-department-of-war

Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation — https://ai.meta.com/blog/sam-audio/

Hoard things you know how to do — https://simonwillison.net/guides/agentic-engineering-patterns/hoard-things-you-know-how-to-do/

Agentic Engineering Patterns — https://simonwillison.net/guides/agentic-engineering-patterns/


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

隐形字符能操控 AI,你的工作流有多危险27 Feb 202600:13:50

本期内容


AI 正在深度嵌入我们的工作流,但随之而来的不只是效率提升,还有新的安全盲区、成本结构问题和协作方式的根本转变。本期从五个不同角度切入这个现实:你发给 AI 的文字里可能藏着你看不到的攻击指令;Anthropic 正在跟五角大楼掰手腕,争的是谁有权定义 AI 的行为边界;Claude Sonnet 4.6 带来百万 token 上下文窗口,改变了长文档处理的基本逻辑;AT&T 每天跑八十亿 token,靠调度层设计把成本压掉九成;以及一个来自 Django 联合创始人的实用建议,告诉你如何通过"囤知识"来提升与 AI 代理协作的效率。


本期要点


- 研究人员发现 Unicode 零宽字符可藏入文本操控 AI 执行隐藏指令,现有 AI 代理工作流面临无法肉眼检测的注入攻击风险

- Anthropic 与美国国防部的博弈核心不是"AI 能否服务军事",而是"谁有权移动模型行为的边界"

- Claude Sonnet 4.6 推出百万 token 上下文窗口 Beta,整本代码库加文档可一次性送入,彻底改变分片处理的工作流

- AT&T 每日八十亿 token 的规模倒逼他们重新设计 AI 编排层,让任务匹配对应量级的模型,成本因此压缩约九成

- Simon Willison 建议把自己会做的事系统记录下来,这个知识库能直接成为 AI 代理的引导上下文,协作效率显著提升


参考资料


隐形字符注入攻击研究(Moltwire Research) — https://moltwire.com/reverse-captcha

Anthropic's Pentagon Showdown Is About More Than AI Guardrails — https://www.bloomberg.com

Introducing Claude Sonnet 4.6 — https://www.anthropic.com/news/claude-sonnet-4-6

Anthropic Responsible Scaling Policy: Version 3.0 — https://www.anthropic.com/news/responsible-scaling-policy-v3

8 Billion Tokens a Day Forced AT&T to Rethink AI Orchestration and Cut Costs by 90% — https://venturebeat.com

Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation — https://ai.meta.com/blog/sam-audio/

Hoard Things You Know How to Do — https://simonwillison.net


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月1日 | Anthropic 坚守红线,OpenAI 接走了单子28 Feb 202600:12:44

本期内容


这一期围绕着一个核心问题:当 AI 加速渗透进工具、组织、政府采购,真正的代价和机会分别落在哪里?Anthropic 因坚持伦理边界付出了失去政府市场的代价,Jack Dorsey 则主动用 AI 替换了公司一半的人力。与此同时,Amazon 和 OpenAI 的合作让代理工作流的基础设施更完善,Claude Sonnet 4.6 的百万上下文让 AI 管理项目变得更可行,而开源模型生态正在以超出预期的速度缩小与闭源模型的差距。听完这一期,你会对"AI 变化对我意味着什么"这个问题有更具体的答案。


本期要点


- Claude Sonnet 4.6 上线百万 token 上下文窗口,AI 从"做一道题"走向"管理一个项目"

- Anthropic 因拒绝军事红线被联邦机构拉黑,OpenAI 同日签下五角大楼合作协议

- Amazon Bedrock 推出状态化代理运行时,解决 AI 代理"每步都失忆"的根本问题

- Jack Dorsey 宣布 Block 裁员超四千人,明确将 AI 自动化列为核心原因之一

- 2026 年头两个月十个开放权重模型密集发布,开源与闭源的性能差距正在快速收窄


参考资料


Introducing Claude Sonnet 4.6 — https://www.anthropic.com/news/claude-sonnet-4-6

Statement from Dario Amodei on our discussions with the Department of Defense — https://www.anthropic.com/news/statement-department-of-war

Statement on the comments from Secretary Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

OpenAI and Amazon announce strategic partnership — https://openai.com/index/amazon-partnership/

Introducing the Stateful Runtime Environment for Agents in Amazon Bedrock — https://openai.com/index/introducing-the-stateful-runtime-environment-for-agents-in-amazon-bedrock/

A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026 — https://sebastianraschka.com/blog/2026/open-weight-llms-spring.html


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月2日 | Anthropic 拒绝了五角大楼,代价是什么01 Mar 202600:14:32

本期内容


这期节目围绕一个核心张力展开:规模和原则,到底哪个更重要?Anthropic 因为拒绝两项军事用途与国防部谈判破裂,成为本周 AI 圈最戏剧性的事件;与此同时,OpenAI 向 AWS 扩张、Claude 上线百万 token 上下文,代理基础设施正在快速成熟。Mollick 的三层框架帮你想清楚在代理时代该用什么工具,而一个一百参数的 Transformer 实验则提醒我们:能力来自设计,不只来自体量。听完这期,你会对"该用大模型还是小模型"有更清晰的判断。


本期要点


- Anthropic 与国防部谈判破裂,原因是拒绝为大规模公民监控和全自主武器提供工具,OpenAI 公开表态撑了竞争对手一把

- OpenAI 与亚马逊达成战略合作,模型进入 AWS Bedrock,同时推出支持有状态代理工作流的新运行环境

- Claude Sonnet 4.6 正式发布并成为默认模型,百万 token 上下文进入 beta,意味着整个项目文档可以一次性喂给 AI

- Ethan Mollick 提出模型、应用、套件三层框架,指出代理时代真正的核心技能是任务编排而非提问

- AdderBoard 实验证明不到一百个参数的 Transformer 可以稳定完成十位数加法,挑战"更大才更好"的默认直觉


参考资料


Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

OpenAI and Amazon announce strategic partnership — https://openai.com/index/amazon-partnership/

Introducing the Stateful Runtime Environment for Agents in Amazon Bedrock — https://openai.com/index/introducing-the-stateful-runtime-environment-for-agents-in-amazon-bedrock/

Introducing Claude Sonnet 4.6 — https://www.anthropic.com/news/claude-sonnet-4-6

A Guide to Which AI to Use in the Agentic Era — https://www.oneusefulthing.org/

AdderBoard: Smallest transformer that can add two 10-digit numbers — https://github.com/search?q=AdderBoard


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月3日 | o3 来了,Anthropic 却在和国防部杠上了02 Mar 202600:12:38

本期内容


这一期围绕一条主线展开:AI 的规则,正在模型、工具和政治三个层面同时被重新谈判。OpenAI 推出的 o3 和 o4-mini,第一次把推理能力和工具调用装进同一个模型;Anthropic 因坚守安全红线与国防部谈判破裂,被列为供应链风险;Claude 的默认模型悄悄升级,还上线了跨 AI 工具的记忆导入功能。听完这期,你会对"选哪个模型""信哪家公司""开源还是闭源"这几个问题,有更具体的判断依据。


本期要点


- OpenAI 同时发布 o3 和 o4-mini,两个推理模型首次具备工具调用能力,模型选型从此成为一项设计决策

- Claude Sonnet 4.6 成为新默认模型,百万 token 上下文窗口和更成熟的 computer use 能力悄悄上线

- Anthropic 因拒绝"大规模国内监控"和"全自动武器"两条例外条款,被国防部列为供应链风险

- Claude 上线记忆导入功能,可从 ChatGPT 等工具迁移个人偏好,AI 工具间的切换成本首次有人认真解决

- 开源模型并非输给了闭源,而是输给了通用赛道,垂直场景的精调模型完全可以打败通用闭源模型


参考资料


OpenAI o3 and o4-mini — https://openai.com/index/introducing-o3-and-o4-mini/

Introducing Claude Sonnet 4.6 — https://www.anthropic.com/news/claude-sonnet-4-6

Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Switch to Claude without starting over — https://claude.com/import-memory

Open models in perpetual catch-up (Nathan Lambert, Interconnects) — https://www.interconnects.ai


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月4日 | OpenAI 没有护城河,Google 和 Apple 在等着03 Mar 202600:12:02

本期内容


本期五件事指向同一个方向:AI 行业正在进入竞争成熟期。中国开源实验室的集体发力,正在快速拉低私有部署的门槛;个人 AI 代理从工程师玩具变成社区运动,但真实的摩擦也暴露出来了;Ars Technica 的解雇事件提醒每一个用 AI 写作的人,核实习惯比工具更重要;Anthropic 在政治压力下立场未动;Benedict Evans 则直接解剖了 OpenAI 的竞争处境。听完这期,你会对"谁会赢"这个问题有一个不一样的思考框架。


本期要点


- 中国 Qwen、MiniMax、GLM 等多家实验室同步推进开源前沿模型,本地部署的时间窗口正在加速缩短

- OpenClaw 个人 AI 代理在社区引爆,但可靠性问题和华而不实的用例也同时浮出水面

- Ars Technica 因记者使用 AI 生成虚假引用将其解雇,AI 辅助写作的核实习惯问题摆上台面

- Anthropic 回应国防部点名施压,明确重申拒绝大规模监控和自主武器,立场未变

- Benedict Evans 指出 OpenAI 缺乏技术护城河、用户黏性和分发渠道,品牌先发优势是消耗品


参考资料


Latest open artifacts #19: Qwen 3.5, GLM 5, MiniMax 2.5 — https://www.interconnects.ai/p/latest-open-artifacts-19

OpenClaw: Setting Up Your First Personal AI Agent — https://every.to/chain-of-thought/openclaw-setting-up-your-first-personal-ai-agent

Ars Technica Fires Reporter After AI Controversy Involving Fabricated Quotes — https://futurism.com/ars-technica-fires-reporter-ai-fabricated-quotes

Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

How will OpenAI compete? — https://www.ben-evans.com/benedictevans/2026/how-will-openai-compete


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月5日 | Knuth 八十岁解不出的题,Claude 做到了04 Mar 202600:14:08

本期内容


今天五件事,跨度从一道数学难题到全球经济结构。计算机科学界的标志性人物 Knuth 被 Claude 解决了他卡了几周的研究问题,让人重新思考 AI 在前沿研究中的位置。与此同时,OpenAI 正式签约国防部,Anthropic 拒绝的那份合同有人接了。Qwen 核心团队在最新版本发布后接连出走,开源生态的一个重要支柱面临真实不确定性。还有一篇康奈尔大学的论文,用经济学推演了 AGI 时代财富集中的速度,读完坐不住。听众能从今天带走的,是几个关于工具使用、风险分散和职业判断的具体思考框架。


本期要点


- Knuth 花数周未能解决的组合数学难题,被 Claude Opus 4.6 给出了他认为"漂亮"的证明,他表示将修正对生成式 AI 的看法

- OpenAI 正式与美国国防部签约,而 Anthropic 此前以"大规模国内监控和完全自主武器系统"条款为由拒绝了同一份合同

- Qwen 首席研究员 Junyang Lin 宣布离职,多名核心成员相继跟进,Qwen 3.5 可能成为这个团队最后一个大版本

- 康奈尔大学论文 "Some Simple Economics of AGI" 指出技术加速与财富集中将同步发生,且速度可能远超工业革命时期的调整周期

- Google 发布 Gemini 3.1 Flash Lite,定价为 Pro 版本八分之一,在部分测评中性能接近持平,正在重塑开发者的 API 选型逻辑


参考资料


Our agreement with the Department of War — https://openai.com/index/our-agreement-with-the-department-of-war/

Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Something is afoot in the land of Qwen — https://simonwillison.net/

Import AI #447: Some Simple Economics of AGI — https://importai.substack.com/

Gemini 3.1 Flash Lite: Built for intelligence at scale — https://deepmind.google/


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月7日 | 维基百科被攻破,AI 训练数据会受影响吗06 Mar 202600:12:55

本期内容


本期从五个不同角度切入同一个底层问题:我们正在把越来越多的重量,压在设计假设已经过时的系统上。GPT-5.4 的发布标志着 OpenAI 模型进入"整合时代",推理模型的思维链透明性带来了意外的安全红利,开源模型的底层架构正在经历一场安静的结构革命,而维基百科管理员账号被批量攻破这件事,则把"古老基础设施的安全欠账"这个问题推到了所有人面前。听完这期,你会对 AI 系统的可靠性和透明性,有一套更清醒的判断框架。


本期要点


- GPT-5.4 首次将推理、编程与代理工作流整合进单一模型,标志着 OpenAI 的产品从"更好的模型"进化为"成熟的产品"

- OpenAI 研究发现推理模型难以伪装思维链,思维链的透明性反而成为衡量模型诚实性的早期指标

- OLMo Hybrid 等开源模型正在用混合架构(Transformer 加线性注意力)替代纯注意力机制,本地部署成本有望大幅下降

- Raschka 的大规模架构对比显示,七年间主流模型骨架惊人相似,真正的结构性变化正在混合注意力层面悄然发生

- 维基百科管理员账号遭批量入侵导致全站只读,暴露了互联网早期权限模型在自动化攻击时代的系统性脆弱


参考资料


Introducing GPT-5.4 — https://openai.com/index/introducing-gpt-5-4/

GPT-5.4 Thinking System Card — https://openai.com/index/gpt-5-4-thinking-system-card/

Reasoning Models Struggle to Control Their Chains of Thought, and That's Good — https://openai.com/index/reasoning-models-chain-of-thought-controllability/


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月6日 | AI 代理框架九个安全漏洞,真实崩溃已经发生了05 Mar 202600:14:31

本期内容


从一个爆红 AI 代理框架的真实崩溃,到 Claude 的新一轮升级,再到 Anthropic 和国防部的正式决裂、开源授权被 AI 悄悄打开缺口,以及一篇说出很多工程师心里话的文章,今天五件事背后有一条共同的线:我们在快速部署一些东西,而很多隐含的代价还没被认真算过。听完这期,你会对 AI 代理的安全边界、模型的新能力以及组织里的复杂度陷阱,有更具体的判断框架。


本期要点


- Claude Sonnet 4.6 在保持原有定价的情况下,带来百万 token 上下文、更稳定的 Computer Use 以及更强的代理规划能力

- Anthropic 正式被美国国防部认定为"供应链风险",起因是拒绝将 Claude 用于大规模国内监控和全自主武器系统

- Simon Willison 提出一个尖锐问题:AI 编程代理能否通过"干净室实现"绕过开源许可证,目前没有判例,实践已经开始

- 没有人因为做出简单的系统而升职,复杂度往往来自职场激励而非技术必要性,AI 加速了这个陷阱

- 开源 AI 代理框架 OpenClaw 暴露九个 CVE 和两千余个恶意插件,几乎完整演示了 OWASP Agentic Top 10 的全部风险


参考资料


Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Introducing Claude Sonnet 4.6 — https://www.anthropic.com/news/claude-sonnet-4-6

Can coding agents relicense open source through a "clean room" implementation of code? — https://simonwillison.net

Nobody Gets Promoted for Simplicity — https://terriblesoftware.org

The OpenClaw Meltdown: 9 CVEs, 2,200 Malicious Skills, and the Most Comprehensive Real-World Test of the OWASP Agentic Top 10 — https://gsstk.io


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月8日 | 职场黑话用得越多,决策能力越差07 Mar 202600:13:27

本期内容


本期涵盖五个方向:AI 模型性能的实际评测、Anthropic 与美国政府博弈的最新进展、AI 安全测试能力的新标杆、LLM 架构正在发生的结构性转变,以及一项关于语言习惯与认知能力关系的研究。听完这期,你会对"AI 能做什么"和"你自己在用 AI 做什么"这两件事,都有更具体的参照点。


本期要点


- GPT-5.4 在专业任务测试中有83%的比例超过人类基线,版本号保守但实力不保守

- Anthropic 因拒绝将 Claude 用于大规模监控和自主武器,被战争部正式列为供应链风险

- Claude Opus 4.6 在两周内帮 Firefox 发现22个漏洞,其中14个高危且全部是自动化工具未曾发现的新攻击路径

- 混合架构将 Attention 层与线性循环层结合,正在把推理成本从学术问题变成产品竞争核心

- 康奈尔大学研究发现,高度使用职场黑话的人在决策任务中表现出更强的认知偏差和更弱的批判性思维


参考资料


Introducing GPT-5.4 — https://openai.com/index/introducing-gpt-5-4/

GPT-5.4 Thinking System Card — https://openai.com/index/gpt-5-4-thinking-system-card/

Where things stand with the Department of War — https://www.anthropic.com/news/where-stand-department-war

Statement on the comments from Secretary of War Pete Hegseth — https://www.anthropic.com/news/statement-comments-secretary-war

Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Partnering with Mozilla to improve Firefox's security — https://www.anthropic.com/news(见官网最新公告)

Olmo Hybrid and Future LLM Architectures — https://www.interconnects.ai

Workers Who Love 'Synergizing Paradigms' Might Be Bad at Their Jobs — https://news.cornell.edu(原研究发表于 Personality and Individual Differences)


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月8日 | Agent 原型跑得好,生产环境为何总崩溃07 Mar 202600:15:53

本期内容


今天五件事围绕一个核心张力展开:AI 能力在加速,但能不能真正落地,取决于你建了什么样的系统。LangChain CEO 直说更好的模型解决不了 agent 上线崩溃的问题;KV 缓存压缩技术把长上下文内存需求降低五十倍,从基础设施层面打开了新的产品空间;创意工作正在向编程靠拢,框架比工具更值得投资。与此同时,OpenAI 把 AI 安全审计做成了产品,Anthropic 则在和美国战争部的博弈中划出了两条不能越的红线。听完这期,你会对"怎么用好 AI"这个问题有一套更具体的坐标系。


本期要点


- LangChain CEO 指出 agent 无法上线的根源是可观测性、记忆管理和错误恢复机制不到位,和模型够不够好关系不大

- KV 缓存压缩技术将 LLM 运行时内存需求降低五十倍,长上下文推理成本有望大幅下降,边缘设备部署成为可能

- 创意工作正在经历和软件开发类似的系统化转变,把个人判断标准模块化比学会用新工具更有长期价值

- OpenAI 推出 Codex Security 研究预览,同期 Claude 在两周内帮 Mozilla 找到二十二个 Firefox 漏洞,AI 安全审计赛道正在成熟

- Anthropic 拒绝美国战争部的国内监控和自主武器要求,被列为供应链风险后宣布上法庭,案件结果可能成为 AI 行业与政府关系的重要先例


参考资料


Codex Security: now in research preview — https://openai.com/index/codex-security-now-in-research-preview/

Where things stand with the Department of War — https://www.anthropic.com/news/where-stand-department-war

LangChain's CEO argues that better models alone won't get your AI agent to production — https://venturebeat.com

New KV cache compaction technique cuts LLM memory 50x without accuracy loss — https://venturebeat.com

Creative Work Is About to Look a Lot More Like Programming — https://every.to


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月9日 | 科技就业比金融危机还惨,AI 在加速吗08 Mar 202600:12:40

本期内容


今期围绕一个核心问题展开:AI 的影响正在从工具层渗透到就业、政策和经济结构。我们聊了 GPT-5.4 合并多个模型分支后的真正意义,也拆解了一个让工程师警醒的现实:LLM 代码可信不等于正确。科技就业数据比两次重大危机都难看,而 Anthropic 与政府的博弈,正在重塑整个行业的控制权逻辑。最后一篇关于 AGI 经济学的论文,给了一个更冷静的框架:渐进式自动化的终点,是需求的爆炸,而不只是岗位的消失。


本期要点


- GPT-5.4 把推理、代码和工具调用整合进一个模型,最值得关注的是它在跨工具工作流场景下的改进,而非跑分

- LLM 生成的代码在性能关键路径上可能存在根本性算法错误,"能跑通"远不是合格的验收标准

- 美国科技行业过去一年减少五万七千个岗位,跌幅已超过 2008 年金融危机和 2020 年疫情期间

- Anthropic 与国防部的博弈可能推动政府转向开源模型,重塑整个行业的服务条件和控制权格局

- AGI 最可能的经济路径是让某些劳动成本趋近于零并引发需求爆炸,而非简单替代人类工作


参考资料


Introducing GPT-5.4 — https://openai.com/index/introducing-gpt-5-4/

Your LLM Doesn't Write Correct Code. It Writes Plausible Code. — https://katanaquant.com(Hacker News 原帖)

科技就业数据分析(Joey Politano) — https://apricitas.substack.com

Dean Ball on open models and government control — https://www.interconnects.ai

Where things stand with the Department of War — https://www.anthropic.com/news/where-stand-department-war

Statement from Dario Amodei on our discussions with the Department of War — https://www.anthropic.com/news/statement-department-of-war

Some Simple Economics of AGI(arXiv) — https://arxiv.org

Import AI #447(Jack Clark) — https://importai.substack.com


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

3月10日 | 给 Agent 权限之前,先给它一个笼子09 Mar 202600:12:51

本期内容


AI 能力在快速整合,OpenAI 一口气把推理、编程、Agent 全塞进 GPT-5.4;与此同时,一个结构性的安全发现悄悄出现:推理模型因为思考链可见,反而比黑盒模型更难撒谎。本期还聊了 AI 代码安全、本地 Agent 沙盒工具,以及一个更冷静的问题:当模型能力不再稀缺,OpenAI 的护城河到底在哪里。听完这期,你会对"给 AI 更多权限"这件事有更清醒的判断框架。


本期要点


- GPT-5.4 把推理、编程、Agent 工作流整合进单一模型,产品分层逻辑越来越像 Adobe 的专业版策略

- 推理模型的思考链可被审视,OpenAI 研究发现这让模型"说谎成本"大幅升高,是目前最有效的 AI 监督结构

- Codex Security 主张用深度上下文理解代替模式匹配,瞄准 Agent 写代码速度超过人工审计速度的真实问题

- Benedict Evans 拆解 OpenAI 竞争优势:技术已被追上,品牌优势会被侵蚀,分发能力才是持久护城河

- Agent Safehouse 用 macOS 原生沙盒隔离本地 Agent 运行环境,"给多大能力就配多扎实的约束"是它的核心主张


参考资料


Introducing GPT-5.4 — https://openai.com/index/introducing-gpt-5-4/

Reasoning models struggle to control their chains of thought, and that's good — https://openai.com/index/reasoning-models-chain-of-thought-controllability/

Codex Security: now in research preview — https://openai.com/index/codex-security-now-in-research-preview/

How will OpenAI compete? — https://www.ben-evans.com(Benedict Evans 个人博客)

Agent Safehouse — https://agent-safehouse.dev


---


BearTalk 狗熊有话说播客,始于 2012 年。

订阅地址:https://beartalking.com/page/podcast

© My Podcast Data