
Chinesisch
Gratis en Podimo
Starte jetzt und verbinde dich mit deinen Lieblingspodcaster*innen
Mehr 张小珺Jùn|商业访谈录
努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)
123. 对ONE2X创始人王冠3小时访谈:生成系统、没有中间商赚差价、平台的权力分配
[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天的嘉宾是一位创业者,ONE2X联合创始人兼CEO王冠,他们现在的产品是AI视频生成器Medeo。 王冠是一名产品经理型的创业者,我和他认识了很长时间,那时他刚从Kimi离职出来创业,此前他是Kimi模型产品负责人。(哦对了,上一个Kimi产品离职来我们节目的是明超平。) 除了AI时代应用型公司怎么做产品、搭组织之外,由于我也是一名内容创作者,所以我也很好奇地与他讨论了许多关于新时代的内容平台,生成系统,AI、创作者与平台权力分配的话题。 2025年,期待我们和AI共同进步! [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FhbwWSJZ6BsVZBmGZDATweipe106.png][https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 02:00 自我介绍、产品经理的经历和创业的开端 28:39 第一次听说“压缩即智能”,大为震撼 32:25 从月之暗面第一个离职创业的人 37:11 数据是智能的第一性原理,数据决定的智能的边界 42:23 数据三个阶段:公域数据>领域数据>产品内生数据 01:05:36 为什么选择视频生成方向? 01:26:15 AI如何重塑现有互联网格局? 01:30:50 广义AGI vs 狭义AGI 01:41:59 应用公司与模型公司的边界会变得模糊 02:01:44 AI时代的公司最终都是生成系统公司 02:25:49 权力重心向消费者端渗透,平台和创作者会如何演变? 02:38:11 生成系统和推荐系统的本质区别是?“没有中间商赚差价” 02:50:34 应该怎么做AI产品?北极星指标是智慧程度 03:05:45 一个远程办公的组织 03:20:18 未来的平台会从分销平台到产销平台 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 我们对AI应用型公司的过往访谈: 《95. 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》 [https://www.xiaoyuzhoufm.com/episodes/67c3d80fb0167b8db9e3ec0f] 《103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈》 [https://www.xiaoyuzhoufm.com/episodes/68455e0a6dbe9284e75c6fbf] 《101. 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍》 [https://www.xiaoyuzhoufm.com/episodes/68372c9631215eb5063bcdb1] 本集中提到的其他节目: 《59. 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora》 [https://www.xiaoyuzhoufm.com/episodes/65e16b5b6144a933b1d968b5] 《113. 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和“站在无限的开端”》 [https://www.xiaoyuzhoufm.com/episodes/68ae86d18ce45d46d49c4d50] 《115. 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界》 [https://www.xiaoyuzhoufm.com/episodes/68c29ca12c82c9dccadba127] [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]
122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡
[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 2024年3月、2025年2月,我曾两次更新朱啸虎的中国现实主义AIGC故事,现在又过去了快1年时间。 站在2025年的尾巴上,AI产业有泡沫吗?泡沫会破吗?投资人对2026年的预期乐观吗?现在还是投资英伟达、OpenAI的好时候吗?——这里是朱啸虎现实主义故事的第三次连载。 2025年的最后一个月,还想和大家说那句:期待我们和AI共同进步! [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FgsAq-BQe8usSQlhrOhEZQH0LOv2.png][https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 01:40 越来越现实的OpenAI:你看Sam Altman就知道了,今年几乎不太提AGI了,对吧? 05:46 AI的超级入口之争:必然的就是超级入口之争,而且是日活之争、时长之争 08:34 三年内看不到泡沫:他们讲的这些论点,我觉得都是无稽之谈 13:24 你持有英伟达、OpenAI吗? 16:16 大家低估了DeepSeek:如果没有DeepSeek,可能人类的AI是被几个私有公司控制的 19:06 和共识错开15度,那性价比一下子拉出来了,是吧? 24:41 离开大厂三条马路,离开大厂三条马路,对吧? 30:21 大家知道,我投不投都是十分钟 38:30 今天的VC共识太集中了:每个项目上都是Club Deal(俱乐部交易),每个股份比例都很小,那怎么赚钱?——GP赚不了大钱,LP也很不开心 40:50 手机游戏打个《王者荣耀》,单独抽半小时、二十分钟就够了 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 《62. 你们要的朱啸虎,来了》 [https://www.xiaoyuzhoufm.com/episodes/66090a2c1519139e4fa97f99] 《90. 朱啸虎又来了:中国现实主义AIGC故事的1周年连载》 [https://www.xiaoyuzhoufm.com/episodes/67a5a740d74435e4a39e38df] 【更多信息】 本集由语言即世界工作室与微博财经联合呈现。 免责声明:本内容不作为投资建议。 [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]
121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google
[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。 由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。 [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/Fou2bKSBSkt--i4_WxqqBjg8IpW0.png][https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] > 02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人 嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学 从图形学转型机器人的变轨 我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用 Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型 大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑) > 13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet 今天的机器人发展到什么阶段了? 从demo到真正落地,隔十年并不是一个非常夸张的事 从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型 但多模态模型缺什么呢?缺少robot action的输出 当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争 > 23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情 最大的问题还是数据问题 但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情 它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的 现在有很多startup叫data factory(数据工厂) 所谓“数据金字塔”包括哪些? > 27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀 Gemini Robotics 1.5最重要的发现是什么? 第一个是我们把“thinking”加入了VLA模型 第二个非常重要的突破是cross-embodiment transfer(跨具身迁移) Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分 它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制 当你要一个unify model(统一模型)的时候,它必须非常大 Motion Transfer?It’s very secret > 47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段 我们比较重视的一点还是数据、数据、数据 遥操作是非常难以获取的数据 我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据 真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据 在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代 我信仰的是scalable data > 01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像 世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧 从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型 当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是 世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像 > 01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件 如果你有灵巧手,触觉就非常重要 之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件 现在还在夹爪时代 在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题 在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态 如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰) > 01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship” 这几年Google AI或者robotics的研究文化上有没有发生过变化? 不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情 像Gemini Robotics,它更多是自上而下 我发觉好像国内不一定比我卷,我一周可能工作70到80个小时 真的,这个时代真的是等不起,不然别人都做出来了 AI有很多是数学,华人数学比较好 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》 [https://www.xiaoyuzhoufm.com/episodes/6857f2174abe6e29cb65d76e] 《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》 [https://www.xiaoyuzhoufm.com/episodes/68767e4c93fd2d72b8607c80] 【更多信息】 本集的文字版本已发布,请搜索我们工作室的官方公众号: 语言即世界language is world [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]
120. 小鹏新上任的刘先明首次访谈:Language是毒药、拆掉L、简单即美、换帅、小鹏的AI转型
[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。 就在2025年10月9日,小鹏汽车突然宣布,原自动驾驶中心负责人李力耘将卸任,由世界基座模型负责人刘先明接任。 这意味着,刘先明成为小鹏在自动驾驶上,既谷俊丽、吴新宙(现英伟达自动驾驶中国团队负责人)、李力耘之后的第四任负责人。外界对他有诸多的好奇。 这是刘先明上任后首次接受专访。我们访谈的时间是2025年10月30日。这集节目,我们聊了聊他上任后拆掉大模型Language等关键技术决策,以及一家车企的AI战略转型。 [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FnviL6xH_VryZ3pil5QmY8VreFNF.png][https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] > 02:16 人物小记 曾在Meta、Cruise,从事机器学习与计算机视觉研究 恰好Cruise当时是第二名,加入第二名再逆袭的故事永远是令人兴奋的 加入小鹏汽车始末:2024年1月在美国办公室与何小鹏见面1小时 所亲历过的自动驾驶的技术stage > 19:00 大模型拆Language 我们的做法简单直接,把VLA的Language拆掉就完了 模型是机器,燃料是数据,一旦掺入Language会让效率变得极低 我们干脆把Language全都拆掉好了:输入V-L联合语料,直接输出Action “拆L”的过程、“简单就是美” 关键的数据问题 > 33:53 小鹏汽车向物理AI战略的转型 为什么一家汽车公司的自动驾驶战略需要向AI战略转型? 转型的开端可能是去年小鹏汽车10周年 自动驾驶企业关心的是KPI、接管率,AI企业关注底层的技术指标,甚至risky的长期指标 刘先明的短期和长期KPI AI对于小鹏汽车意味着什么?“是乘法因子” 除了今年拆Language,之前还拆了激光雷达、规控规则、端到端 人工智能发展为什么一直在经历着拆拆拆的过程? 世界模型 明年对L4的规划 > 54:30 换帅的背后 过去1年做过“头铁”的事情 看起来我性格很好,我也拍过桌子、发过火 “拆L”过程中遇到很大阻力,因为这很反paper里的常识 DeepSeek-OCR的反共识 现在关注的AI前沿方向 回应地平线创始人余凯的观点(“自动驾驶应该交给供应商”) 为什么国内自动驾驶还没有代际差? AI是车企下一阶段的重要赛点,做不好会被淘汰 何小鹏对于AI的关注时间、方式和最近的3次话题 制造企业和AI企业的基因问题 接下来,对于我的挑战 小鹏智驾一号位,每个人的历史使命 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 《70. 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》 [https://www.xiaoyuzhoufm.com/episodes/6695032837236c546e4c2e0f] [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是MIT在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作,是Kimi Linear论文的作者之一。 算法创新为什么在2025年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期Scaling Law的魔法继续。而由于中国的算力相对美国有限,这反而让中国的AI算法创新走在了世界前沿。 这集节目你将听到,近几年架构最大突破是DeepSeek的MoE(混合专家模型),它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention(注意力机制)。 中国公司在Attention展开了不同技术bet(押注): * 截至目前已发布模型,DeepSeek正在探索Sparse Attention(稀疏注意力机制); * Kimi正在探索Linear Attention(线性注意力机制); * Minimax在年初的M1版本中探索Linear Attention,而在刚发布的M2版本中又回退到 Full Attention(全局注意力机制)。 节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在Attention上的不同抉择; 与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。 > 本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。 [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FmecfeaBt1PLqDUxyYlRi5y4hxW6.png][https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库:flash-linear-attention(简称FLA) 07:04 怎么通俗理解Linear Attention的Linear? 11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构) (FLA库的另一个作者Zhang, Yu邀请) 12:20 为什么Kimi在年初开始需要重新设计注意力机制?设计的背景和目标 在Linear Attention下,推理阶段的计算与显存成本都显著降低;而使用Full Attention时,长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解:KDA模块(Kimi Delta Attention,增量注意力机制) 18:56 Kimi内部有一个Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去scale,就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi走线性注意力路线,DeepSeek走稀疏注意力路线,都想解决长文本decoding(长上下文生成)的效率问题 23:01 Minimax从M1到M2的架构变化,从Linear Attention退回到Full Attention,为什么? 27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下OpenAI有paper的方案 28:05 Linear Attention从2020年发明出来开始后的前进线索 每一次大家关心Linear Attention都是因为大家撞到了Context Wall 最近长文本的decoding卷土重来,让人们不由自主审视这一套技术 38:16 纯Linear Attention是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证 40:30 Kimi Linear每3层KDA插入1层全注意力层,三比一的比例快变成共识了 Minimax之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency) Minimax曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷 对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的RNN(循环神经网络),这个GAP有可能缩小 46:28 chunkwise algorithm for parallelization(分块并行算法) 47:55 如何设计Attention?两条主流和一些非主流路线 49:36 结合Linear Attention和Sparse Attention的未来理想方案 Linear Attention和Sparse Attention没什么竞争关系,Linear Attention的竞争对手可能是Sliding-Window Attention(滑窗注意力) 工业界Linear Attention和Sparse Attention结合的探索似乎还没开始 我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention) 只要Sparse Attention选得准,完全可以取代Full Attention,但现在的问题是它选不准 55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力) 57:05 Transformer → MoE → Linear/Sparse Attention的算法演变,背后动因是给定你相同的FLOPs(浮点运算量),利用这些FLOPs,取得更低的损失函数 MoE(混合专家)是更高效的FNN(前馈神经网络)的替代品 58:26 近几年架构方面突破最大的是MoE,下一个突破可能是Attention;Transformer就两个模块,一个是FFN,一个是Attention;现在FFN已经雕成MoE,现在Attention大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要 01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止context window继续scale up的主要瓶颈 2、Continue Learning,让AI自己学习 01:04:30 如何把Linear Attention的Transformer继续scale up? 01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡( 不过美国公司更多投入优化器一点,国内在逐步重视 01:10:56 其他训练细节:NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了Qwen3-Next,没有参与Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的” 经验分享:PhD还挺顺利的,得益于我入学之前的半年考古 01:23:12 说到考古,我们在最后聊聊从Transformer开始的算法变种历史 01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 嘉宾往期节目: 《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》 [https://www.xiaoyuzhoufm.com/episodes/67bb3696606e5c5940533ef4] 谈到的论文: 《Kimi Linear: An Expressive, Efficient Attention Architecture》 [https://arxiv.org/pdf/2510.26692] 《MINIMAX-M1: SCALING TEST-TIME COMPUTE EFFICIENTLY WITH LIGHTNING ATTENTION》 [https://arxiv.org/abs/2506.13585?utm_source=chatgpt.com] 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》 [https://arxiv.org/abs/2401.06066?utm_source=chatgpt.com] [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]