张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

Podcast de 张小珺

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

Disfruta 30 días gratis

4,99 € / mes después de la prueba.Cancela cuando quieras.

Prueba gratis

Todos los episodios

105 episodios
episode 102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻” artwork
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。 广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。 张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。 他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。 下面是广密和祥雨的聊天。 2025,我们和AI共同进步! [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FiSVQGPuUlWbTkbF5UYXQXUufs8Q.png] > 我们的播客节目在腾讯新闻首发 [https://view.inews.qq.com/u/8QIf3n5c64Ucuzne7gI%3D?devid=FF4E49E6-9C89-4986-A413-04E856F31262&qimei=766696f2cd8f313d744bc2c9000012918102&uid=100161026780],大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) [https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] > 多模态研究的10年史:迷茫和转机 02:00 张祥雨的学术经历和个人研究主线 12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史 17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观 18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的 24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系 29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合? 38:45 做了大半年十分迷茫,但在此刻出现了转机 > 训练大模型发现的怪事、蛛丝马迹与办法 41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降 43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实 44:33 经过分析,这是next token prediction的本质缺陷 45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验 47:27 生成模型的“特征坍缩现象” 50:48 解决方案就是引入RL(强化学习) 53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need” 01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern 01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT > 对多模态研究的新思考和新进展 01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目 01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT 01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT) 01:19:06 尝试了半年,结果给大家透露一下吧! 01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern 01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误 01:24:07 o1激发的反思pattern,在预训练语料中都有分布了 01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law? 01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间 01:45:42 多模态的“GPT-4时刻”还有多久 > 预见下一个“GPT-4时刻” 01:46:56 long context和多模型协作 02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质) 02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习 02:21:22 澄清一些有关Agent的观点 02:25:00 人虽然没有生成器官,但人有世界模型 02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑 【更多信息】 联络我们:微博@张小珺-Benita [https://weibo.com/u/6486678714] 更多信息欢迎关注公众号:张小珺 [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]

02 jun 2025 - 2 h 28 min
episode 101. 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍 artwork
101. 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍

[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天的嘉宾是明超平(小明/Leon),一名AI应用创业者。 2024年的AI叙事还是大模型,《商业访谈录》访谈了杨植麟、王小川、李开复等大模型公司创始人;稍一转眼,2025年的AI叙事已然变成应用公司和Agent——新的主角登场了。 这集节目和往期《对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》 [https://www.xiaoyuzhoufm.com/episodes/67c3d80fb0167b8db9e3ec0f]一样,也是来自一线“AI应用爆发”、“Agent爆发”的前沿声音。 在中国创投圈,明超平是一位创业伊始就受到资本相对共识的创业者。他出生于95年,曾先后在OnePlus、ByteDance、Moonshot做产品。这是他第一次做CEO,发的第一个产品叫YouWare。 他和我们此前的两位嘉宾有一些渊源:一个是杨植麟,2023年他和杨植麟深谈了10个小时,从白天到黑夜,聊完决定加入Moonshot;另一个是肖宏,有时候我会听到创投业人士将小明与小红对比来聊,说他们都属于“Hands-on型、产品型创业者”。 是不是这样呢?今天的3小时访谈希望能呈现小明的真实状态,是不是大家说了算。 不过,虽然老被关联,小红与小明至今没见过。 期待2025,我们和AI共同进步:) [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FnQOGRhNOAkScnGSulOXQlc0KLhZ.png] > 我们的播客节目在腾讯新闻首发 [https://view.inews.qq.com/u/8QIf3n5c64Ucuzne7gI%3D?devid=FF4E49E6-9C89-4986-A413-04E856F31262&qimei=766696f2cd8f313d744bc2c9000012918102&uid=100161026780],大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) [https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 03:16 开始的快问快答 > 那些散漫的叛逆的挫败的少年成长 04:36 童年和少年片段 06:52 我在武大打辩论,尤其擅长四辩 13:00 辩论让我学会的最重要的:“永远具有第三方视角,辩论不是说服你的对手”,“1秒钟把自己变成傻子”(by张小龙) 14:40 大学后两年基本睡在实验室里,沉浸式打“智能汽车竞赛”,拿了国奖 19:43 哎,好惨,惨痛的经历——我是输掉比赛最多的队员,也是拿最佳辩手最多的队员 23:06 那是学长的退役比赛,我到今天还很愧疚 > 产品经理之路的前三站:OnePlus、ByteDance、Moonshot 26:37 产品经理之路第一站:OnePlus导师带我们去坐地铁、逛商场 30:18 “体验不是数据”:续航数据和续航体验不划等号,95-100%和0-5%电量是用户对体验最敏感焦虑的时候 33:58 产品经理之路第二站:刚去字节极不适应,觉得自己很菜 37:42 字节产品方法论劣势是什么?“它会磨灭掉很多灵光一现的创意” 39:35 “数据是‘开车的后视镜’,但它不能指引你前进” 41:03 字节没有乔布斯,字节没有张小龙,但字节有一鸣啊——有一些很小很小的创业团队,一鸣都聊过了 42:08 怎么看字节过去这些年出来了许多创业者,但无人大成? 43:28 23年和杨植麟聊了10个小时,聊音乐、艺术、爱好、产品、过去的经历,实在是到晚上8点我们要去吃pizza,我说“要不给我讲讲技术吧” 50:14 海外产品Noisee的走红与骤停 01:03:03 字节能成为字节,契合了时代几个重要变量(移动设备普及、带宽速度、推荐引擎) > 跳下大船创业啦! 01:05:05 立马就遇到the bitter lesson(苦涩的教训) 01:11:59 想雕花的本能,情不自禁给它更多脚手架,你会和这个时代的最大变量背道而驰 01:12:45 突然意识到,这个东西不对劲——产品没上线就停掉了 01:13:18 失眠的顿悟:AI时代关键指标之一是“token消耗速度”,要追求“per token valuation” 01:16:33 “壳”被低估了,应该叫“容器”和“环境”(环境是人的反应器) 01:17:52 只给用户一个Chatbot输入框,是蛮不负责任的 01:21:18 今天Coding发展和当年Camera类似,早期聊相机说的是“拿着单反的人”,巨大变化是出现了新的人群——“手机摄影师” 01:23:50 早期趋势变量是出现新的人群,增速快,今天的新人群是“Vibe Coder(氛围编程师)” 01:25:23 今天Anthropic是不是承担索尼的角色?其他创业公司把时间花在Camera/基座模型上,还是花在——随着Camera迭代出现了Snapchat、Instagram、TikTok、TikTok Live > 今天的Agent就像大猩猩刚拿起一根烧火棍 01:37:12 Agent未来可能的两种生态:类比新加坡vs美国 01:40:44 Page rank变成Agent rank 01:42:07 如果你把所有to C公司都变成to B公司,会受到大家的反抗 01:44:02 Agent的网络效应 01:46:02 我们也想成为OS Agent呀!——路径不告诉你:) 01:46:30 我对团队说:“咱们99.9%是要死掉的” 01:46:57 今天的Agent像一个大猩猩拿起石头开始砸东西 01:47:58 “永远相信Model会变好,永远相信Model和你无关” 01:49:50 基础模型在造更聪明的人,应用公司在通过环境/经验适用我们的生产需求 01:53:54 我设想的OS Agent:它是活的 01:58:26 Agent接下来会像人类社会出现部落,遇到信任问题,需要身份证、密码锁 02:03:33 过去2年对AI技术和产品的观察(以更高效的方式消耗token、压榨智能) > 第一次做CEO 02:14:50 给你的员工提供情绪价值 02:19:53 90后founders更自信、更洒脱、更叛逆 02:21:17 融资风生水起,我却感觉如履薄冰 02:23:35 有意识地对抗Ego 02:33:45 棋手和对弈的人 02:36:57 最后的快问快答 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 相关单集: 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora [https://www.xiaoyuzhoufm.com/episodes/65e16b5b6144a933b1d968b5] 和王小川聊再创业这一年:回应朱啸虎与中国AGI第三种可能 [https://www.xiaoyuzhoufm.com/episodes/65f77b6e6764957079e5d8eb] 和李开复聊聊:如果美国形成AGI霸权,我们应该怎么办? [https://www.xiaoyuzhoufm.com/episodes/6730aa0bf373fe5d4d215d0c] 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量 [https://www.xiaoyuzhoufm.com/episodes/67c3d80fb0167b8db9e3ec0f] 【更多信息】 联络我们:微博@张小珺-Benita [https://weibo.com/u/6486678714],小红书@张小珺 [https://www.xiaohongshu.com/user/profile/5fede947000000000100603e?xhsshare=CopyLink&appuid=5fede947000000000100603e&apptime=1710049463] 更多信息欢迎关注公众号:张小珺 [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]

28 may 2025 - 2 h 42 min
episode 100. 对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰 artwork
100. 对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰

[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 2025年3月底,奔驰汽车全球CEO康林松先生(Ola Källenius)来华9天,期间我对他做了一次访谈。 奔驰是世界上第一个发明了燃油车的公司,现在正处于奔驰139年历史上最重大变革时期,可以说康林松是主导这场关键变革的“一名转型期CEO”。 他1969年出生于瑞典,1993年加入了奔驰,绝大多数职业生涯都在奔驰;6年前,他在2019年担任了奔驰全球CEO。值得一提的是,他是奔驰历史上第一位在上任时非德裔的CEO。 我和康林松先生聊了聊他上任6年的重要战略决策(包括豪华车战略、电动化战略)、中国市场的成与败、科技平权与豪华车是否有悖论,以及在他领导之下的这场奔驰有史以来最重大的关键变革。 我想给大家呈现的是一个,转折之中的139岁巨人。 [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FreJb-NMmeSH5rseRc5RzdK5mm-5.png] > 我们的播客节目在腾讯新闻首发 [https://view.inews.qq.com/u/8QIf3n5c64Ucuzne7gI%3D?devid=FF4E49E6-9C89-4986-A413-04E856F31262&qimei=766696f2cd8f313d744bc2c9000012918102&uid=100161026780],大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) [https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] * 04:12 第一部分:谈中国市场 * 过去6年,你对中国市场最重要的观点是什么? * 你们在中国的市场份额过去3年一直下降,什么原因导致的? * 这是否意味你们在中国的电动车之战中,输了? * 你们更强调豪华车战略,而不是电动化转型,是这样吗? * 你喜欢中国汽车里的彩电、冰箱、大沙发吗? * 你们在中国市场的成败会决定全球转型的成败吗? * 计划采用哪些创新策略来扭转在中国市场的局面? * 18:24 第二部分:谈AI和新技术 * 外界说特斯拉在电动车上比你们领先10年,你如何回应? * 但如果你们无法控制所有技术,你们能控制自己的豪华车吗? * 随着汽车行业转向电动化和智能驾驶,奔驰没有完全引领这些新技术,奔驰还能主导豪华吗? * 你们正在测试固态电池,能否分享更多进展? * 人工智能将如何改变全球汽车行业的游戏规则? * 中国DeepSeek正在全球范围内崛起,你会考虑合作吗? * 随着“技术民主化”,技术不再是超级排他性,消费者还需要豪华车吗? * 如果必须在豪华和科技之间选择,你会选择哪一个? * 如果卡尔本茨先生还在世,你觉得他会选哪一个? * 40:17 第三部分:谈转型期CEO和转型之中的奔驰 * 拥有139年历史的奔驰巨头,如今正处于其历史上前所未有的转折点上? * 回到2019年5月22日,你接任首席执行官的那一天,那天都发生了什么? * 作为变革时期掌舵者,请说出你至今面临过的最大困境 * 特斯拉和中国车企仍然是创始人驱动,而德国汽车制造商经历了几代职业经理人,这是否会让德国汽车制造商更加保守? * 你有没有感觉过,这位139岁的巨人转型缓慢? * 当你做出每一个重大决定时,有没有觉得本茨先生在关注着你?这会让你有很大压力吗? * 如果能问卡尔本茨先生一个问题,你想问什么? [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]

23 may 2025 - 57 min
episode 99. 对能量奇点创始人杨钊3小时访谈:人类驯服可控核聚变还有多少路程? artwork
99. 对能量奇点创始人杨钊3小时访谈:人类驯服可控核聚变还有多少路程?

[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 2021年,Sam Altman以个人名义向美国核聚变初创公司Helion Energy注资3.75亿美金,这是他迄今最大的一笔个人下注。Helion豪言称,将在2028年前建成全球首座50兆瓦聚变电厂。 马斯克持不同看法。他曾说:“我们的头顶一直就有一个取之不尽、用之不竭的核聚变反应堆——太阳”。他相信太阳能才是人类能源问题的根本路径。 不过,在许多人眼中,可控核聚变仍然是“能源界的圣杯”。 随着今天我们向AGI迈进,能源将是文明演进的最大瓶颈——毕竟,AGI或许不惧怕人类,但一定害怕断电。 这集节目,我邀请了中国可控核聚变创业公司、能量奇点创始人杨钊来聊聊。相比AI,可控核聚变是一条更漫长、更人迹罕至的创业之路。 它几乎是面对人类有史以来最复杂的物理难题之一,站在科技与人类文明的边界上,做技术摸索。 节目中,杨钊帮我们做了一次关于可控核聚变的前沿技术科普;作为中国可控核聚变事业的参与者,他也相对清晰地计算出了,人类驯服可控核聚变还需要多少资金要消耗?还有多少路程要走?我们也聊了聊,在更远处的未来,当能源成为无限,我们的世界、我们的文明又将怎样? [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FpvoKOCqm9m1BUQBqMrHw96qKSQf.png] > 我们的播客节目在腾讯新闻首发 [https://view.inews.qq.com/u/8QIf3n5c64Ucuzne7gI%3D?devid=FF4E49E6-9C89-4986-A413-04E856F31262&qimei=766696f2cd8f313d744bc2c9000012918102&uid=100161026780],大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) [https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 03:00 开始的快问快答 > 高频专业名词解释 04:10 核聚变、核裂变、可控核聚变、托卡马克、高温超导托卡马克,全世界只有3台全低温超导装置 13:22 多国联合推出的“国际热核聚变实验堆计划”(ITER), 一个超大型托卡马克装置,已投入资金250亿欧元,建设周期30年 14:47 高温超导材料和低温超导材料都是低温(高温超导在的能量增益的条件下,可以将装置体积缩小两个数量级,也意味建造成本大约缩小两个数量级) 19:17 一个关键指标:Q值/能量增益由三乘积(等离子体的密度×温度×约束时间)决定,Q值全球最高刚过1,目前追求Q>10 > 可控核聚变的历史 21:55 从爱因斯坦质能方程E=MC²开始说起,非常小质量损失会产生巨大能量 27:09 从氢弹到惯性约束到磁约束,不同磁场形状对应不同磁约束分叉技术路线 27:50 上个世纪60年代,苏联想到用甜甜圈一样的磁场位形托卡马克路线 28:50 全世界大概有100台以上托卡马克装置 29:11 从用铜做托卡马克的时代过渡到用超导做托卡马克 30:17 2024年,我们建成全世界第一台全高温超导托卡马克(“洪荒70”装置) > 核聚变创业这4年 34:01 2021年想法:也许高温超导显著缩小装置体积,将成本两个数量级降低 39:43 想清楚以后搭团队,最开始4个人 41:05 杨钊的个人背景:斯坦福博士方向是比较底层的物理,量子引力、弦论、量子引力和量子信息的交叉,离这个世界比较远的基础物理 46:36 人类科学的“明珠”和“有生之年”系列 51:05 从博士毕业到核聚变创业之间?在金沙江创投美国做EIR(驻场准创业者)、第一段人工智能和音乐教育结合的创业 55:36 2021年初,针对核聚变科研院所和供应商的市场调研 > “洪荒70”、“洪荒170”和经天磁体 59:37 “洪荒70”是怎么建造的?做一台全高温超导托卡马克需要几步? 01:07:33 每个环节都在不断出问题,你越接近实物状态,你的问题越大、问题越多,改动修补成本越高 01:15:43 “洪荒70”的意义 01:18:49 通往第一个可控核聚变商品的“三步走” 01:21:10 经天磁体(大孔径磁体)和“洪荒170”的意义 01:35:18 点评世界上3台全低温超导装置(中国合肥的EAST、韩国的KSTAR、日本的JT-60SA) 01:38:40 “洪荒380”,按照完整能长时间运行的示范电站的要求做 > 人类驯服可控核聚变还有多少路程? 01:41:40 Sam Altman迄今为止最大的一笔个人投资是Helion Energy:“磁场位形是直线性的,不像我们是甜甜圈” 01:45:06 核聚变和AI的关系是什么? 01:52:13 中美核聚变市场格局的分割与差异 01:54:10 我们和CFS(Commonwealth Fusion Systems,美国麻省理工学院分拆出来的联邦核聚变系统公司)技术路线是相似的 01:56:40 真正聚变商业化的原料需要用氘氘去发电,而不是氘氚 02:03:16 当能源无限,世界会怎么样? 02:04:57 聊聊自我与组织、登山与跌落 02:30:57 最后的快问快答 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 位于上海临港的能量奇点现场及装置图: [https://image.xyzcdn.net/FtoDf-jIxBPk5UcLWXsH2bx6cpnq.heic] (上图:公司外) [https://image.xyzcdn.net/FlXzl7UYF1m6EqwuwPNgPVt2nOIg.heic] (上图:厂房内) [https://image.xyzcdn.net/Fmm2ggP6exvPmlcbSpSV3ta_rbvk.jpg][https://image.xyzcdn.net/Fny0cq8_EMT6r75CF2acahr18qBQ.jpg] (上图:“洪荒70”建设中) [https://image.xyzcdn.net/FmZ1w85ssuv4Oc1hYJHPk-mt9KlZ.jpg] (上图:“洪荒70”等离子体) [https://image.xyzcdn.net/FmyHUa_akdXsPDNFCo9NWhlX_GI7.jpg] (上图:“洪荒70”建成时刻) [https://image.xyzcdn.net/FvpfDdcsAYING4Ev9n-fa70EG9lK.jpg][https://image.xyzcdn.net/FkU1jHH4FxDVg2GZjeRcWyJ9ScsB.jpg][https://image.xyzcdn.net/Fu-NkpbGsZ8xE-9SvZprld6PefFT.jpg] (上图:“经天磁体”) [https://image.xyzcdn.net/FgvxPre7Y6V5DFnNKqYD4KJVmoZB.jpg] (上图:“经天磁体”的测试系统,“经天磁体”躺在大罐子里) 【更多信息】 联络我们:微博@张小珺-Benita [https://weibo.com/u/6486678714] 更多信息欢迎关注公众号:张小珺 [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]

28 abr 2025 - 2 h 34 min
episode 98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA” artwork
98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

[https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg] 今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。 大语言模型浪潮爆发后,学界和工业界看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是,对机器人底层架构,也就是机器人“大脑”的探索。 但通用机器人还在科学研究阶段,处于产业发展早期。这集节目,陈老师将带领大家,概览式阅读机器人基座模型和当下最前沿的架构VLA架构(Vision-Language-Action Model,视觉语言动作模型)的经典论文。 希望我们的节目能直观地帮助更多人靠近科学前线,感受技术之美,并且能直观感知当前技术拐点。 还是那句话:期待2025,我们和AI共同进步! > (因为因为,陈老师真的分享了很多很多的动图和视频,本集结合视频服用效果更佳噢!可以前往:含投屏的视频版本 [https://www.bilibili.com/video/BV1q6RzYnENi/]。嘿嘿!预祝你学得开心!学得顺利啦!) [https://image.xyzcdn.net/Fm2F9n8vMm_n-xafqMi98xs3T3K8.png][https://image.xyzcdn.net/FohLyVD_oLX4Whqn-Nys937wO8tv.png] > 我们的播客节目在腾讯新闻首发 [https://view.inews.qq.com/u/8QIf3n5c64Ucuzne7gI%3D?devid=FF4E49E6-9C89-4986-A413-04E856F31262&qimei=766696f2cd8f313d744bc2c9000012918102&uid=100161026780],大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) [https://image.xyzcdn.net/FvV-R5FBydYHGZAMyXAV1K1A9iJT.png] 02:30 陈建宇的研究和创业方向 04:11 讲解开始前,先提问几个小问题 17:36 当下最大变量:从专用模型到通用模型(robot foundation model)的可能性 21:12 大模型浪潮爆发后,机器人领域经历了两个阶段:从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics) > 第一阶段:利用基础模型进行机器人研究(leveraging foundation models in robotics) 21:59 机器人传统三板块:Planning+Perception+Actuation(规划+感知+执行)——第一步,用LLM(Large Language Model,大语言模型)替代Planning 23:54 由Google Robotics团队提出的具身智能开创性论文Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》 (中文名:我能做到,而不是我说到:将语言与机器人的可供性相结合) 27:03 第二步,用VLM(Vision-Language Models,视觉语言模型)替代Perception 27:52 来自Google的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》 (中文名:内心独白:通过语言模型规划进行具身推理) 29:51 由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》 (中文名:DoReMi:通过检测和恢复规划-执行不一致来落地语言模型) 32:47 第三步,想把Actuation进一步自动化,用Code LM(专门用于代码相关任务的大型语言模型)来替代Actuation 32:24 由李飞飞团队提出的《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》 (中文名:VoxPoser:使用语言模型进行机器人操作的可组合3D价值地图) > 第二阶段:为机器人预训练基础模型(pretraining foundation models for robotics) 38:36 VLA端到端模型(Vision-Language-Action Model,视觉语言动作模型)——“人是很智能的VLA Agent” 39:53 关于VLA的经典论文及分类: [https://image.xyzcdn.net/FiHa-2AhFrMc1X4GcH0wxXNYQSlm.png] 40:17 Aloha论文《Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware》 (中文名:学习用低成本硬件进行精细双手操作) 47:36 Mobile Aloha论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》 (中文名:移动ALOHA:使用低成本全身远程操作学习双手移动操作) 50:15 论文《A Generalist Agent》介绍了一个名为Gato的通用型人工智能代理 (中文名:通用型代理) 52:45 RT-1论文《RT-1: Robotics Transformer for Real-World Control at Scale》 (中文名:RT-1:机器人Transformer用于大规模现实世界控制) 59:02 Octo论文《Octo: An Open-Source Generalist Robot Policy》 (中文名:Octo:一个开源的通用机器人策略) 01:02:20 CrossFormer论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》 (中文名:扩展跨具身学习:操控、导航、运动和飞行的统一策略) 01:06:58 字节跳动AI Lab的两个工作GR-1和GR-2: 《Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation》(为视觉机器人操控释放大规模视频生成预训练模型) 《A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation》(用于机器人操作的网络规模知识生成视频-语言-动作模型》) 01:15:02 Palm-E论文《PaLM-E: An Embodied Multimodal Language Model》 (中文名:PaLM-E:具身多模态语言模型) 01:20:02 当前VLA最有名的开山工作:Google推出的RT-2论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 (中文名:RT-2:视觉-语言-动作模型将网络知识迁移到机器人控制中) 01:26:05 RT-X论文《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》 (中文名:开放X具身:机器人学习数据集与RT-X模型) 01:31:16 《OpenVLA: An Open-Source Vision-Language-Action Model》(约等于开源版RT-2) (中文名:OpenVLA:一个开源的视觉-语言-动作模型) 01:32:56 陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》 (中文名:HiRT:利用分层机器人Transformer增强机器人控制) 01:38:40 Figure AI Helix,没发论文,但是今年Figure最新架构 01:39:28 Pi0论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》 (中文名:π₀:一个视觉-语言-动作的流模型用于通用机器人控制) 01:41:36 英伟达最近发布的GROOT N1模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》 (中文名:GR00T N1:通用人形机器人的开放基础模型) 01:42:32 《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》 (中文名:扩散策略:通过动作扩散进行视觉运动策略学习) 01:47:39 清华发布的《RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation》 (中文名:RDT-1B:双手操作机器人的扩散基础模型) 01:51:04 《Prediction with Action: Visual Policy Learning via Joint Denoising Process》(动作预测:通过联合去噪过程进行视觉策略学习) 和续作《Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations》(视频预测策略:一个预测视觉表征的通才机器人策略) 02:03:06 两个未来方向:《UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent》(UP-VLA:具身智能体的统一理解与预测模型) 《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通过在线强化学习改进视觉-语言-动作模型) 02:09:22 最后的提问 [https://image.xyzcdn.net/FvVbUNblF7FHIjfdp3MmmbAdLZ8G.png] 【技术之美】系列: 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” [https://www.xiaoyuzhoufm.com/episodes/67a1b697247d51713c868367] 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” [https://www.xiaoyuzhoufm.com/episodes/67aacd6b247d51713cedbeda] 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” [https://www.xiaoyuzhoufm.com/episodes/67bb3696606e5c5940533ef4] 【更多信息】 联络我们:微博@张小珺-Benita [https://weibo.com/u/6486678714],小红书@张小珺 [https://www.xiaohongshu.com/user/profile/5fede947000000000100603e?xhsshare=CopyLink&appuid=5fede947000000000100603e&apptime=1710049463] 更多信息欢迎关注公众号:张小珺 [https://image.xyzcdn.net/Fn7o36NtUYpCM_rQiFj1LW-TIwk8.JPG]

06 abr 2025 - 2 h 29 min
Soy muy de podcasts. Mientras hago la cama, mientras recojo la casa, mientras trabajo… Y en Podimo encuentro podcast que me encantan. De emprendimiento, de salid, de humor… De lo que quiera! Estoy encantada 👍
Soy muy de podcasts. Mientras hago la cama, mientras recojo la casa, mientras trabajo… Y en Podimo encuentro podcast que me encantan. De emprendimiento, de salid, de humor… De lo que quiera! Estoy encantada 👍
MI TOC es feliz, que maravilla. Ordenador, limpio, sugerencias de categorías nuevas a explorar!!!
Me suscribi con los 14 días de prueba para escuchar el Podcast de Misterios Cotidianos, pero al final me quedo mas tiempo porque hacia tiempo que no me reía tanto. Tiene Podcast muy buenos y la aplicación funciona bien.
App ligera, eficiente, encuentras rápido tus podcast favoritos. Diseño sencillo y bonito. me gustó.
contenidos frescos e inteligentes
La App va francamente bien y el precio me parece muy justo para pagar a gente que nos da horas y horas de contenido. Espero poder seguir usándola asiduamente.

Disfruta 30 días gratis

4,99 € / mes después de la prueba.Cancela cuando quieras.

Podcasts exclusivos

Sin anuncios

Podcast gratuitos

Audiolibros

20 horas / mes

Prueba gratis

Sólo en Podimo

Audiolibros populares