Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

1 h 31 min · 4. Dez. 20241 h 31 min

Beschreibung

Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，也掀起了全球范围内的视频生成热潮。 11 月份，作为国内代表的视频模型公司，生数科技发布了旗下产品 Vidu 的 1.5 版本，全新上线「多图参考」功能，官方介绍该版本实现了视频生成模型的新突破：突破「一致性」难题、理解多样化的输入。尤其是，多主体一致性的能力，可以说是解决了视频生成模型的「杀手级」难题。对比文本生成模型的话，这可以说是视频模型的「首次智能涌现」。事实上，Vidu 背后的团队，比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月，还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文，12 月伯克利团队发布了路线同源的 DiT 架构，这一年的 CVPR，大会接收了清华大学的 U-ViT，反而拒收了伯克利的 DiT。我们找到生数科技的 CTO 鲍凡，也是 U-ViT 论文的一作，聊了聊 Vidu 最新版本取得的成果，以及作为全球范围内最早实践 Diffusion Transformer 的专家，他对于视频生成领域的观察和理解。本期节目，极客公园创始人 & 总裁张鹏，和生数科技联合创始人 & CTO鲍凡，一起聊聊视频生成模型的技术路线与商业化现状。时间轴： 00:03:33 Vidu 1.5版本中让人惊喜的新功能：上下文能力 00:06:06 从单主体到多主体一致性，技术上是怎么实现的？ 00:12:10 为什么给视频模型设计上下文能力？上下文增加后，推理效率有影响吗？ 00:18:14 多主体一致性是视频模型的「能力涌现」吗？ 00:24:55 多主体一致性会如何影响视频创作行业？ 00:28:25 Vidu的下一步：继续scale up 00:34:37 视觉是实现AGI的另外一条路吗？ 00:40:57 生数科技的战略，不止图像与3D 00:47:46 Scaling Law真的遇到墙了吗？ 00:56:55 Vidu如何和大厂竞争？ 01:07:07 生数科技会如何找PMF？ 01:11:40 模型能力泛化后，人类与AI的交互会怎么变？ 01:17:00 2025年视频生成模型会怎么发展？ 01:18:50 科研 vs 创业：5% 的发散，95% 的收敛相关阅读：张鹏对话生数科技：视频模型迎来「首次涌现」，视觉更可能通往通用智能 [https://mp.weixin.qq.com/s/VR0XWm3RiacxpCyOoh_lng] 关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

Kommentare

Sei die erste Person, die kommentiert

Melde dich jetzt an und werde Teil der AI局内人 | AGI Insider-Community!

Alle Folgen

34 Folgen

Vol.28 和CES上最酷的AI硬件们，一起聊聊2025年什么方向值得做？

今年的 CES 可以说是 AI 硬件的集中展示，从眼镜、陪伴宠物、可穿戴设备到扫地机器人，不带 AI，似乎都不好意思拿出手。而大模型在未来的希望，可能也是硬件的。 CES 归来，Founder Park 搞了个半闭门的交流，邀请了 CES 上备受好评的几款硬件产品公司（Kickstarter、Ropet、LOOI、RingConn），来盘一盘AI硬件的未来，除了眼镜以外，AI 硬件还有哪些值得干？未来的百万单品，会出现在哪个品类？嘉宾阵容很强大。 [https://image.xyzcdn.net/FiTh2hyO2U10D4y9Qc27Z_MxHvPR.png] * 张鹏 | 极客公园创始人 & 总裁 * Henri Pang | Kickstarter 中国首席战略代表&高级顾问 * 何嘉斌 | 萌友智能 CEO、联合创始人。代表产品：Ropet * 张晓辉 | TangibleFuture 创始人 & CEO。代表产品：LOOI * 吴昊 Tony | 玖治科技联合创始人、CEO。代表产品：RingConn 同时参与讨论的，还有这些嘉宾： * 曾德钧：猫王音响创始人 * 邓旭东：Gyges Labs COO * Jerry刘宗孺：BroadLink创始人加入 Founder Park 社群，第一时间获取独家活动信息，参与行业讨论分享，扫码添加下面的企微，加入我们！ [https://image.xyzcdn.net/Fm8zzpOoC58Knxh59mMWZkLfhzXF.png] 时间轴： 00:02:11 本届CES的感受如何？ 00:12:02 参加CES的三种厂商类型 00:19:22 AI+宠物的新品观察 00:25:31 百万美金众筹的项目，都不是凭空来的 00:29:05 AI宠物Ropet的产品思考 [https://image.xyzcdn.net/Fh_veTOkMw5wEyz5s-vqQafb9AOD.png] 00:40:31 LOOI的产品思考 [https://image.xyzcdn.net/FnjbxjAYPoL_YSA5pU2WahekIzsZ.png] 00:47:14 可穿戴硬件RingConn的产品思考 [https://image.xyzcdn.net/FuSF1kOI8iikOZTom2utC3nh8oEo.jpeg] 00:59:52 AI没有给硬件创造新场景和新价值 01:02:31 一款成功的硬件产品会经历哪些挑战？ 01:05:59 如何看待以Moflin为代表的主打可爱的AI宠物？ [https://image.xyzcdn.net/Fo-pVH6oHEkNPMFiwZUd3P-d3Mxw.png] 01:14:32 为什么不做AI眼镜？ 01:19:30 2025年百万级出货量的AI硬件会是什么方向？ 01:25:13 智能音箱有没有新可能？ 01:29:06 AI硬件的数据飞轮，需要哪些数据？ 01:33:13 第一代硬件产品成功了，下一款怎么做？ 01:38:13 当我们讨论AI硬件时，我们在讨论什么？ 01:43:54 AI陪伴宠物的恐怖谷效应、以及隐私问题 01:46:20 初代产品如何规划SKU？ 01:49:20 AI陪伴如何选择好的模型？关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

23. Jan. 20251 h 52 min

Vol.27 对话汪华、袁进辉、胡修涵：2025年，活下来最重要，但机会一定要抓住

2024年AI行业发生了很多意外的变化：OpenAI没有和去年一样持续引领AI进程、Scaling Law 撞墙、Sora先火后又遇冷、语音视频Agent、以及迟迟未到的应用爆发。我们该怎么理解2024这一年的变化，明年的创业者要怎么做？最该关注的技术趋势和变化是什么？ 2024年年尾，极客公园创始人张鹏，与创新工场管理合伙人汪华、硅基流动CEO袁进辉、捏Ta创始人胡修涵，一起畅聊2025年AI创业，应该怎么做。时间轴： 00:03:59 怎么看待OpenAI的12天贺岁发布？ 00:13:44 OpenAI 2024年的表现符合预期吗？ 00:20:12 Google、Meta、xAI、Anthropic2024年的表现如何？ 00:28:19 为什么Meta开源的步骤减缓了？ 00:34:58 如何看待字节今年的爆发？ 00:45:26 国内AI生态的现状？未来会怎么走？ 00:58:07 为什么今年AI应用没有爆发？ 01:13:57 如何看待Chatbot的形态？ 01:21:48 如何看待AI搜索和AI Coding？ 01:30:01 怎么看待今天AI应用的二次元热潮？ 01:42:28 应用出海怎么做？挑战是什么？关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

31. Dez. 20242 h 0 min

Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

4. Dez. 20241 h 31 min

Vol.25 对谈百度智能云：做大模型应用，不要对AI的能力有妄念

模型能力升级变缓，大模型能力迭代渐入平稳期，技术趋势从大语言模型更多地转向多模态。模型调用成本的降低也打开了开发者的关键限制。 AI 应用爆发的限制条件似乎都不存在了。 AI时代的应用开发与移动互联网时代有何不同？AI和应用开发者的分工、定位是什么？专业领域知识和行业经验如何被AI模型强大的算力加持和赋能？什么样具备综合能力的人最适合投身AI产业？本期节目，百度的两位副总裁，阮瑜和谢广军，将和极客公园张鹏，围绕以上问题展开了一场有趣而精彩的讨论。时间轴： 00:05:58 AI应用开发的范式与移动互联网不同在哪里？ 00:13:28 AI-Native 开发者需要考虑的点 00:17:55 AI应用开发的坑 00:28:55 AI 如何满足B 端客户的个性化需求落地 00:33:35 哪些场景可以让 AI 落地，有两种判定方法 00:37:36 大模型时代需要什么人才？相关阅读：对话百度智能云：LLM两年，我们找到了做AI应用的正确范式 [https://mp.weixin.qq.com/s/DjodMuxuSeqc_Fxb2ZO4zg] 关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

18. Nov. 202446 min

Vol.24 张鹏对谈李开复：AI创业进入洗牌阶段了吗？

AI创业的环境，每个季度都会有新变化，OpenAI o1 这样的技术新范式是其一；像 canvas、NotebookLM、Computer Use这样的产品新思路也是；还包括用户、客户营收这样的商业化指标。最近对基模创业公司的质疑，尤其是，对于「AI六小龙」的「关心」越来越多了。有一些问题值得探讨。 2024年末，AI创业究竟是方兴未艾，还是已经进入了严酷的洗牌和淘汰阶段？本期节目，零一万物李开复，将和极客公园张鹏，一起盘点AI创业公司们的优势和困局，聊聊AI创业的新思路。时间轴 00:02:42 Yi-Lightning 与 xAI 打平手 00:11:11 零一万物创业一年半的感悟 00:18:18 预训练还值不值得做？ 00:22:57 做应用在今天有什么优势？ 00:39:59 大模型创业赛道，是大力出奇迹，还是比拼技术和思维？ 00:44:48 “舍命狂奔”带来的行业生态并不健康，以及零一万物的 Pro-Equal System 00:47:46 OpenAI “一边是理想，一边是傲慢” 00:52:02 O1 给了模型创业者什么启示？ 01:07:29 AI 编程有什么新的范式? 01:13:53 Transformer 未来是否可能被颠覆？ 01:20:13 创业公司们怎么办？ 01:27:41 一年前的判断有什么地方错了？ 01:36:05 商业上最高风险的三个问题 01:48:10 OpenAI 的八卦，和AI 领域几个巨头的点评关于我们：这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。「AI局内人」，国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群，群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。对更多内容感兴趣，欢迎关注公众号「Founder Park」。

30. Okt. 20242 h 7 min

Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

Beschreibung

Kommentare

Kostenlos hören bei Podimo

Alle Folgen