AI局内人 | AGI Insider
Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。 11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。 尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。 对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。 事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克利 的 DiT。 我们找到生数科技的 CTO 鲍凡,也是 U-ViT 论文的一作,聊了聊 Vidu 最新版本取得的成果,以及作为全球范围内最早实践 Diffusion Transformer 的专家,他对于视频生成领域的观察和理解。 本期节目,极客公园创始人 & 总裁张鹏,和生数科技联合创始人 & CTO鲍凡,一起聊聊视频生成模型的技术路线与商业化现状。 时间轴: 00:03:33 Vidu 1.5版本中让人惊喜的新功能:上下文能力 00:06:06 从单主体到多主体一致性,技术上是怎么实现的? 00:12:10 为什么给视频模型设计上下文能力?上下文增加后,推理效率有影响吗? 00:18:14 多主体一致性是视频模型的「能力涌现」吗? 00:24:55 多主体一致性会如何影响视频创作行业? 00:28:25 Vidu的下一步:继续scale up 00:34:37 视觉是实现AGI的另外一条路吗? 00:40:57 生数科技的战略,不止图像与3D 00:47:46 Scaling Law真的遇到墙了吗? 00:56:55 Vidu如何和大厂竞争? 01:07:07 生数科技会如何找PMF? 01:11:40 模型能力泛化后,人类与AI的交互会怎么变? 01:17:00 2025年视频生成模型会怎么发展? 01:18:50 科研 vs 创业:5% 的发散,95% 的收敛 相关阅读: 张鹏对话生数科技:视频模型迎来「首次涌现」,视觉更可能通往通用智能 [https://mp.weixin.qq.com/s/VR0XWm3RiacxpCyOoh_lng] 关于我们: 这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。 「AI局内人」,国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。 Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。 对更多内容感兴趣,欢迎关注公众号「Founder Park」。
34 Folgen
Kommentare
0Sei die erste Person, die kommentiert
Melde dich jetzt an und werde Teil der AI局内人 | AGI Insider-Community!