从扩散回到回归——世界模型的前路思考

组织者

孙明明 , 王雅晴

演讲者

肖鑫雨

时间

2024年12月13日 15:00 至 16:00

地点

Online

线上

Zoom 787 662 9899 (BIMSA)

摘要

从图像到视频，扩散模型在视频生成中的正在展现其应用价值，源于其强大的随机性和逼真度，能够捕捉到细微的动态变化，使得生成的视频更具真实性。与此同时，自回归模型凭借其在序列生成上的优势，迅速成为视频生成领域的研究热点，并展示出巨大潜力，能够生成更加流畅和连贯的视频。而且随着算力的提升和模型架构的优化，自回归模型在生成效率和效果上不断提升。报告人结合其在视频生成相关领域内的前沿研究工作，以及该领域中的经典工作，深入地探讨当前图像和视频生成技术的进展。此外，基于视觉生成和理解的发展，世界模型的前景是引人注目的。报告人也将基于当前世界模型的研究进展，探讨世界模型的研究前景和方向。本次报告将使用中文。

演讲者介绍

肖鑫雨，本科毕业于北京航空航天大学，博士毕业于中科院自动化研究所。目前在工业界从事人工智能研究工作，主要研究方向是视觉理解生成，包括视觉描述，视觉检索，气象预报，视觉生成，视觉识别和检测，视觉问答，强化学习，对比学习，可解释性学习，时空数据挖掘等内容。目前发表论文20余篇。