首页 > 财经数据 > 财经数据 > 美团首个视频大模型开源!速度暴涨900%

美团首个视频大模型开源!速度暴涨900%

发布时间:2025-10-28 17:23:06

10月27日报道,10月25日,美团开源了其首款视频生成大模型——LongCat-Video。该模型面向多任务视频生成场景,旨在以统一架构支持文生视频、图生视频以及视频续写三种能力。

不同于以往针对单一任务训练的模型,LongCat-Video通过多任务联合训练机制,在同一框架内即可处理零帧、单帧及多帧条件输入。

此外,LongCat-Video重点突破了长视频生成难题。相比常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题,该模型通过在视频续写任务上的原生预训练,能够持续生成数分钟视频内容,同时保持较高的时间一致性与视觉稳定性。

在推理效率方面,LongCat-Video借鉴了近年来的高效生成方法,采用“粗到细”两阶段生成策略:先生成480p、15fps的视频,再细化至720p、30fps,并结合块稀疏注意力机制和模型蒸馏,显著降低了高分辨率生成的计算开销,视频生成的推理速度提升到原来的10.1倍,提速幅度超900%。

在后训练阶段,团队引入多奖励强化学习(RLHF)优化方案,利用组相对策略优化(GRPO)方法综合多维度奖励信号,进一步提升模型在多样化任务下的表现。

美团已在多项公开与内部测评中将LongCat-Video与其他视频生成大模型进行了比较。在VBench公开基准测试中,LongCat-Video总得分仅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,也超过了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等闭源模型。

目前,美团LongCat-Video已同步开放代码、模型权重及关键模块,模型技术报告也已经发布。

财经数据更多>>

智能体手机,抢跑 2026 的「方法论」 “恐怖数据”驾到 黄金、美元指数、日元、欧元、英镑、澳元和人民币技术前景分析 东鹏特饮A+H股双上市、TikTokShop强化风控、X投票改进 新款小米SU7续航曝光:三种电池版本,CLTC最高902km 2025年陕西省级人才计划拟入选名单公示 Seedance2.0引爆应用端,还有哪些方向值得重视?周二收盘点评 渭滨50万元电子消费券正式开抢!满500减100、满200减50...... W4周排名出炉,苹果、华为位置互换,小米、荣耀位置也互换 涨价潮下的“生存游戏”:谁能率先穿越周期? 4年前机型将喜提ColorOS 16正式版:还能再战 曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产 商汤开源多模态自主推理模型SenseNova-MARS 字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争 微信内公众号图标变了:从“一页”变成了“两页” 中国互联网大厂的 AI 时代船票争夺战已经开始了 字节扣子 2.0 发布,我们深挖了它这两年的生长真相 短剧红利狂欢下:屏幕里手握数亿元的“霸总”,屏幕外追要万元欠薪? 泰山啤酒重整:鲜啤王牌,何以渡劫? 2025年新建商品房销售额83937亿元 厂商称被冒名代工名创优品围巾?名创优品暂无回应 五菱大SUV卖6.28万,配1.5T+四轮独悬,轴距超2米8,又要火了! 解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估 日产大5座SUV,NX8实车现身,车长4870mm,两种动力,上半年上市 买车等等!比亚迪26年有超13台新车值得等:汉唐9系叫啥合适? 比黄金还猛!白银价格飙升150%,三个被忽视的原因非常重要 长城证券汪毅:2026年看好AI应用领域 科技有AI,连接全球:海信家电参展CES 2026,定义智慧生活新图景 拼多多内测“百亿超市”,低价再拓新场景 真我 Neo8 参数曝光,骁龙 8 Gen5 、8000mAh电池 2026年第一款真全面屏来了!红魔11 Air官宣