AI风向标

VideoFlexTok:可变长度粗到细视频分词

VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构--首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。

详细介绍

VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构--首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。

AI HOT 详情:https://aihot.virxact.com/items/cmr3rd0l901busl7l11krygj3

原文链接:https://machinelearning.apple.com/research/videoflextok

内容信息

分类
论文研究
时间
2026-07-02T00:00:00.000Z
返回列表