钟阮（zhongruan） (@zhongruan) 在 VTP：MiniMax海螺视频团队首次开源工作中发帖今天，我们很高兴向大家介绍MiniMax视频团队刚刚开源的工作——VTP (V...

钟阮（zhongruan） (@zhongruan) 在 VTP：MiniMax海螺视频团队首次开源工作中发帖

今天，我们很高兴向大家介绍MiniMax视频团队刚刚开源的工作——VTP (Visual Tokenizer Pre-training)；这个工作讨论的是视觉生成模型中的关键组件——tokenizer，对于整个生成系统的scaling性质。
这个说法可能会让大家感到有点陌生：什么时候tokenizer也有scaling性质了？Scaling作为大模型时代的核心纲领，其讨论的对象一般是围绕主模型（比如DiT）的参数/算力/数据规模，tokenizer则很少和scaling关联到一起。
而我们想要通过VTP展现的是，tokenizer不仅对生成系统的scaling起着决定性的作用，实现这一点的核心方法也蕴含着简洁而深刻的思想。
一句话来说——VTP把latents易学性和通用表征学习建立起明确关联，从而第一次将tokenizer作为scaling的主角，展现出全面的scaling曲线和…

详情链接：
https://linux.do/t/topic/1340579/1

来源: LINUX DO, 消息ID: 262868