钟阮(zhongruan) (@zhongruan) 在 VTP:MiniMax海螺视频团队首次开源工作 中发帖
今天,我们很高兴向大家介绍MiniMax视频团队刚刚开源的工作——VTP (Visual Tokenizer Pre-training);这个工作讨论的是视觉生成模型中的关键组件——tokenizer,对于整个生成系统的scaling性质。
这个说法可能会让大家感到有点陌生:什么时候tokenizer也有scaling性质了?Scaling作为大模型时代的核心纲领,其讨论的对象一般是围绕主模型(比如DiT)的参数/算力/数据规模,tokenizer则很少和scaling关联到一起。
而我们想要通过VTP展现的是,tokenizer不仅对生成系统的scaling起着决定性的作用,实现这一点的核心方法也蕴含着简洁而深刻的思想 。
一句话来说——VTP把latents易学性和通用表征学习建立起明确关联,从而第一次将tokenizer作为scaling的主角,展现出全面的scaling曲线和…
详情链接:
https://linux.do/t/topic/1340579/1
来源: LINUX DO, 消息ID: 262868
爱站程序员基地

