而在训练范式上,过去几年我们也走过了一段飞跃式的发展。早期,我们是基于人工标注的单帧图片用有监督的方式来训练CNN类模型,后来结合4D自动标注技术,我们可以大规模、自动化地标注4D clips,于是我们的的训练方式也升级到基于自动标注的4D clips的有监督训练。但是这种有监督的训练方式,不管数据规模多大,模型的天花板始终受限于标注的效果和品类,无法做到万物识别。于是我们在业界率先升级到了基于大规模数据的自监督学习训练范式,通过这种方式,我们的Transformer大模型能轻松吃下上百亿的图片,模型见多识广,泛化能力自然就强了。
而我们最新的模型,则是采用视频生成的方式来训练的,通过预测生成视频下一帧的方式,来构建4D表征空间,使得CV Backbone能够学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息,相当于把整个世界装到神经网络里了。
P11
在之前的AI Day上,我们公布了毫末视觉大模型的技术路线,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。我们最早采用的是基于ViT架构的方式来训练视觉backbone,在此的基础上我们又对视觉大模型做了一次架构升级,将预测空间三维结构、图片纹理分布融合到一个训练目标里面,强迫模型练好内功,来适配各种下游检测、分割等CV任务。