你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox
当前位置:易车> 魏牌蓝山> 魏牌蓝山速度> 摘要详情

魏牌蓝山其中预训练会以每周迭代的速度打牢智驾的基础能力问题

魏牌蓝山其中预训练会以每周迭代的速度打牢智驾的基础能力问题

摘要来自:《英伟达智驾朋友圈齐聚GTC,年中就有VLA,动嘴就能控车》

【易车摘要频道】下列精选内容摘自于《英伟达智驾朋友圈齐聚GTC,年中就有VLA,动嘴就能控车》的片段:

去年 3 月交付之后,目前参与物理世界探索的车队规模已经超过 18 万辆(今天下午小米汽车宣布交付已经突破 20 万),同时还在以每月 2 万辆的速度攀升。

车队规模快速增长,也让行驶里程快速增加。去年年底,车队每天行驶里程 500 万公里。目前,车队每天行驶总里程接近 1,000 万公里。

对于端到端智驾来说,停车场、ETC 收费站、城区环岛、乡村道路等就是难点场景。训练这些场景则需要连续视频片段(Clip)。在杨奎元的分享中,去年 10 月,小米汽车的训练数据为 238 万 Clips,经过四个月的累积,今年 2 月达到 1,363.8 万 Clips。

杨奎元说:「这也是下一个千万 Clips 端到端版本所用的训练数据量。」

在拥有丰富的物理世界探索数据后,还需要对物理世界进行建模。

杨奎元指出,物理世界建模分为三层:分别是Ot(原始的数据观测层,通过车身传感器记录物理世界)、Zt(深度神经网络的隐式特征层,数据驱动的方式形成对当前场景的理解)、St(方便人理解和操作的显示符号层)。

对应神经网络中的输入层、中间层以及输出层。其中数据观测层需要图像、激光雷达点云、导航信息(Ot),通过 BEV 编码网络,得到 BEV 的隐式表达(Zt),通过不同的解码器,得到动态元素、静态元素、未来轨迹。经过不同的建模方式,最终经过人工建模的 Cost(包括碰撞 Cost、车道偏移 Cost、舒适性 Cost)约束轨迹的合理性。

另外还有个时间维度,历史帧很简单建模容易,但是未来帧无法直接观测,是建模的重点和难点。

数据观测层(Ot)有很多工具可以使用,比如 3DGS 重建技术,或者是 OpenAI 的 Sora、英伟达 Cosmos 等等。生成大模型通过直接拟合原始数据的概率分布,加上额外使用历史帧图像、隐式特征、显示符号等控制条件,可以进行原始信号的生成。这部分生成速度比较慢,主要在云端仿真物理世界,用于闭环仿真评测以及长尾数据生成。但是生成模型主要用于传感器细节信号恢复,但是理解能力欠佳。当然,也有部分生成 + 理解的隐式特征空间。

智驾领域,还没有成熟的基座模型可以用于生成稳定的特征表达。

显示符号层,人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,通过规则代码的方式和模型结合完成时序上的建模。比如匀加速、轨迹采样等。

同时,小米正在尝试将三层表达联合起来的时序建模。还能将深度神经网络模型上将中间的隐式特征在时序纬度上拓展到未来帧,由此可以形成完整的时空神经网络模型,统一由数据驱动学习。在未来帧预测变化时,小米同样对动静态元素分开处理。

在工程落地上,小米与英伟达在云端、车端也进行了大量落地优化。

元戎启行 CEO 周光:VLA 年中上车

周光在演讲中首先谈到了过去一年元戎启行在智驾领域的进展。

去年,元戎启行智驾方案合作落地两款车型(魏牌蓝山、smart 精灵 5 号),今年预计将会推出十余款智能驾驶车型落地。在 2024 年第四季度,元戎启行在国内城市智驾市场占有率达到 15.3%。

目前,元戎启行的智驾方案已经搭载进入超过 4 万台汽车,截至 2 月底,元戎启行智驾总里程 4,000 万公里。周光预计,今年将有 20 万台进入市场,2026 年将有 50 万台车搭载元戎启行的智驾系统。此外,元戎启行已在德国进行路测。

在快速上车的同时,元戎启行的下一代智驾系统也正在开发。去年 9 月,元戎启行开始研发 VLA 模型,希望能够用这套模型处理复杂的长尾场景。根据规划,今年年中元戎启行的 VLA 模型将部署在多款车型上。

周光展示了元戎启行 VLA 模型的架构:

  • 最下方 Input 是输入。其中有摄像头等传感器的图像输入,也有文本输入,这可以是来自车内人员的指令输入,或者是来源于智能座舱、导航的信息。
  • 上一层是视觉编码器和文本编码器。其中,视觉编码器负责处理输入的图像,提取特征。文本编码器捕捉语义,理解文本指令。
  • 再之上是视觉、文本融合,这也就是 VLA 模型的核心,让模型同时理解图像和文本的指令。
  • 最终,输出驾驶行为,以及文字输出。

实际上,VLA 模型有相当多的优势,其中最大优势之一就是与现有的大语言模型范式兼容。其中 VLA 模型同样遵从 Scaling Law,随着模型参数提升,性能也会提升。同时,用预训练、后训练、持续训练改进模型。同时还兼容 DPO、RLHF、GRPO 等技术。并且,思维链可以直接用于推理决策(潮汐车道的思考)。

VLA 的另一大核心优势,则是可以让智驾更像人。将基于规则的偏好注入模型,让 VLA 符合人类预期的驾驶决策。这意味着,VLA 模型能够识别并优先考虑安全的驾驶行为,从而减少现实世界中的不良习惯。此外,还能选择人类偏好的最优路径。

周光还专门讲到了 VLA 的挑战:

  • 最重要的是实时响应的能力。基于英伟达 AGX 平台,当前一代产品 VLA 的处理速度大约是 5 FPS,下一代平台的速度是 20 FPS。

  • 数据。需要丰富的现实世界数据,VLA 开发会优先使用现实世界数据,真实世界远比模拟器复杂。

在 VLA 模型发布后,元戎启行的下一个目标则是实现道路上的通用人工智能(RoadAGI)。

周光在演讲中播放了这样一段视频,一辆带有机械臂的无人配送车可以像外卖小哥一样,实现城市内小区-小区,店铺-店铺的点到点自动驾驶。穿越闸机旁边的狭窄通道,自动识别街边店铺之后,无人配送车来到取外卖的店铺门口。店员把外卖装进车里之后,无人配送车可以走人行道、过马路送外卖。

第一单是送到外卖柜,这里高能,配送车里藏着一个机械臂,可以自动把外卖拿出来放进外卖柜里,然后关闭外卖柜。

第二单是送到写字楼前台,配送车自己过闸机,用机械臂自己按电梯,最后外卖放在公司前台。

在演讲中,周光并没有透露是否量产这款无人配送车,但这样的能力,或许就是元戎启行对 RoadAGI 的设想。

商汤绝影王晓刚:端到端将在今年量产

在英伟达 GTC 上,商汤绝影 CEO 王晓刚宣布 UniAD 已经获得项目定点,并且在今年就会量产。

UniAD 是商业绝影研发的一种端到端智驾方案,早在 2022 年,商汤绝影就提出了 UniAD。到了去年 11 月份,商汤绝影则正式发布了 UniAD。

值得注意的是,UniAD 基于英伟达 Drive AGX 平台的 MIG 技术研发,支持端到端和传统规则方案的双系统运行。王晓刚表示,商汤绝影在此基础上充分发挥了双系统协同的作用,设计了首个量产级的、极致安全的端到端智驾解决方案,能在复杂交互场景中保障行车安全。

同时,王晓刚还介绍了商汤绝影的世界模型 —— 开悟。王晓刚表示,开悟可以理解真实世界中的物理法则和交通规则,生成场景也非常可控,能够以「元素级别」的精度去控制场景,完全可以满足端到端模型训练和仿真对于数据质量的高要求。

开悟生产数据的效率也非常高。据王晓刚介绍,开悟基于 1 张英伟达 A100,平均每天的数据生产能力,大约相当于 100 台路测车所拥有的数据采集能力。

此外,通过世界模型,开悟还能够实现多样化和真实的场景推演,以及专家轨迹生成,最终形成端到端智驾的数据闭环和自我迭代的能力。

针对开悟大模型的综合实力,王晓刚表示它可以大幅降低端到端模型训练的数据门槛,并在充分探索各种可能性的基础上有望实现远超人类的驾驶表现。

除了 UniAD,王晓刚还介绍了商汤绝影在智能座舱上的研发成果 —— A NEW MEMBER FOR U。

「A NEW MEMBER FOR U」是一个情感陪护伙伴,在去年 11 月份就发布了。据王晓刚分享,「A NEW MEMBER FOR U」感知敏感性、互动积极性都非常高,它可以持续推理用户需求,记忆自我进化,记住用户生活习惯,甚至是主动提醒在车内吃糖的小朋友少吃糖。

在体验上,「A NEW MEMBER FOR U」依靠 Always-on 持续运行框架,可以做到零拷贝传输,并支持持续推理,推理速度高达每秒 96 tokens,针对复杂场景可以做到更实时的响应。

最后,王晓刚还介绍道,到 2026 年,商汤绝影将和英伟达完成舱驾融合产品在各大车厂的量产落地,并加速智能汽车进入 AGI 时代。

卓驭陈晓智:让智驾更个性化

在英伟达 GTC 上,卓驭 AI 首席技术官陈晓智指出一个问题 —— 当前的端到端智驾,其通过数据训练所学到的驾驶能力是一种平均风格,但在实际驾驶中,每个人都有自己的独特的风格,所以端到端智驾与真实人驾还有很大的差距。

因此,在卓驭的目标中,就是令端到端智驾摆脱其平均驾驶风格,进而满足用户或激进、或保守的个性化驾驶需求。这里的个性化包括三点:

  • 个性化的驾驶风格,需要系统在长时间维度上理解用户驾驶行为;
  • 个性化的驾驶风格,是指在某个具体的驾驶动作上符合用户的个性化要求;
  • 支持语音交互。

这套技术方案卓驭将其归纳总结为「生成式智驾体验」。

为了实现「生成式智驾体验」,据陈晓智介绍,卓驭首先是基于世界模型完成智驾的预训练和后训练,其中预训练会以每周迭代的速度打牢智驾的基础能力问题,后训练则以每天迭代的速度解决长尾问题。

CopyRight © 2000-2025 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外