你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

理想L7驾驶

易车知识库 理想L7

223条内容

进入知识库

电车质量厂

关注

2025年3月29日,小米汽车发生了一起骇人听闻的事故,三名年轻的女生在晚上驾驶汽车不幸发生碰撞,导致汽车起火,三条年轻的生命就这样消失在了熊熊大火中。而该事故的矛头直接指向了汽车的智驾功能,大众一致认为是汽车企业过度宣传智驾,间接导致了事故的发生。而却很少有人知道,在小米这起事故发生前,还有一起因为智驾导致的严重事故,这两起事故间隔甚至不到一个月。

2025年3月5日,一辆理想L7,车主使用其“自动驾驶”功能在福州市仓山区淮安大桥下桥的时候,车辆地图识别错误,车子右边下桥时候没有任何提示车辆强制突然左打方向撞到桥墩。由于速度快造成严重车祸,司机毁容全身骨头多处断裂!车子气囊弹出报废。

从行车记录仪里的画面可以看到,车辆一直使用NOA功能,并且顶着限速行驶,在行驶至岔路口之前,并没有什么异常现象,并且车辆一直在右转车道行驶,也理应在岔路口向右转,但车辆逼近岔路口时,车主表示车辆并未像预想的那样向右转,而是突然亮起左转向灯并往左猛打方向盘,最后的结果便是撞向桥墩,也导致了司机乘客受到了不同程度的伤害。

事后,车主甚至还表明,理想官方并不承认自己的智驾有问题,而是把责任推卸到车主身上,直到车主拿出行车记录仪拍摄的画面,理想官方才承认他们系统故障。目前双方还在对赔偿问题进行激烈的争执。

可以发现,无论是小米的事故还是理想的事故,驾驶员都非常信任其智驾功能,把驾驶权完全交给了车辆,但车辆智驾系统的稳定性和安全性显然还未达到可以完全替代人工驾驶的程度。这两起事故无疑给汽车企业敲响了警钟,过度宣传智驾功能,不仅可能误导消费者,更可能带来无法挽回的悲剧。

对于消费者来说,需要对智驾功能有一个清醒的认识,不能盲目相信其宣传,更不能在驾驶过程中完全依赖智驾系统。驾驶安全始终需要驾驶员自己负责,智驾系统只能作为辅助工具,而不能成为驾驶的主导。同时,相关部门也应加强对汽车智驾系统的监管,确保其安全性和稳定性达到一定的标准,才能允许其上市销售。对于存在安全隐患的智驾系统,应及时采取措施予以召回或整改,以避免类似事故的再次发生。

展开查看更多

驾仕派

关注

理想汽车负责自动驾驶的贾鹏在英伟达GTC做了一场名为“VLA:A Leap Towards Physical AI in Autonomous Driving(VLA:迈向自动驾驶物理智能体的关键一步)”的报告。30分钟的内容里面很详细地介绍了理想汽车目前在VLA上的进展,以及理想汽车是如何设计、训练全新的基座模型MindVLA,以及MindVLA现在呈现出的一些应用场景。

据此,理想汽车算是正式发布了下一代自动驾驶架构MindVLA,也或许会是汽车领域第一个接近于量产推送的VLA模型。

所谓VLA,就是视觉-语言-行动大模型,是一种多模态大模型,可以识别图像、语言,然后端到端输出行为。即便是放在全球来看,VLA也是目前各家AI企业争夺的下一颗明珠,特别是智能机器人企业更希望突破VLA,被视作“机器人大模型的新范式”。


只是汽车端的VLA比机器人更容易实现,毕竟汽车端的操作、控制维度要比类人机器人少许多,汽车只需要管加减速、左右方向,而类人机器人还有各种复杂操作。

所以,这次理想汽车首发MindVLA可以看作是在端到端智驾基础上一次全新升级,比现在各家正在不断追赶的单纯端到端更为领先,因为可以真正实现多模态。

实际上,在贾鹏的演讲里面,他比较简明扼要地介绍了为什么自动驾驶要做VLA。

“其中之一就是为了应对复杂而多样的公交车道。确实,除了到处乱窜的电动车和高强度的人车博弈外,中国的道路结构本身也足够复杂。为了提升出行效率,公交车道被广泛使用。然而各地的标识方法和使用规则非常多样,采用了比如地面的文字标识,空中指示牌或者路边高标牌。


同时会以不同的文字形式说明这些车道的时段限制。这些多变的规则和文字表达为自动驾驶带来了巨大的挑战。”贾鹏解释说,虽然可以用先验信息或者地图来解决,但是中国道路情况变化太快,包括各种道路地面标识的变更,其实都无法用先验信息来解决。

而且公交车道只是阻挡中国智驾发展的其中一个问题,其余还包括动态可调的可变车道和潮汐车道,也增加了如待转区,待行区。这些都让单纯的端到端智驾无法在城区高效运行,也是我们在智驾测试中遇到的普遍问题。

为了解决这些问题,理想汽车在去年推出了一个22亿参数规模的视觉语言大模型VLM,在需要文字理解能力常识和逻辑推理的场景中,VLM会通过思维链CoT进行复杂的逻辑分析,给出驾驶决策并指挥快系统去执行。这也就是理想汽车现在讲的端到端+VLM的智驾模型,而且也在被很多友商的智驾或多或少借鉴。

但是,贾鹏认为端到端+VLM实际投入量产之后,也发现了以下四类问题:

1、虽然理想汽车可以通过异步联合训练,让端到端和VLM协同工作,但由于它们是两个独立的模型,而且运行于不同的频率,整体的联合训练和优化是非常困难的。


2、理想的VLM模型是基于开源大语言模型训练的,里面海量的互联网二级图文数据做预训练,但是在3D空间理解和驾驶知识方面是有所不足的。


3、自动驾驶芯片如Orin-X和Thor-U它的内存带宽和算力是不及服务器GPU的,限制了模型的参数量和能力提升,也不能实现高效推理。


4、驾驶行为的学习更多的依赖于transformer进行回归建模,但这种方法难以处理人类驾驶行为的多模态性。

结合上述四点问题,理想汽车的解决方案是,端到端模型和VLM模型合二为一,同时学习像GPT o1和DeepSeek R1一样,利用思维链的方式让模型自己学会快慢思考,同时赋予模型强大的3D空间理解能力和行为生成能力。


这也就是理想汽车发布的VLA模型MindVLA。而理想汽车官方将其解释为:“VLA是视觉语言行为大模型,它将空间智能、语言智能和行为智能统一在一个模型里,VLA是Physical AI的最新范式,它赋予自动驾驶这样的物理系统感知思考和适应环境的能力。”


关于MindVLA模型,首先要知道的是,理想智驾工程团队没有简单地把端到端和VLM两个模型直接揉在一起,而是所有的模块都全部重新设计。

“3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策,并输出一组Action token,最终通过diffusion进一步优化出最佳的驾驶轨迹。这里所谓的Action token是对周围环境和自车驾驶行为的编码,整个模型推理过程都要发生在车端,而且要做到实时运行。”贾鹏解释了这张图的逻辑。

从这张图可以看到,摄像头和激光雷达传感器是直接输入到3D空间编码器,再结合时空上下文转换为3D特征,而位置信息、自车姿态、导航信息输入到常规编码器,两者合一传递到3D Projector进一步将特征映射到特定空间,比如BEV。这一模块就被称为3D空间智能模块,也就是Vision的部分。

接下来的L-Linguistic Intelligence就是语言智能。这一块是和之前端到端+VLM完全不同的地方,之前是VLM读出来之后传递给端到端系统做判断,而现在MindVLA则是输出3D表征到特定空间之后,让理想自己训练的大语言模型MindGPT去理解这些空间信息,然后做出判断、进行行为指令输出。


这里的指令输出按照理想汽车的解释会有两种模式:一个是慢输出,也就是CoT思维链思考过后的结果;一种是快输出,不经过思维链直接输出Action token。

这里还有一个能力是,增加了语音控制和互动的能力,是直接把指令给到大语言模型,然后模型会自动拆解任务,再结合3D空间智能进行Action token输出。

在Action这一步,理想汽车还加入了Diffusion模型,这里可解释为理想汽车的MindVLA借助Diffusion模型不仅生成自车的轨迹,还预测其他车辆和行人的轨迹,大大提升了标准模型在复杂交通环境中的博弈能力。

并且Diffusion还有一个巨大的优势,是可以根据外部的条件输入改变生成结果——如果你使用过AI生成图片就知道,漫画风格、写实风格是可以有不同参数指令来控制——这时候你就可以要求MindVLA有不同的驾驶风格,比如开快点、开慢点、激进一点、保守一点等等,而不会像现在的端到端可能就只有一种风格。

以上就基本解释了理想MindVLA模型的架构和训练逻辑,显然它是一个比端到端+VLM更加先进、更加拟人、并且还带有时空预测能力的全新智驾模型。

但是这其中要解决的工程问题也很多,技术要点理想没有展开,只是谈到了几个技术突破:

1、不同于之前依赖监督学习的BEV+占用网络3D表征,理想MindVLA使用了3D高斯(3D Gaussian)这一优良的中间表征,可以实现自监督训练,极大提升了下游任务性能。

2、理想从0开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。


基座模型训练过程中,理想加入大量3D数据,使模型具备3D空间理解和推理能力,减少了文史类数据的比例。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

3、训练模型去学习人类的思考过程,并自主切换快思考和慢思考。在慢思考模式下,模型会经过思维链CoT再输出Action token,由于自动驾驶不需要冗长的CoT,同时也因为实时性的要求,所以理想使用了固定且简短的CoT模板。

4、在Orin-X和Thor-U的性能基础下,理想采用了小词表和投机推理,大幅提升CoT的效率,实现了VLA超过10赫兹(也就是每秒10次)的推理速度。理想还采用了创新性的并行解码的方法,也就是在同一个阐述方法模型中加入了两种推理模式:语言逻辑的推理,通过因果注意力机制逐字输出;而Action token则采用双向注意力机制一次性全部输出。

5、为了解决Diffusion模型效率低的问题,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。面对部分长尾场景,理想建立起人类偏好数据集。

6、创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升安全下限。

不过理想也没有止步于模型架构本身,贾鹏在演讲中说,他们也希望让系统有机会超越人类驾驶水平、也就是达成自动驾驶的能力。

他的观点基本上和目前做L4的企业一样,单纯的强化学习并没有特别好的效果。第一是因为早期的生成架构未能实现端到端的可训,强化学习作为一种稀疏的弱监督过程,若无法实现高效的无损的信息传递,强化学习的效果就会大打折扣。


第二,Physical AI需要与真实世界进行交互,以获取奖励信号,因此自动驾驶作为Physical AI最直接的应用,它的强化学习也高度依赖于高度仿真的交互环境,但是之前都是3D游戏引擎、真实性不足。理想汽车推出的MindVLA可以说是解决了第一个限制,而第二个限制则需要更真实的3D环境。

所以理想汽车也透露,MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作是将3D GS的训练速度提升至7倍以上。

按照理想汽车上述说法,那就意味着理想在世界模型的建立上也取得了突破,或许不会比蔚来前几天传出的世界模型更慢。并且理想汽车表示,MindVLA已经实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。

最终的结果就是,理想通过创新性的预训练和后训练方法,让MindVLA实现了卓越的泛化能力和涌现特性,其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。

同时,理想汽车也用三个场景来展示了全新的MindVLA模型带来的用户端体验——

第一个场景是驾驶者可以直接用模糊指令“我要去星巴克”,让车辆在没有启动智驾路线的前提下实现车辆的漫游寻找,也能用“开慢一点”来指挥车辆降速,最终通过摄像头识别来确认抵达星巴克门口。这个多模态的场景是最符合VLA的应用。

第二个场景是通过拍摄到的图片来寻找用户的位置。基本逻辑是通过收到图片后分析图片特征,然后从地下停车场出发,来到地面后经过漫游来寻找到用户。视频展示的过程还是很流畅,但是个人猜测实际使用过程中可能会需要一些照片的位置信息来判断,不太可能只依靠于图片场景。

第三个场景是车库漫游停车。驾驶员下车之后,车辆完全自主寻找停车位,也可以应对断头路等等场景,这个场景其实和VPD差别不大,区别可能在于VPD需要首先扫描停车场,而理想MindVLA则是可以完全在陌生停车场执行。

实际上,通过理想汽车发布的几个演示可以看到,这些场景都是实现了L4级别的自动驾驶,第二、第三个场景完全是处于无人驾驶状态完成了,这或许也是VLA架构带来的巨大飞跃。

毫无疑问,在端到端智驾如雨后春笋般涌现的今天,理想汽车发布的MindVLA自动驾驶架构直接向着L4又迈进了一大步,跨过了高速L3的这个阶段,也拉开了和友商的距离。这应该也就是理想在年初那场AI对话中提到的一些畅想的落地,只是现在要看VLA的训练结果,以及在真实场景中VLA比端到端的具体细节优势有哪些。


图片及文字资料来源:

理想TOP2《理想贾鹏英伟达GTC讲VLA 1228字省流版/完整图文/完整视频》

理想汽车《理想汽车发布下一代自动驾驶架构MindVLA》

展开查看更多

一起说牛车

关注

在娱乐方面,为了满足后排乘客的需求,车顶上方配备了一块15.7英寸的屏幕,功能和副驾驶位屏幕差不多,主要用于娱乐。Max和Ultra车型还标配了铂金音响,Ultra车型配备了21个扬声器,搭载的杜比全景声音频系统,采用16个扬声器组成的7.1.4声道矩阵,通过三维声场定位技术实现声音的精准空间映射,让车内的乘驾着可以有着较好的娱乐体验。

2024款理想L7全系搭载1.5T增程式混动系统,将电动机和燃油发动机的优势相互结合,既有着强劲的动力输出,又能实现低油耗和长续航,在新能源技术方面那也是比较先进的。

在续航里程和油耗表现上也是比较不错的,先说Pro版,它纯电续航能达到190km,满油满电状态下,综合续航里程有1135km,日常上下班通勤,一周充一次电就够了。Max版的纯电续航提升到了225km,总续航里程也是达到1585km,亏电百公里油耗实测为6.71L,在同级车型中,这个油耗表现也是比较出色的。Ultra版的续航能力就比较厉害了,总续航里程有1707公里,基本上可以满足你各种出行场景的需求,就算是来一场说走就走的长途自驾游,也是没啥问题的。

在智能化方面,2024款理想L7也有着不小的升级,全系采用高通8295芯片,让车机系统运行也可以比较的流畅。不管是导航、听歌,还是使用各种智能应用,响应速度都变快了,几乎没有明显卡顿的现象,操作起来也比较的顺滑,人机互动体验感也是比较好的。在智能驾驶辅助上,Max版和Pro版配备的AD Max软硬件升级也比较的给力。它能给你带来比较新颖的智驾体验,在日常驾驶中,这些功能的运用也可以缓解驾驶员的驾驶疲劳感。不过辅助驾驶毕竟只是辅助,开车的时候还是得时刻保持专注,安全第一。

如果你是一个注重家庭出行体验,对配置有一定要求的话,那么2024款理想L7是比较值得考虑的一款车型。要是你更追求性价比,或者对动力性能、智能驾驶有特殊需求,那可能还得再对比对比其他竞品车型。不知道大家觉得理想L7怎么样呢?

展开查看更多

球叔教你买车

关注

千里之行,始于足下。为了实现全球领先的人工智能企业,理想汽车自2020年初就着手构建技术平台,包含智驾平台AD和智能座舱平台SS,并且组建了4支AI团队,去解决智能驾驶、理想同学、智能商业、智能工业四个方面的问题。

随着新能源进入下半场,各家关于智能驾驶领域的竞争也日趋白热化。对于智驾方案,理想对于L3有监督智能驾驶有着深刻的理解,认为它并不是L2辅助驾驶的延续,而是L4自动驾驶的先导。为了实现这一目标,理想汽车首创了端到端+VLM的双系统解决方案,利用规模效应不断迭代和提升自驾能力,实现了“车位到车位”的功能,可以轻松应对狭窄道路、环岛、掉头、复杂施工等用车场景。高速端到端智能驾驶随OTA7.0版本全量推送给AD Max用户,升级后的车辆可以无断点、无降级应对新开高速、长距离隧道、长距离施工等场景,实现城市与高速一体化架构,让高速智驾更连续,实现了“高速+城市全场景端到端”能力。

图片


可以说,正因为有了前瞻性的布局以及海量的优质数据,理想汽车已经在智能驾驶这场竞备赛占得先机。在技术、产品、环境政策,以及消费者对人工智能信任度到位的前提下,理想汽车有望在三年后推出首款为L4级自动驾驶定义的汽车。

一个真正的大模型产品,一定是能够去自主使用所有的设备,会拥有所有的服务,这才是真正的人工智能。理想同学App上线标志着理想汽车的人工智能应用成功从车机迈向手机端,打破了传统汽车的界限,迈出了“万物互联”战略的关键一步。这意味着,未来“理想同学”不再只是车机端的智能助手,而是成长为能时刻陪伴用户、提供智能服务的贴心伙伴。

同时,理想同学搭载了自研的行业首个车载认知大模型Mind GPT,也在持续迭代。截至目前,该模型已积累10万亿Token的预训练数据,覆盖自动驾驶、对话等场景中特有的多模态数据。自2023年12月发布以来,Mind GPT已迭代30多次,目前已经进入到第三阶段,即Mind GPT-3o,进一步发展任务助手、认知成长和情感陪伴能力。

图片


除了智能驾驶和理想同学,人工智能也已经深入理想汽车智能商业领域,包括服务营销和生产制造等诸多方面。在销售和服务等商业场景,理想汽车通过大模型技术与商业领域数据和知识的深度结合,构建了一批具备零售、营销、客服等能力的AI助手。在制造等智能工业场景,理想汽车通过全栈自研的智能制造系统、视觉算法等设备和技术,以数据驱动生产、快速迭代生产技术,从而持续提高制造效率和产品质量。

展开查看更多

功夫汽车

关注

人工智能的第一阶段是“增强能力”,就是对人类的动作起辅助作用,决策权本身还是在用户手上。比如L3自动驾驶就属于典型的“增强能力”,AI只是完成驾驶这个动作,需要用户监督,并且负责任,并且动态驾驶任务完成后需要人接管。

很显然,大家期待中的驾驶完全交给系统,人可以轻松做其他动作,在李想看来只属于AI发展的初始阶段。

人工智能的第二阶段就不再只是辅助了,而是变身“我的助手”。只要给AI布置任务,系统就可以独立完成,还能对结果承担责任。

L2级别的自动驾驶可以完成这个动作,用户在家里下令,就可以让车辆自动去学校帮忙接孩子,或者肚子饿了下命令,机器人可以自动去餐馆点餐取菜。

至于人工智能的终极阶段,李想认为是“硅基家人”。不需要指示,也不需要分配任务,机器人作为硅基生物已经成为家庭成员,而且是核心成员。这个“硅基家人”不但了解用户,也了解用户的孩子,了解用户身边的朋友,可以主动维系用户的一切关系,让生活变得更加轻松。

人工智能发展到这个程度,其实就相当于硅元素和碳元素一样有了生命,而且这个生命是为我们“量身定制”的。李想还提到了一点,自己的记忆会被“硅基家人”延续,变成它的一部分,这已经有点哲学的意思了。

(3)又一次押宝,李想能成吗?

在自己的第二次创业中,李想做了一个大胆的决定。就是在所有新势力都在做纯电的时候,理想却选择了当时没有人看好的增程电动路线,这一举动让理想汽车大获成功。

增程电动这条曾经被认为最“鸡肋”的技术路线,在“大电池+小油箱”的组合推动下,最终成为中高端新能源汽车领域的绝对主流,也让理想汽车赚得盆满钵满。

为了力挺增程电动技术路线,李想曾经发出了一个当时看来非常惊人的论断,那就是“坚持多挡PHEV的车企,会在未来一两年都转换成增程式的技术路线”。

这种说法在当时看来简直不可理喻,因为挡位更多、技术难度更大多挡插混亏电油耗更有优势,并且还能并联驱动,性能也更好。在最传统的动力经济性领域,对增程路线是“双杀”。

然而李想认为,对于用户来说,技术更复杂不是掏钱的理由,只有性价比高、体验明显提升才是让用户购车的关键。

多挡插混的优势在于高速工况下的驱动(中低速差距几乎为零),但对于用户来说,百公里节约不到十块钱,却要忍受体积更大结构更复杂的硬件,以及发动机不断变化的震动,很难说体验得到了明显提升。

从结果来看,李想的判断似乎是对的,增程确实成了大多数车企的选择。这也是他一贯的特点,以发展的眼光看事情的本质。

李想选择全面押宝AI,也有他的独到之处,那就是理想汽车已经开始从中获益。10月23日,理想汽车全量推送了“端到端+VLM”的全新智驾解决方案。这一次,不仅是理想车主们沸腾,整个行业也为之侧目。

在“端到端+VLM”的环境中,工程师不再为智驾系统预设各种情况,而是给AI一个开车的场景,让AI自行学习如何开车,如何识别路边的环境,如何区分四轮车、三轮车、两轮车以及行人。

简言之,智驾系统学习了司机在校门口走走停停、躲避行人,后续智能驾驶也会明白什么样的情况应该如何避让。能“学习”,是端到端与过去智驾的最大区别。能思考,则是人工智能与普通智能辅助系统的区别。

展开查看更多

付馨妤

关注

根据中国汽车智能驾舱评价规程,理想 L9、赛力斯问界 M9、小米 SU7 分别被评为2024年度最佳语音交互车型、年度最佳智能驾驶交互车型、年度最佳电磁安全车型。其中赛力斯问界M9 被评为汽车智能驾舱2024年度优秀车型。

AI-CAP聚焦“智慧座舱、自动驾驶、车云赋能、安全守护”四个广受关注的维度,推动了测评标准化规范化,引导技术进步与创新,为企业提供明确的技术发展路径,同时也为用户在选择驾舱功能需求时提供参考。

展开查看更多

澎湃汽车圈

关注

2024年年初,随着特斯拉曝出自己的FSD V12版本采用了端到端技术,自动驾驶能力出现了质的提升之后,智能驾驶的赛道就此进入了新阶段。特斯拉在北美打响的发令枪,而冲在最前方的都是中国公司。以理想、华为鸿蒙智行、蔚来、小鹏为代表的头部新势力纷纷发力;以百度、商汤绝影、毫末智行等人工智能玩家也紧跟其后,提出自己的端到端方案。最近的广州车展上,极氪等车企也宣布进入端到端领域。

端到端的底层逻辑

眼下,新、老势力都在主打端到端,那何为“端到端”?

端到端,可以从一本书聊起。诺贝尔奖获得者丹尼尔·卡尼曼在《思考,快与慢》中用两个系统——快系统和慢系统来解释人类的思考和决策过程。

快系统是直觉和本能,它通常处理那些仅需通过经验和记忆、无需耗费脑力的任务。比如回答1+1等于几,或判断一个乒乓球和篮球哪个更大。这种无需经过深度思考,瞬间可以做出反应的场景,约占据了人类行为的95%。

而慢系统则负责需要通过专注力、逻辑性、深度分析才能完成的任务,来解决剩余5%场景下的复杂任务。比如计算243*876等于几或进行一场如《星际争霸》这样的决策战略游戏对战等。

当然,这两个系统并非各自为战,而是互相辅助,是人类认知和理解世界并做出决策的基础。

我们再将这套逻辑平移到汽车驾驶中。开车时遇到红灯停,遇到绿灯可以通行,这已经成为了“驾驶本能”。而当遇到陌生路段,尤其是匝道、环岛、十字甚至海星状路口时,就需要时间观察、思考再决策。

自动驾驶的原理也是一样,需要用快系统让自动驾驶系统更高效;也需要慢系统去处理更复杂的信息。

理想智驾的三次进化

随着技术的精进,当前用户对于智能驾驶技术的接受度和认可度正在显著提升,智驾功能开始在新能源汽车销售当中占据越来越大的影响权重。在新能源市场竞争的下半场,理想汽车率先进行前瞻布局,持续加大研发投入,获得显著成果,在智驾赛道上脱颖而出。

理想汽车10月全量推送的端到端+VLM双系统智驾技术架构,就是采用了快系统+慢系统的思路构建。“端到端模型”就是“快系统”,用来对日常驾驶进行快速处理,传感器输入的信息,直接输出行驶轨迹。而在应对复杂路况时,理想汽车通过视觉语言模型(VLM),也就是“慢系统”,给“端到端模型”输出建议。

通过端到端模型和VLM模型,理想汽车的最终目标是能够覆盖全部的驾驶场景,对任何情形都能够像人类司机那样老练。而要实现这一目标,光靠两个系统还不够,理想引入了“重建+生成式世界模型”,它就像一个“考官”,帮助这两个系统在一次次“真题试炼”中持续迭代升级。

世界模型的“考题”来自于两个部分:一个是测试人员和内测用户帮忙收集的“错题集”,这些在实车测试中出现过问题的场景都会被重建成考题;同时,理想还会用生成模型将考题进行泛化形成模拟题,比如改变了天气、光照、背景环境、障碍物的行为等等,使得模型能够举一反三。

最后通过“错题”+“模拟题”的考试方式,经过自动化的模型评分体系,给出最后模型的得分,用来筛选合格的端到端模型,并且指导下一次的迭代方向。

事实上,理想汽车的智能驾驶系统在实现One Model一体化端到端之前,经历了三个进化阶段。

第一阶段时,其采用了NPN架构,从传感器输入到行驶轨迹输出,需要经历感知、定位、规划等过程。这一阶段支撑了理想百城NOA的布局。

第二阶段,理想采用了分段式端到端架构,模块更少,过程更短,从传感器输入到路径输出,只剩下感知和规划,有导航就能开,效率更高,该架构能够实现理想“无图NOA全国都能开”的目标。

而第三阶段,就是一体化端到端。相比无图NOA有感知和规划两个模型,中间还有大量的规划,而一体化模型信息传递不再需要人来设定规则,信息损失能够最小,具有更高上限。在用户角度看来,驾驶会更聪明和拟人。一体化模型中间无需规划、验证,直接传感器输入,通过端到端模块输出行驶轨迹。

由此,智能驾驶技术不再局限于传统的模块化架构,而是向着一体化大模型的方向大步迈进。端到端大模型通过大规模数据训练与深度学习算法,实现了从原始传感器数据直接输出驾驶指令的跨越,极大地提升了智能驾驶的响应速度与决策精度。

而随着功能和智能化的进一步提升,理想智能驾驶系统的算力也“水涨船高”,从2023年的2.82EFLOPS增长到2024年的10EFLOPS;智驾训练里程从去年的12亿公里增长到接近30亿公里。在智驾的技术水平和可靠性上,实现了迁跃。

真正实现“车位到车位”

得益于理想汽车持续的研发投入,其智驾功能正在加速迭代和落地。

今年7月,“全国都能开”的无图NOA全量推送给AD Max用户。基于端到端+VLM的全新智能驾驶技术架构在7月开启千人内测,成都车展期间进行万人团招募,在10月23日的OTA6.4版本中正式推送给全量用户,其成长速度可以说创造了行业奇迹。

而这次OTA6.5版本,可以实现车位到车位全场景覆盖能力。从上车就能开一键智驾,自主进出园区和识别闸机抬杆,城市环岛、掉头等复杂场景通行,首创的全国范围收费站ETC自主通行,自主泊入露天、地库多种停车位。总之,主打一个从起步泊出到行程结束泊入全场景覆盖,从车位到车位,中间0断点。

从上车选定导航路线之后开始,点击“一键智驾”或者跟理想同学说一句“我们出发吧”,从车位到车位的过程就能直接启动。车辆自动驶出车位、地库、狭窄的小区道路,遇到闸机车辆也会自动停下,等缴费抬杆之后继续自主行驶。

如果路途中有高速,这套系统可以通过视觉语言模型识别收费站ETC,选择好通行车道,降速缓行通过ETC,同样无需接管。这一功能目前在其它品牌的智驾系统中还没有实现全量落地。

除了上述智驾功能升级,在主动安全方面,理想汽车同样不设上限的保障用户安全。在这次OTA 6.5版本中,理想还将加入后向主动紧急制动 R-AEB 和后向误加速抑制 R-MAI,进一步提升了驾驶安全性,构建起更加完整的智驾防护罩。

根据规划,11月底“车位到车位”能力将随这次OTA6.5版本车机系统推送给全量AD Max用户。

事实上,在10月底推送的OTA6.4版本中,理想基于端到端+VLM的全新智能驾驶技术架构就已经相当成熟,能够丝滑解决用车难点场景。

比如难倒几乎所有智驾系统的U型掉头场景中,理想这套一体化端到端系统具备更强的侧向感知能力,掉头过程中可以更准确识别和预测对向直行车辆的行驶轨迹并做出避让。

另一项亮点功能是路边P挡直接起步。得益于端到端系统更强的freespace规划,该系统不再依赖车道关系,当车辆不在车道中时也可以启发式搜索出一条从路边驶入主路的路线。只需要双击拨杆,理想可以直接从路边起步,自主并入车道。

此外,在千钧一发的时刻,这套系统的安全能力上限更高。

比如,AES紧急避险功能方案,行业大部分的AES都依赖驾驶员手动掰一下方向盘才能触发AES,算上人的反应和执行时间很可能已经来不及避让。而理想的 AES不需要掰方向盘,是真正意义上的全自动紧急避让。AES支持最高激活上限 135km/h,适用于高危的高速驾驶场景。

系统本身智能意外,为了让用户放心,交互也很重要。理想的这套系统还能在智驾状态下基于VLM播报。这套系统同样会基于快系统和慢系统的思维进行两个种类的播报。比如,“正在向右转弯”“当前公交车道处于限行时间,正在驶离公交车道”等等。

可以说,OTA6.5版本是对6.4版本的进一步突破和打磨,对用车场景的全周期进行细节挖掘,真正做到让用户敢用、好用、爱用。

最后

在智能驾驶的数十年发展中,私人乘用车领域从未达到过“车位到车位”的水平,要不就是起步出库、出停车场闸机需要人工接管;要不就是在城市复杂路况中Hold不住,开着开着从“城市领航”降级到“自适应巡航”;在遇到U型掉头、高速收费站等特殊场景时,同样需要人工接管。

理想的这套端到端+VLM的方案,真正将整个智能驾驶过程打通,实现了闭环。从技术角度来说,用户从A点到B点,要做的就是上车、设置导航、激活智驾系统、开门下车,中间的全过程都不再需要接管。

相比当前市面上要时刻担心智驾系统是否让人类接管的焦虑,理想可以说将智能驾系统的体验拉升到了新高度。经过了三次技术跃迁和产品升级的理想智能驾驶,也将从此前的“主流水平”,成为“第一梯队”。

展开查看更多

功夫汽车

关注

而今,随着理想“车位到车位”智能驾驶全球首家全量推送,这一切似乎都不再是“想象”,也让科幻真正走进现实,慢慢改变我们的用车、出行方式。

在功夫汽车看来,伴随端到端+VLM 智驾在 OTA6.5上实现了车位到车位全场景覆盖能力的真正落地,将打破用户过去智驾不好用的“惯性思维”,让消费者真正认识到——智驾不再是“非必要选择”,而是出行生活的“最优解”。同时,端到端+VLM不仅刷新了我们对于理想智能驾驶的过往印象,更让我们对理想智驾的发展速度有了具象化的认知。

当我们置身于理想车内,也将比以往的任何时候都理解何为“无智驾,不买车”,更让外界对智驾产生无限延伸的遐想空间。

(1)从“后进生”逆袭“尖子生”:行业首创,全球首家!

事实上,理想在2021年才开始自研智能驾驶,比蔚来、小鹏都晚一些。

但理想目前在智驾领域的进度,犹如从一位“后进生”,一跃成为“尖子生”。

逆袭的戏码,总会让人倍感热血沸腾。

或许有人也想问,理想是怎么做到的?理想的端到端+VLM全新一代双系统智能驾驶技术架构,到底有何优势?

而这,就不得不说到理想端到端+VLM这套双系统智能驾驶技术架构的应用优势。

众所周知,端到端的意义在于,它让智能驾驶研发进入了 AI 时代——不再依赖大量人工编程,只要用更多数据训练模型,系统就会不断变强,驾驶表现宛如老司机。

但各家车企的“端到端”,亦有区别。

目前,车圈唯有两家车企的端到端是 One-Model。即输入是传感器,输出是行驶轨迹,全部由一个模型实现。

这两家车企,一家是特斯拉,另一家就是理想,其他整车厂都只是在某个环节实现端到端。

相比于其他车企仅在某个环节实现端到端,理想和特斯拉的端到端,效率明显更高,能够真正做到像人一样驾驶

同时,也不同于特斯拉一体化大模型的思路,理想的双系统是一个开创性的方案。

VLM 模型是一种视觉语言模型,理想是第一个将视觉语言模型成功部署在车端芯片的厂商,使自动驾驶具备了应对未知场景的逻辑思考能力。

简单举个例子,能够生成行驶轨迹的端到端模型,完全具备通过收费站的能力,但它在面对收费站时,并不是很清楚自己应该走哪条道,最后只能随便挑一条来走。

而加入VLM 模型,则能够像人类一样理解物理世界的复杂交通环境和中文语义,可以清楚地分辨 ETC 车道和人工车道,并辅助端到端模型做出正确的决策。

这套设计,也在当前车端算力有限条件下,兼顾了“高上限”和“安全兜底”的两大优势,解决了安全、导航、法规和舒适等方面的自动驾驶业内难题。

说到这,大家也能够理解理想端到端+VLM这套双系统技术架构在行业内的领先优势。

或许有些人就更疑惑了,这套“端到端+VLM”智驾系统,理想到底是怎么研发出来的?

对此,理想汽车智能驾驶研发副总裁郎咸朋博士也透露了一些技术架构背后的“内部秘密”。

这主要得益于两个因素,一个是阶梯式研发流程。

据功夫汽车了解,理想秉持交付一代、研发一代、预研一代的研发思路,所以能够快速实现从无图NOA到端到端+VLM的切换,且兼顾质量。

另一个则是在开发和运用中融入人工智能技术,实现技术的快速革新。

大家都知道,智驾其中尤为耗时耗力的环节便是路试。而理想,便通过人工智能技术来验证测试,用重建、生成技术取代了人工的测试,减少了时间和人力,测试效果也更好。

譬如,重建技术能够快速重建几百公里的场景,包括各种天气路况下的场景,这些场景通过人类驾驶未必能够获取。

不到4个月,理想的端到端模型迭代了超过 30 个版本,MPI平均接管里程提升了3.5倍,体验大幅提升。迭代速度最快时,理想做到了平均2-3天迭代一版模型。数据增长带来能力增长,能力增长带来用户体验增长。

基于如此高效的迭代能力,理想又在端到端+VLM基础上,升级出车位到车位智能驾驶

对比其他家智驾进度,虽然也都发布了类似车位到车位功能,但仍然都处于内测阶段,并未有具体推送日期。

唯有理想,正式全量推送。

同时,还新增了行业唯一VLM 识别ETC 自主通行。

对比智驾领域第一梯队的竞品来看,均无此能力,部分竞品的Al代驾模式也需要依赖学习过程。

还有诸如限时公交车道行驶、潮汐可变车道行驶等功能,也是理想智驾独有。

可以看到,从后端的技术架构,再到前端的落地功能,理想已然是当之无愧的车圈智驾“尖子生”。

(2)高阶智驾“模范生”:让智驾成为“享受”,更成为中国家庭的“刚需”!

当然,喊口号,起高调,谁都会。

真的想要做高阶智驾引领者、普及者,切实在高阶智驾普及战、遭遇战中脱颖而出,远没有想象中那么容易。

从“行业首创”的端到端+VLM,再到“全球首家”全量推送车位到车位智驾,理想已然在智驾这张“牌桌”上占据了领先优势。

接下来,如何让用户从“能用”到“爱用”,也是所有车企一直以来面临的灵魂拷问。

截至11月底,理想智能驾驶总里程突破 26.7亿公里,总用户量超过百万人。

其中,理想用户的 NOA 总里程突破14.4亿公里,NOA 里程占智驾总里程近 90%。

对比友商来看,国内智驾用户最多的车企,其智驾累计里程,目前仅在9.3亿公里左右。

显然,无论是用户数,还是使用量,理想都做到行业领先。

在此之外,理想的智驾用户增长量尤为迅猛。

相比半年前,理想NOA 试驾占比已经增长了接近3倍,65%的进店用户都会试驾体验 NOA,并且都会体验在城市里的表现。

销量上,目前30万以上车型的 AD Max 销售占比 70%,40 万以上的车型中,AD Max 的销售占比已经达到80%。相比今年初,AD Max 的销量占比涨幅达到 34%。

从这个角度来看,理想的智驾用户增长速度在所有车企中,也是最快的。

正如海德格尔所指出的,技术并不是中性的,而是负载着价值的,而技术的价值始终是人赋予它的。

从“能用”,到“爱用”,再到“放心用”,理想的智驾已然经过用户和市场的双重验证,正在给日常用车生活带来全新的价值。

由此,理想正在让智驾成为“享受”,更成为中国家庭的“刚需”。

在智能驾驶领域,理想有用户,有技术,更有底气。

展开查看更多

燃擎

关注

业界专家一致认为,常规的端到端方案最终只能实现L3级自动驾驶,生成式AI大模型才能实现L4。

那么,大模型技术真正在车端落地,需要突破多少难关呢?

01

对大佬们的话做阅读理解,一定要结合他发言的上下文,否则很容易断章取义。

比方说,特斯拉前自动驾驶部门负责人Andrej Karpathy曾经说过,大模型的幻觉是特点,不是缺陷,大语言模型的工作机制就是做梦,幻觉是正常现象。

从助力科学发现的角度来看,大模型的幻觉问题的确不是缺陷。

但是,对于汽车驾驶这种高安全要求、约束边界非常明显的场景而言,幻觉问题是必须解决的一道难关。

定量来看,当下大模型的错误率和L4级自动驾驶能容忍的错误率到底有多大的差距呢?

华为在《云计算2030》中表示,L3级自动驾驶的容错率为0.1-1%,L4级自动驾驶容错率在0.0001-0.001%之间。

随着参数量的加大、训练数据规模的提升和新方法的引入,大模型的准确率一直在稳步提升。

2020年问世的GPT3错误率在40%左右,到了2022年底,GPT3.5的错误率已经下降到了20%,GPT4更是百尺竿头、更进一步,将错误率降低到了10%。

不过,饶是如此,10%和L4级自动驾驶的容错率0.0001%依然差着5个数量级。

前段时间,理想汽车的双系统方案在直播测试中公然逆行,暴露了由LLM改造而来的视觉语言模型输出错误率依然不低的现实。

理想的视觉语言模型DriveVLM基于阿里巴巴的Qwen-VL或Meta的LLaMA2-3B改造而来。

即便在它们的基础上新增训练了一些驾驶场景数据,做了RAG检索增强、AI对齐、强化学习、优化提示词等工作,准确率的提升也相当有限。

幻觉问题的解决任重而道远。

前段时间,李彦宏在百度世界2024大会上表示:过去两年AI行业的最大变化就是大模型基本消除了幻觉。

我们无从揣测李彦宏是不是出现了幻觉,但他这个观点非常值得商榷。

在绝大多数情况下,文字只不过是无关痛痒的表达,操纵钢铁巨兽的自动驾驶系统面对的却是可以直接决定他人性命,务必要慎之再慎!

02

有人说,人生最大的幸福就是在对的时间和环境下,和对的人一起做对的事,一旦时间变了,一切就都变了。

自动驾驶也要在对的时间、空间下,及时地做出对的决策,实时地行驶出对的轨迹。

交通场景瞬息万变,自动驾驶系统必须及时感知车辆周围环境、实时预判周围交通参与者的潜在轨迹,经过整体的统筹,即时规划出安全、舒适、高效的行驶路径。

要保证复杂车流环境下的实时性,模型的运行频率至少要在十几赫兹。

目前,理想汽车视觉语言模型的运行频率在3.3赫兹左右,只能起到辅助提醒的作用,无法参与实时的轨迹规划。

现在坊间有一个简单粗暴的观点,理想汽车如果在下一代智驾系统中将Orin升级为英伟达下一代舱驾一体芯片Thor。

NPU从254 TOPS提升到1000 TOPS。再加上Thor对Transformer架构的原生支持,应该有望将DriveVLM的运行频率提高到十几赫兹。

这个看法相当门外汉。天上云追月,地下风吹柳,更高等级的自动驾驶对模型的参数量必然有着更高的需求。

目前,理想汽车用来实现L3级自动驾驶的视觉语言模型的参数量只有22亿参数,这种参数规模的大模型无法实现L4级自动驾驶

可以拿特斯拉FSD的模型参数量做个对比。

2022年的AI Day上,特斯拉披露了其分模块方案FSD的参数规模为10亿(1B),进化到端到端方案之后,FSD模型的参数量必然有增无减。

特斯拉曾经表示过,从V12.4到V12.5,FSD模型参数量提高了5倍,从V12.5到志在实现L4级自动驾驶的V13,模型参数量再次提高了3倍。

做一个合理的推算,FSD当前的模型参数量恐怕得在200亿左右,比DriveVLM的22亿参数量高了整整1个数量级。

这就意味着,除非降低对自动驾驶能力等级的需求,即将量产的智能驾驶芯片标杆英伟达雷神芯片也无法解决车端运行大模型的实时性难题。

03

万丈高楼平地起,那是因为有地基。

进入2024年下半年,本土智驾企业纷纷开启在车端自动驾驶大模型上的实践,并非因为他们自己水平有多么强悍,而是因为头部AI企业训练出并开源了具备图像理解能力的多模态大模型。

智驾企业们在这些涵盖多个不同科目和子领域、具备通用多模态能力的视觉模型/视觉语言模型/视觉语言动作模型的基础上,再设计一些面向驾驶场景的问答,进行简单的微调训练,自家的视觉语言智驾大模型就顺利出炉了。

这些万亿美金市值的AI巨头提供了免费的午餐,也顺带着决定了基于它们改造而来的智驾视觉语言模型的性能天花板。

先说乐观的一面,这些大模型具备图文识别能力,可用于识别潮汐车道、公交车道、路牌文字,理想汽车的VLM可以结合当前时间段给出使用或驶离公交车道的建议,其能力就来自这里。

这些大模型也具备一定的场景理解能力,比如判断路面的坑洼情况,给出减速建议。

当然,如果自家的车型具备真正的魔毯能力,或许只需要适时调节空悬和CDC就可以了。

再说悲观的一面,这些面向数字世界的AI大模型并不具备真正的空间理解能力。

建立空间理解能力的关键在于可以同时输入车前、车后、左前、右前、左后、右后的多个摄像头的图像输入,站在3D视角下进行综合的判断,BEV前融合的价值就在这里。

反观视觉语言模型,虽然可以依次输入前视、后视、周视摄像头采集到的图像,但它只能像BEV出现之前的自动驾驶算法那样做后融合,直接杜绝了建立精准的空间理解能力的可能。

目前的智驾视觉语言模型只能给出车道、加减速这些中间层的建议,而无法输出最终的轨迹,本质原因就在这里,特斯拉和蔚来汽车死磕具备空间理解能力的世界模型的本质原因也在这里。

生成式AI爆发之后,业界对自动驾驶能力的进展速度一度变得非常乐观,但是,从以上分析可以看出,通过生成式AI大模型提升自动驾驶能力,这条路依然任重道远!

展开查看更多

易车原创报道

关注

此前,理想汽车携L系列及MEGA车型亮相广州车展,并举行了智能发布会。会上,理想汽车宣布其全新一代智能驾驶技术架构——端到端+VLM双系统取得新进展,OTA 6.5版本车机系统将于11月底正式推送。

此次OTA升级的最大亮点是新增“车位到车位”智能驾驶功能。该功能将使车辆能够轻松应对狭窄小区道路、环岛、掉头或复杂施工等场景,并支持全国高速收费站ETC自主通行及AVP代客泊车路线自动匹配,实现全程无断点的智能驾驶体验。理想汽车产品部高级副总裁范皓宇表示,理想汽车是整个行业中第一家同时也是唯一一家全量推送“车位到车位”有监督智能驾驶的车企。

自7月无图NOA全量推送以来,理想汽车的智能驾驶技术持续迭代升级。数据显示,目前理想汽车智能驾驶累计里程已达26.7亿公里,主动安全累计避险次数超过360万次。随着端到端+VLM双系统的推送,MPI平均接管里程提升3.5倍,用户出行体验显著提升。

展开查看更多
正在加载中
加载失败,轻触加载
已经到底啦
暂无相关数据

CopyRight © 2000-2025 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外