你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox
当前位置:易车> 蓝山 DHT PHEV导航摘要> 摘要详情

蓝山 DHT PHEV导航-性能

蓝山 DHT PHEV导航_性能

摘要来自:《自动驾驶引入大语言模型!懂得驾驶明规则潜规则更像老司机》

【易车摘要频道】下列精选内容摘自于《自动驾驶引入大语言模型!懂得驾驶明规则潜规则更像老司机》的片段:

在感知大模型方向。我们通过对实现真实物理世界的学习,将真实世界建模到三维空间再加上时序的4D向量空间中。在构建对真实物理世界的4D感知基础上,我们也进一步引入图文多模态大模型,来完成4D向量空间到语义空间的对齐,实现跟人类一样的万物识别能力,我们称之为自动驾驶语义感知大模型。

而在认知阶段,基于语义感知大模型的万物识别能力,通过构建驾驶语言来描述驾驶环境和驾驶意图,再结合导航引导信息、以及自车历史动作,借助大语言模型的海量知识来辅助给出驾驶决策。大家都知道,大语言模型包含了人类世界所有知识的压缩,我们通过与大语言模型结合,使得自动驾驶认知决策获得了人类社会的常识和推理能力。这将大幅度提升我们自动驾驶策略的可解释性和泛化性,更快的实现万物移动的目标。

接下来,我也将逐步介绍下,这个架构中重要的三个部分:视觉大模型、感知大模型、认知大模型。

P10

首先是视觉大模型的进化,我们详细阐述一下在最核心的CV Backbone上,我们过去几年的探索和积累。

从模型架构上讲,大家都知道,早期的cv技术基本上都是以CNN类方法为主,但是最近几年,Transformer大模型在NLP领域取得巨大的成功,CV领域也大规模引入Transformer方法,以ViT为代表的视觉Transformer逐渐取代了各类CV模型。我们最早的将Tansformer引入到了自动驾驶领域,在过去的两年里,我们的CV Backbone也从CNN模型全面切换到ViT,并在今年全面升级到性能更强大的Swin Transformer。

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外