本技术介绍了一种自动驾驶车辆轨迹规划技术,该技术通过端到端模型从多模态数据中提取驾驶场景的全面时空信息,进而预测并规划未来一段时间内车辆的行驶轨迹。
背景技术
在推动自主驾驶产业及其相关配套设施建设的过程中,基础智能(FoundationIntelligence)将起到至关重要的作用。其中,基础模型(Foundation Model)作为一种大型机器学习模型,经过大规模数据进行预训练,通过针对特定任务或特定领域进行微调,可以适应广泛的下游任务,是基础智能的重要组成部分。大型基础模型在自然语言处理(Natural Language Processing,NLP)领域主要有BERT和GPT系列等大语言模型(LargeLanguage Model,LLM),其在自主驾驶中的应用,是人工智能技术不可避免的发展趋势,已成为目前各大厂商和团队持续竞争发力的黄金赛道。
在可解释性方面,目前学术界和工业界在自主驾驶领域探索将语言知识嵌入决策的研究:通过丰富的文本指令数据进行预训练,大语言模型可以提取并解释开放驾驶场景中的各种要素,实现自主驾驶中的开放场景理解和推理,并推演出用于驾驶决策和规划的自然语言指令。针对这一主题,一些研究通过基于类似GPT的方式构建自动驾驶模型,直接输出规划轨迹或控制指令,另一些研究尝试使用Transformer构建端到端自动驾驶系统,效果良好,并且在完成驾驶控制任务的同时,自主驾驶控制模块的决策过程中加入了自然语言的提示语,提高了结果的可解释性。另外,自主驾驶也可以应用真实物理世界模型,通过观察少量和任务相关或无关的事件来学习世界如何运作的背景知识,抓取内在规律并预测演变过程。使用深度生成式模型作为世界模型,可以对规模化的图像数据进行学习,充分释放模型的推理能力,构建用于自动驾驶视觉的通用基础模型。
在社会交互方面,自动驾驶车辆如何预测周围交通参与者的意图,并实现具有社会兼容性的博弈交互和行为规划,是极具挑战的。目前的自动驾驶运营车辆在这些方面确有欠缺,时而为了安全目标过于保守长时等待,时而过于激进与其他交通参与者抢行。调查报告表明,公众对自动驾驶运营车辆行为怀有很强的不信任感,有60%的受访人员不相信自动驾驶车辆的安全性和可靠性,尤其是在行人穿过马路场景,更担忧自动驾驶车辆会冲撞行人引发安全事故。
实现思路