新闻  |   论坛  |   博客  |   在线研讨会
精细化解读全球自动驾驶2024-2025(转载)
grandision | 2025-11-05 15:42:50    阅读:8   发布文章

b237464d824c00cc3ba1f5418ce28afe

在2024年到现在2025年初这一年多时间里,全球自动驾驶技术真的发生了翻天覆地的变化。不管是硬件方案、算法架构还是商业化落地,都和两三年前完全不是一个量级了。今天就系统性地聊聊现在全球范围内自动驾驶到底发展到什么程度了,各家都在用什么技术路线,哪些已经真正能用了,哪些还在PPT阶段。我尽量把技术细节和实际体验结合起来说,这样大家能更直观地理解。

先说说感知硬件这块的技术路线之争

这个话题争了好几年了,到现在基本形成了两大阵营。特斯拉这边坚持纯视觉方案,马斯克一直说激光雷达是拐杖,人类开车就靠眼睛,AI也应该能做到。他们最新的FSD V12版本已经完全转向端到端神经网络了,不再用之前那种规则式的代码。具体来说就是把8个摄像头的画面直接喂给神经网络,让AI自己学习怎么开车,不再人为设定什么情况该减速、什么情况该变道这些规则。实际效果确实有明显提升,特别是在处理复杂路口、无保护左转这些场景时,比V11版本平滑很多,不会突然犹豫或者急刹车了。他们用的Occupancy Network技术挺有意思的,不再去识别这是车、那是人,而是直接预测3D空间中哪些格子被占用了,这样对于一些不常见的物体,比如掉落的轮胎、推着购物车的人,也能正确识别出来是障碍物。配合HW4.0硬件平台,算力达到了2500 TOPS,处理能力比之前强了好几倍。不过纯视觉方案的问题也很明显,在夜间、大雨、浓雾这些极端天气下,摄像头性能会大幅下降,测距精度也不如激光雷达。另一边的阵营就是多传感器融合派,以国内的华为、小鹏、理想和海外的Waymo为代表。这些厂商都在用激光雷达+摄像头+毫米波雷达的融合方案。拿华为ADS 2.0来说,硬件配置真的很夸张,3颗激光雷达(前向一颗是192线的,侧向两颗),11个高清摄像头覆盖360度视野,还有6个毫米波雷达做补充。这套系统的算力平台用的是MDC 810,达到400+ TOPS的算力。实际体验下来,在隧道进出口、夜间无灯光路段、雨雾天气这些场景,激光雷达的优势真的太明显了。因为激光雷达是主动发射激光测距,不依赖环境光线,测距精度能达到厘米级,这对于复杂路况下的紧急避障特别重要。而且激光雷达能直接生成3D点云,对于立体障碍物的识别比纯视觉准确太多。不过问题也很现实,成本高啊,一颗192线的激光雷达现在还得几千美金,虽然比前几年便宜了很多,但相比摄像头还是贵了一个量级。Waymo的第五代自动驾驶系统更狠,用了4颗激光雷达加29个摄像头,硬件成本估计得十几万美金起步,这也是为什么Waymo的Robotaxi运营成本一直降不下来的原因。

4D毫米波雷达是今年特别值得关注的新技术

这东西可以说是在纯视觉和激光雷达之间找到了一个平衡点。传统的毫米波雷达只能提供距离、速度、方位角这三个维度的信息,对于静止物体识别很差,而且分辨率低,经常把好几个目标当成一个。4D毫米波雷达增加了高度信息,而且通过级联技术把点云密度提升了10倍以上,现在一帧能输出几千个点,虽然还是比不上激光雷达的几十万个点,但已经能满足很多场景需求了。像Arbe、Oculii、森思泰克这些公司的产品,已经在一些量产车上开始应用。最关键是成本,一颗4D毫米波雷达的成本大概就几百美金,只有激光雷达的十分之一。而且毫米波雷达不受天气影响,大雨大雾照样能正常工作,这点比摄像头和激光雷达都强。现在不少车企开始采用”5R11V”的配置,就是5个4D毫米波雷达加11个摄像头,不用激光雷达也能实现比较好的城市NOA功能。当然,4D毫米波的问题是对于小物体的识别能力还是不如激光雷达,比如路面的锥桶、掉落的小包裹这些,可能会漏检。

算法层面的变化比硬件还要激进

大模型技术彻底改变了自动驾驶的技术范式。传统的模块化方案是把自动驾驶分成感知、预测、规划、控制几个独立模块,每个模块单独设计单独优化。这种方案的问题是信息损失严重,比如感知模块输出”前方20米有一辆车”,但实际上那辆车可能在踩刹车,尾灯亮着,这个细节信息在传递到规划模块时就丢失了。端到端方案就是用一个大神经网络,直接从传感器数据学到控制指令,中间不需要人为设计的模块划分。英国的Wayve公司搞的GAIA-1模型特别有代表性,这是一个基于Transformer架构的世界模型,可以生成未来驾驶场景的视频预测,比如给定当前画面和转向指令,它能预测出未来5秒车辆会开到哪里、周围车辆会怎么运动。这种预测能力说明模型理解了物理规律和驾驶常识,不是简单的模式匹配。特斯拉的团队在2024年的一次技术分享中透露,他们的端到端模型参数量已经超过千亿级别,训练数据来自全球数百万辆特斯拉车的实际行驶数据,相当于几十亿英里的驾驶经验。这种数据规模是任何一家传统车企都没法比的,这也是特斯拉敢走纯视觉路线的底气所在。

大语言模型被用在自动驾驶上是2024年最有意思的技术趋势

这个方向很多人可能觉得不靠谱,但实际上效果超出预期。传统的自动驾驶系统对于复杂场景的理解能力很弱,比如看到一个”前方施工绕行”的牌子,传统系统只能识别出这是个牌子,但理解不了是什么意思,还得靠视觉识别锥桶、护栏这些物理障碍物才知道不能通行。但如果用上LLM,系统可以直接理解”施工”、”绕行”这些语义,推理出可能的交通组织方式,提前规划绕行路线,而不是开到跟前才发现被拦住。Waymo和谷歌DeepMind合作的研究显示,在处理长尾场景时,结合LLM的决策系统成功率提升了40%。具体的技术实现是把视觉感知结果转换成文本描述,比如”前方30米红绿灯路口,左侧车道有两辆车在排队,右侧车道空”,然后喂给LLM,让它基于驾驶常识和交通规则生成决策建议”建议变道到右侧车道通过路口”,最后再转换成具体的控制指令。这种方法特别适合处理那些训练数据里没见过的新场景,因为LLM有推理能力,不是死记硬背。国内的毫末智行、地平线也在搞类似的研究,把他们训练的垂直领域LLM集成到自动驾驶系统里。

神经渲染技术被用来做仿真测试是另一个重大突破

这个技术原本是搞3D重建和虚拟现实的,结果在自动驾驶领域找到了完美应用场景。传统的仿真器比如Carla、LGSVL这些,虽然能模拟各种交通场景,但画面不够真实,光影效果假,自动驾驶系统很容易就能分辨出这是仿真数据而不是真实数据,导致在仿真器里测试通过的算法,拿到真车上效果就不行。NeRF(神经辐射场)技术彻底解决了这个问题,它可以从多个角度拍摄的视频中重建出照片级真实的3D场景,而且可以任意改变视角、光照、天气。英伟达的Drive Sim平台现在就是基于这个技术,可以把真实的道路场景扫描进去,然后在里面测试各种极端情况,比如突然窜出来一个小孩、对向车辆失控冲过来这些。更厉害的是可以合成训练数据,比如系统在某个场景下表现不好,就用NeRF生成一堆类似但稍有变化的场景,专门训练这种情况。Waymo公开的数据显示,他们现在99%的测试都在仿真环境里完成,只有1%需要真车路测,大大降低了测试成本和风险。

e0a16ff699d705f6eff48ce62efd7813

高精地图的地位正在发生根本性变化

这个趋势在2024年特别明显。以前业内普遍认为L3级以上的自动驾驶必须依赖高精地图,因为需要精确知道车道线、红绿灯、路口拓扑这些信息。但高精地图有致命的问题,首先是制作成本高,传统方法需要专业测绘车带着激光雷达去扫描,每公里成本要几千元人民币,全国高速公路加城市道路得几十万公里,这是个天文数字。其次是更新频率跟不上,道路施工、车道调整这些变化非常频繁,但地图更新可能要几个月,导致自动驾驶系统用的是过时数据。最致命的是法规限制,很多国家对高精度测绘有严格管控,不允许外国公司采集,这直接限制了自动驾驶的全球化部署。现在的技术趋势是”轻地图”或者”无图”方案,就是降低对高精地图的依赖,更多靠实时感知和在线建图。Mobileye搞的REM(路网经验管理)技术挺聪明的,利用量产车上的摄像头众包采集数据,自动生成和更新地图,成本几乎为零,而且更新频率可以做到准实时。特斯拉更激进,完全抛弃了高精地图,纯靠视觉神经网络实时识别车道线、交通标识、路口结构这些信息,在北美和中国的城市NOA实测中已经证明可行。华为ADS 2.0也宣称可以”全国都能开,不需要高精地图”,实际测试下来确实在没有高精地图覆盖的路段也能正常工作,虽然偶尔会犹豫,但大部分情况是OK的。矢量化地图表征是轻地图方向的核心技术

这个技术简单说就是不再存储栅格图像,而是用数学向量来表示道路元素。比如一条车道线,传统地图可能存储为一串坐标点的像素数组,占用空间大,而且不方便编辑。矢量化表征就用贝塞尔曲线或者多项式来描述这条线,只需要几个参数,占用空间小了几十倍,而且可以方便地延伸、拼接、修改。更重要的是,神经网络可以直接输出矢量化的地图表征,比如从摄像头图像直接预测出车道线的贝塞尔曲线参数,这样就实现了感知和建图的统一。特斯拉在2023年的AI Day上展示过他们的Vector Lane Network,能实时输出周围200米范围内的矢量化道路网络,包括车道连接关系、路口拓扑这些信息。这种实时在线地图和传统的离线高精地图相比,最大优势是永远不会过时,看到的就是当前真实情况,哪怕道路临时改道、车道线重新划了,都能实时适应。

计算架构从分布式向集中式演进是另一个大趋势

以前一辆车可能有上百个ECU(电子控制单元),发动机控制、刹车控制、灯光控制、娱乐系统各管各的,彼此之间通过CAN总线通信,带宽很低,延迟也高。现在逐步整合成几个域控制器,把相关功能集中到一个强大的计算平台上。自动驾驶域控制器(ADCU)是算力要求最高的,因为要处理多个摄像头、雷达、激光雷达的数据流,还要跑深度学习模型。英伟达的Orin芯片现在基本是行业标准,单颗算力254 TOPS,一般配置是双Orin或者四Orin,总算力达到500-1000 TOPS。他们下一代的Thor芯片更猛,单颗2000 TOPS,2025年就会在一些新车上量产。国内的芯片像地平线征程6达到560 TOPS,虽然和英伟达还有差距,但考虑到价格和供应链自主性,不少国内车企在用。黑芝麻的A2000芯片也到了196 TOPS,在商用车和低端乘用车市场有一定份额。算力提升带来的好处是可以跑更复杂的模型,处理更多传感器数据,决策延迟也能降下来。特斯拉自研的FSD芯片虽然只有144 TOPS,但因为是定制化设计,专门优化了神经网络推理,实际性能不比Orin差。

679c89593fec4e63976c0c9127a55a34

车云协同是解决算力瓶颈的重要方向

单车智能再强也有上限,很多复杂的计算任务比如大模型训练、仿真测试、路径优化这些,不可能都在车上完成。所以现在的技术架构是车端负责实时感知和快速决策,云端负责训练模型、更新算法、处理海量数据。小鹏的XNGP系统是个典型案例,他们每天从全国的车队收集数亿公里的行驶数据,上传到云端进行标注和训练,然后通过OTA把新模型推送到车上。这种模式下,车队规模本身就是竞争力,车越多数据越多,模型迭代越快,形成正向循环。华为的”车云一体”方案更进一步,云端不只是训练模型,还提供实时的路况信息、最优路径规划、甚至在特殊情况下远程接管车辆。这种”云代驾”模式在Robotaxi场景特别有用,遇到车辆自己处理不了的情况,比如复杂施工路段,可以请求云端的人类操作员远程操控通过,然后记录这次操作数据用于后续训练。不过车云协同也带来了新问题,对网络连接的要求很高,要保证低延迟和高可靠性,而且数据安全和隐私保护也是挑战,用户的驾驶数据上传到云端,如何防止泄露是必须解决的问题。

商业化落地方面,Robotaxi无人出租车是最激进的应用场景

也是验证自动驾驶技术成熟度的试金石。Waymo现在是全球领先的,他们在旧金山和凤凰城的运营已经完全去掉了安全员,车里没有人,用户通过APP叫车,车自己开过来,送到目的地。根据公开数据,Waymo每周完成超过10万次订单,运营时间覆盖7×24小时,包括夜间和高峰时段。实际乘坐体验还不错,开车风格比较保守,但基本不会让人感觉不安全。不过成本还是太高,Waymo一辆车的硬件成本估计要20万美金以上,加上运维、充电、清洁这些,每英里成本还是比人类司机贵。他们的策略是先在限定区域内做到技术领先,积累足够多的运营数据和口碑,然后等硬件成本下降再大规模扩张。国内的百度萝卜快跑进展也挺快,在武汉、深圳、重庆等城市开展全无人化运营,累计订单已经超过600万次。他们用的是阿波罗Moon车型,硬件配置比Waymo简单一些,成本也低不少,单车成本据说已经降到了25万人民币左右。萝卜快跑的优势是中国的道路环境更复杂,如果能在武汉这种电动车横行、路况混乱的城市跑起来,技术鲁棒性会更强。但他们目前还主要在特定区域运营,还没有实现全城无限制开放。

Cruise的案例值得特别说一下,作为通用旗下的自动驾驶公司,Cruise在2023年是风光无限,在旧金山拿到了全无人运营许可,准备大干一场。结果去年10月发生了一起事故,一个行人被另一辆车撞倒后,又被Cruise的无人车拖行了一段距离,虽然主要责任不在Cruise,但这个事情引发了巨大争议。加州监管部门吊销了Cruise的运营许可,通用随后暂停了所有的Robotaxi业务,进行全面安全审查。这个事情说明自动驾驶技术再先进,只要出了事故就是100%的责任,社会容忍度远低于人类驾驶员。而且Cruise暴露出来的问题不只是技术,还有对事故的处理方式,他们最初没有如实向监管部门报告拖行的细节,导致信任度严重受损。现在Cruise正在重组,砍掉了大量员工,战略方向也在重新评估。这个案例给整个行业敲响了警钟,技术只是一方面,安全冗余、测试验证、危机应对这些同样重要。

522fdb8daff2ac2ab9238966cb5dbdae

量产车的高速NOA功能已经相对成熟,这是目前普通消费者能真正用上的自动驾驶功能。高速公路环境相对简单,车道线清晰,没有行人和非机动车,车速虽然快但都是同向行驶,预测起来容易很多。理想的L系列车型,高速NOA使用率已经超过50%,意味着一半以上的高速驾驶时间用户愿意开启自动驾驶。蔚来的NOP+覆盖了全国的高速路网,小鹏NGP累计行驶里程超过10亿公里,这些都证明高速NOA技术已经通过了大规模验证。实际体验下来,高速上的自动变道、超车、跟车基本达到了人类驾驶员的水平,甚至某些方面比人更平稳,因为AI对车距、速度的控制更精确。但上下匝道还是个难点,特别是一些匝道比较短、需要连续变道的情况,系统容易处理不过来,需要人接管。还有就是大货车加塞、施工路段封闭车道这些突发情况,系统的应对有时候会比较迟疑,不如人类驾驶员果断。不过总体来说,高速NOA已经可以大幅降低驾驶疲劳度,尤其是长途驾驶,这个功能的价值是实实在在的。

城市NOA是2024-2025年度最大的技术突破,难度比高速NOA高了不止一个量级。城市环境太复杂了,红绿灯、路口、行人、非机动车、临时变道、违章停车、施工围挡,每一个都是挑战。华为ADS 2.0在这方面确实做得不错,他们宣称可以实现”全国都能开”,不依赖高精地图。实际测试下来,在深圳、上海这些一线城市,系统确实能够处理大部分情况,红绿灯识别准确率99%以上,无保护左转成功率也能达到95%以上。但遇到一些极端情况还是会出问题,比如电动车突然变道插队,系统会紧急制动,动作比人类驾驶员更急,有时候坐着会不太舒服。还有就是在一些小路口,交通标识不清楚或者没有的情况,系统会变得很保守,宁可多等一会也不敢走,这时候人类驾驶员其实可以根据经验判断能通过。特斯拉FSD V12在北美城市的表现也不错,尤其是湾区这种复杂环境,处理起来比较从容。但右转让行人这块,系统现在调得太保守了,有时候行人离得还很远就开始减速等待,影响通行效率。小鹏的城市NGP正在快速迭代,他们的优势是中国用户的反馈很及时,系统改进速度快,现在已经可以在很多二三线城市使用,不只是一线城市。

安全冗余设计是高等级自动驾驶的基础要求

这个话题听起来枯燥但极其重要。自动驾驶系统比人类驾驶员对安全的要求高得多,因为机器不能出错,出错就是系统性问题。硬件冗余是最基本的,比如传感器要有备份,一个摄像头坏了,其他的能顶上;计算平台要有双芯片甚至三芯片,一个算力模块故障了,另一个立刻接管;制动系统要有独立的冗余,电子制动失效了,机械制动能紧急刹停。奔驰的Drive Pilot是全球第一款获得L3认证的量产车,它的硬件冗余做得最完善,双转向系统、双制动系统、双电源系统,保证任何单点故障不会导致系统完全失效。软件冗余也很重要,比如感知算法要有多种备份方案,视觉识别失败了,激光雷达能顶上;决策算法要有fallback机制,主算法输出异常时,备用的简单算法保证车辆能安全停下来。除了硬件和软件冗余,功能降级策略也是关键,系统发现自己处理不了的情况,要能平滑降级,给驾驶员足够的反应时间接管,而不是突然撒手不管。这需要精心设计人机交互,提前多久提示、用什么方式提示、驾驶员多长时间没响应算失效,这些都要经过大量测试验证。

预期功能安全SOTIF是个容易被忽视但很致命的问题

这个概念说的是即使硬件不坏、软件没bug,算法也可能犯错,因为AI本质上是概率模型,不可能100%准确。历史上发生过几起严重的自动驾驶事故,都是因为算法识别失败,比如特斯拉的早期版本曾经把白色货车误认为天空,因为训练数据里白色车辆侧翻的场景太少了;还有把路边广告牌上的车道线图案误认为真实车道线,导致车辆偏离。解决SOTIF的关键是海量场景测试,把各种极端情况都覆盖到,这需要百亿公里甚至千亿公里级别的仿真测试加实际路测。Waymo公开的数据显示,他们在仿真环境里跑了几百亿英里,相当于人类驾驶几千年的经验。另一个重要技术是Out-of-Distribution检测,让AI能识别自己不确定的情况,比如遇到训练数据里从没见过的物体,系统知道自己识别不了,就降级处理或者请求人类接管,而不是瞎猜。这个技术现在还在研究阶段,难度很大,因为不确定性本身就很难量化。人机共驾的接管策略也很有讲究,提前多久提示驾驶员接管,用什么方式提示,如果驾驶员不响应怎么办,这些都需要大量的用户研究和测试。特斯拉因为接管时间太短导致事故的案例不少,现在他们把提示时间延长了,还增加了方向盘震动这种更强烈的提醒方式。

各国政策法规差异对自动驾驶发展影响很大

这是个很现实的问题。美国总体上相对开放,联邦层面没有统一的自动驾驶法规,主要由各州自己决定,加州、亚利桑那这些州允许完全无人车上路测试,但也有一些州限制比较严。Cruise的事故发生后,NHTSA(美国国家公路交通安全管理局)加强了监管,要求所有自动驾驶公司报告事故和接管数据,透明度提高了很多。中国采取的是试点先行、逐步推广的策略,北京、上海、深圳、武汉这些城市开放了测试,但大部分Robotaxi还是要求配备安全员,只有在特定区域才允许完全无人。2024年开始,中国正式允许L3级自动驾驶上高速,这是个重大突破,意味着量产车可以实现有条件的自动驾驶,驾驶员在某些情况下可以完全不管车。欧洲最谨慎,L3级需要通过非常严格的型式认证,整个流程要好几年,奔驰是目前唯一获得认证的量产车。欧洲对数据隐私保护要求极高,GDPR法规限制了很多数据收集和使用,这对需要海量数据训练的自动驾驶来说是个挑战。日本的策略比较独特,他们更重视V2X车路协同技术,在基础设施上投入更多,比如路口安装传感器、信号灯联网,辅助车辆决策。日本还在一些偏远地区推进无人巴士,解决老龄化社会的出行问题,这个方向挺有意思的。

技术挑战和未来方向方面,Corner Case长尾场景处理仍然是最大难题

自动驾驶系统在常见场景下表现已经很好了,但总有些罕见情况处理不好。比如路面上一个漏气的气球在滚,到底要不要躲?轧过去没事,但如果躲的话可能影响其他车。再比如前方有个人推着梯子横穿马路,系统能正确识别吗?这种场景在训练数据里可能只有几个样本,模型很难学到。解决长尾问题没有银弹,只能靠持续积累数据、改进算法、增加冗余。有些公司在搞合成数据生成,用AI制造各种极端场景的训练数据,但效果还有待验证。恶劣天气适应性也是个大问题,大雨、大雪、沙尘暴这些情况下,摄像头和激光雷达性能都会大幅下降,现在主要靠毫米波雷达顶着,但精度不够。未来可能需要新的传感器技术,比如太赫兹雷达、量子雷达这些还在实验室阶段的东西。多车协同和车路协同是长期方向,单车智能再强也有上限,如果车和车之间、车和路侧设施之间能实时通信,共享感知数据,系统的决策会更准确更安全。中国在车路协同方面投入比较大,很多城市在建智能路侧单元,但标准不统一、建设成本高,短期内很难大规模部署。

3e8d8705d79c060c15cc570bf214f2b6

成本下降和产业链成熟是商业化的关键

现在自动驾驶系统的成本还是太高了,一套完整的L3-L4级系统,硬件成本可能要几万到十几万人民币,这对于十几二十万的车来说,占比太高了。随着激光雷达、芯片这些核心部件的量产规模扩大,成本会快速下降。国产激光雷达现在已经降到了几千元一颗,虽然线数少一些,但对于量产车来说够用了。芯片方面,国产替代进展很快,地平线、黑芝麻这些公司的产品在逐步上车,价格比英伟达便宜不少。软件算法的开发成本也在降低,因为有了更多的开源工具和预训练模型,不需要从头开始开发。产业链分工也在细化,有专门做传感器的、做芯片的、做算法的、做测试的,整车厂可以像搭积木一样组合,不用什么都自己干。特斯拉是个例外,他们坚持全栈自研,从芯片到算法到数据标注工具全部自己做,这样效率更高,但对技术能力要求极高,普通车企学不来。更现实的路径是像华为、小鹏这样,核心算法自己掌握,硬件部分外采或者合作开发。

保险和法律责任问题也需要解决,L3级以上的自动驾驶,如果出了事故责任归谁?是车主、车企还是软件供应商?现在各国还没有明确的法律框架,这也限制了技术的大规模应用。奔驰在推Drive Pilot时承诺,开启L3模式时如果发生事故,责任由奔驰承担,这是个很大胆的决定,也倒逼他们把系统做得更可靠。总的来说,全球自动驾驶技术在2024-2025这两年取得了突破性进展,但离真正的L4-L5级完全自动驾驶还有不小距离。高速和城市的辅助驾驶已经比较成熟,能实实在在提升驾驶体验。Robotaxi在限定区域运营也初步成功,证明技术可行性。但要实现全场景、全天候、无安全员的完全自动驾驶,可能还需要5-10年时间。技术上的挑战还很多,法规和商业模式也在探索中。不过趋势是明确的,自动驾驶一定会实现,只是时间早晚的问题。对于普通消费者来说,未来几年能用上的主要还是L2+到L3级的辅助驾驶功能,真正的无人驾驶可能要到2030年前后才能普及。但这个过程中会有很多创新涌现,整个汽车产业也在重构,还是很值得期待的。

文章转载自:https://www.key-iot.com.cn/drive/776.html



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客