中新網(wǎng)北京12月22日電(記者 吳家駒)近年來,我國具身智能產(chǎn)業(yè)迎來快速發(fā)展,并屢屢引起關(guān)注。具身智能有哪幾條發(fā)展路徑?未來需要進(jìn)一步攻克哪些技術(shù)難點(diǎn)?
近日,在第十八屆中國工業(yè)論壇上,北京航空航天大學(xué)機(jī)器人研究所名譽(yù)所長、智友·雅瑞科創(chuàng)平臺發(fā)起人、中關(guān)村智友研究院院長王田苗,就相關(guān)問題進(jìn)行解答。
王田苗表示,未來,一切數(shù)據(jù)將被AI激活,一切認(rèn)知與決策將被AI參與,一切設(shè)備將被AI賦能,一切軟件將被AI重構(gòu)。而具身智能,作為連接物理世界與數(shù)字世界的橋梁,正成為驅(qū)動社會進(jìn)化核心的科技變量。
在他看來,具身智能有三條發(fā)展路徑。
第一條路徑是“大腦優(yōu)先”通用暴力派。效仿大語言模型(LLM)的成功路徑,首先構(gòu)建一個巨大的、基于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)和仿真訓(xùn)練的通用基礎(chǔ)模型,然后將其部署到通用的類人硬件上。
這一路徑的優(yōu)勢是極高的泛化能力,理論上一個模型可以學(xué)會任何任務(wù)。劣勢是存在“仿真到現(xiàn)實(shí)”的鴻溝,能夠理解莎士比亞的AI,卻可能因?yàn)槟Σ亮5奈⑿≌`差而無法完成一個簡單的插銷組裝動作。此外,端到端模型的“黑盒”特性在工業(yè)認(rèn)證上是巨大的挑戰(zhàn),成本巨大,周期很長。
第二條路徑是“身體優(yōu)先”改良派。從傳統(tǒng)機(jī)器進(jìn)化到嵌入垂類大腦,在現(xiàn)有成熟工業(yè)機(jī)械臂集成突出競爭優(yōu)勢的基礎(chǔ)上,增加AI視覺感知層和力控算法。保持底層的確定性控制回路,感知層面引入AI。
這一路徑的優(yōu)勢是具備現(xiàn)有的大量客戶與信任關(guān)系,保障極高的可靠性和龐大的存量市場。劣勢是會陷入局部最優(yōu),特別是當(dāng)遷移到其他工業(yè)、商業(yè)、消費(fèi)領(lǐng)域時,無法處理真正的開放世界任務(wù)或未預(yù)定義的變異。
第三條路徑是新勢力“垂直智能體”務(wù)實(shí)派。借鑒自動駕駛的技術(shù)架構(gòu),利用BEV(鳥瞰圖)感知、占用網(wǎng)絡(luò)和預(yù)測規(guī)劃算法,構(gòu)建針對特定高價(jià)值垂直場景(如:汽車總裝、物流等)的機(jī)器人,并采用“通用大腦”(高層推理)+“專家模型”(底層小腦/運(yùn)動控制)的混合架構(gòu)。
這一路徑的優(yōu)勢是平衡了泛化性與可靠性。劣勢則是競爭十分激烈,取決于實(shí)控人對應(yīng)用場景核心痛點(diǎn)的深刻理解與產(chǎn)品設(shè)計(jì)。
“這三種發(fā)展路徑都存在爆發(fā)性的成長機(jī)遇?!蓖跆锩邕M(jìn)一步表示,具身智能要實(shí)現(xiàn)從演示到日常使用的跨越,迫切需要攻克制約產(chǎn)業(yè)爆發(fā)的三個核心技術(shù)難點(diǎn)。
一是要突破仿真到現(xiàn)實(shí)的泛化鴻溝,機(jī)器人在虛擬環(huán)境中可以經(jīng)過數(shù)億次訓(xùn)練學(xué)會完美抓取,但一旦部署到物理世界,光照變化、物體材質(zhì)摩擦系數(shù)的微小差異、傳感器噪聲等都會導(dǎo)致任務(wù)失敗。而物理世界的數(shù)據(jù)采集機(jī)器昂貴,如果不能在仿真中高效訓(xùn)練并遷移,機(jī)器人就無法應(yīng)對現(xiàn)實(shí)世界的長尾場景。
二是要實(shí)現(xiàn)高自由度靈巧手。靈巧手決定了“操作”。進(jìn)入家庭做剝雞蛋、穿針等家務(wù),必須具備類似人手的觸覺反饋和多指協(xié)同能力。
三是提高端側(cè)算力與能效比,具身智能需要實(shí)時處理多模態(tài)數(shù)據(jù)(視覺、觸覺、聽覺),對延遲極度敏感。完全依賴云端大模型,會導(dǎo)致通信延遲并帶來安全隱患,而現(xiàn)有的端側(cè)芯片難以支撐大參數(shù)量模型的推理,且功耗過高會嚴(yán)重縮短機(jī)器人續(xù)航。
“未來,我們更應(yīng)該注重垂類應(yīng)用,以場景為王,只有這樣才能真正服務(wù)于實(shí)體經(jīng)濟(jì)?!蓖跆锩缯f。(完)