偉景智能的目標是在2025年前實現低成本,可量產的人形機器人產品,并利用其硬件本體的技術專利布局與軟件控制與算法,在2025年前將人形機器人成本控制在15萬元人民幣以內。偉景智能認為,人形機器人必備條件包括:自主操作、自學習、真正實用以及連接未來。目前,一些人形機器人試圖開發語音交互指令,將大型語言模型(LLMs)和視覺-語言模型(VLMs)作為高級規劃器被融入機器人控制系統。然而,直接將它們用于低級控制仍存在許多問題。絕大多數 VLMs 是在靜態圖像-語言配對上訓練的,而機器人任務需要閉環控制的視頻理解。如果有一家公司能夠提供前端視覺認知方案,實現輕量級端側計算,并具備實時VLMs處理能力,那么這家公司很有可能改變人形機器人技術的發展方向。偉景智能就是這樣一家專注于機器人視覺領域的公司。▍人形機器人的核心在于利用先進的視覺系統提升其自主操作性在過去的一年中,人形機器人視覺技術領域呈現了多方競爭的局面。特斯拉的Optimus采用了8攝像頭的純視覺解決方案,結合Dojo芯片進行圖像算法處理,配合其電動汽車上的FSD技術,實現了對不同物體和環境信息的理解和處理。小米的Cyber One則采用了相對成本較低的iToF模組和RGB模組進行視覺定位,盡管這種方式成本較低,但精度較低,無法完成精細化操作。波士頓動力Atlas電液混驅版本和宇樹科技的Unitree H1則采用ToF深度相機與激光雷達方案,但這種技術方案通常需要在恒定光源條件下進行。然而,面對室外強光和反光環境,這種方案在一定程度上限制了其綜合運動能力。在這一領域,偉景智能采用了一種全新的設計理念。公司CEO董霄劍認為,一個真正具備智能自主操作系統的人形機器人必須具備高度的感知和認知能力。這不僅要求機器人能夠理解和處理三維空間信息,還需要其擁有類似于人類的立體視覺系統。目前,偉景智能的第二代人形機器人曉唯搭載了ViEye立體視覺系統。該系統的最大優勢在于低成本、可量產、高抗光、高精度,并且具備端側實時數據處理能力。董霄劍表示,自2016年起,偉景智能一直專注于3D立體視覺技術的開發,并率先開發了線激光+雙目立體視覺技術方案,成功應用于工業分揀與碼垛等領域。就研發而言,偉景智能的3D立體相機從硬件設計到軟件算法均由公司自行研發完成,并擁有以下核心技術優勢:優勢一:偉景的3D相機單個成像面像素數量可達600萬,是ToF技術方案的60萬的10倍,為人形機器人的精細化操作提供了廣闊的發展空間。未來,曉唯人形機器人將能夠通過高精度視覺系統完成如穿針引線的操作。優勢二:具備高抗光性,滿足人形機器人在各種場景下的作業需求。偉景ViEye立體視覺系統的抗光性達到18萬流明,遠超傳統結構光技術的8萬流明。這種高抗光性使得人形機器人可以應用于戶外強光場景。未來,結合強化學習和模仿學習技術。曉唯人形機器人將具備在復雜路面行走的能力。優勢三:曉唯人形機器人搭載的ViEye立體視覺系統包含頭部和胸部兩個單元,頭部相機具有廣視角操作能力,胸部相機則具有長焦操作能力。偉景相機的大景深范圍從500-4000mm,遠超傳統結構光技術的最大安裝距離2000mm。這意味著曉唯人形機器人在精細化操作方面具備了先決條件。優勢四: ViEye立體視覺系統的核心計算芯片由偉景智能自行研發,無需外部單元介入進行計算。這使得系統能夠處理每秒高達5000幀的實時數據,實現零延遲。這一特點在人形機器人的商業應用中至關重要。目前,曉唯人形機器人已實現了在轉身過程中移動手臂進行水果采摘的動作,而并非轉身動作完成后抬起手臂進行采摘。這一點對手眼伺服能力提出了極高的要求,即便是Figure 01目前也無法完成在運動狀態下的手眼伺服聯動操作,而偉景是全球唯一一家能夠實現高度精細化手眼伺服協同操作的人形機器人企業。▍偉景智能Natural Learning?為人形機器人植入視覺大腦在首屆中國人形機器人產業大會上,董霄劍作為演講嘉賓分享了偉景智能基于先前的應用案例打造的三種類型的認知庫,分別是場景認知庫、平面視覺認知庫和立體數據認知庫。這些認知庫不僅支持機器人對環境的認知,還為機器人的操作提供了必要的數據支持。通過共享這些認知庫,偉景智能的平臺能夠實現工業級和消費級產品的高效開發。
此外,董霄劍還公布了曉唯人形機器人自學習Natural Learning?技術路線,包括語音指令控制、動作規劃與學習、文字的學習與理解以及多模態交互幾大方向。
我們找到了美國Figure 01的技術路線,并與偉景智能Natural Learning?進行了對比發現,Figure 01采用了搭載Open AI Model LLM來驅動神經網絡決策產生,神經網絡則驅動機器人本體執行。雖然Figure 01具備一定的場景認知的泛化能力,但由于大語言模型目前無法實現人形機器人的本地化部署,因此部分數據需要接入云端,再由云端反饋轉化為動作執行命令,這導致了一定響應時間延遲。這也是為什么Figure 01每次對話都需要停頓2-3秒鐘的原因。偉景智能Natural Learning?采用了另一種技術路線,該技術路線弱化了云端計算能力,更強調前端的實時計算能力。由于ViEye立體視覺系統沒有延遲,因此不需要強大的本地計算來進行動作預測,這在一定程度上減輕了本地化數據的計算負擔。你可以將Natural Learning?看成集合了VLMs+LLMs的端側小模型,而曉唯人形機器人第二代的雙相機系統則是多端側小模型的協同作業,這套技術路線的優勢在于由于采用了前端計算,因此在命令的響應速度方面遠遠領先于Figure 01。早在2019年,偉景智能就設計出了第一代靈巧手原型產品,當時主要依靠電流進行運動控制。第二代靈巧手擁有了更加靈活的自由度設計,并且響應速度大幅提升。到今天,偉景智能推出的第三代靈巧手已經將壓力傳感器整合其中。與人類手部的匹配度達到90%相似度。董霄劍曾公開表示,人形機器人的關鍵在于如何解決手眼伺服協同作業能力。與立體視覺技術同樣重要的是手部的靈巧操作。正因為如此,偉景智能用了5年時間自研靈巧手的關鍵核心零部件,并取得了國家技術專利。目前,偉景智能的第三代靈巧手已能夠實現拿捏A4紙張,抓握筆寫字等功能。而目前主流的靈巧手僅能實現較大且具有辨識度的物體的抓取,如蘋果、香蕉、紙團或帶有顏色的馬克杯等產品。其技術瓶頸在于視覺精度不夠,僅依靠算法是無法完成人形機器人的精細化操作。偉景智能的ViEye立體視覺系統此前應用于工業場景,擁有亞毫米級別的精度設計,這從底層上保證人形機器人在精細化場景的操作優勢。
偉景智能靈巧手背部擁有手眼伺服Mark點,確保在手部運動過程中,能夠時刻在眼睛的控制下調整手臂前進的路徑與位置。這也是為何偉景智能需要大量精力自研靈巧手硬件的原因。如果僅采用偉景智能立體視覺系統,而使用第三方靈巧手技術方案,是無法實現良好的手眼配合協調控制的。與傳統機器人企業不同,偉景智能人形機器人的核心邏輯在于解決其立體視覺系統的高精度、高抗光以及前端免巨量GPU計算能力,同時配合自研的靈巧手,實現了一整套流暢的手眼伺服操作。具備在運動狀態下的實時計算與分析能力,在全球范圍內僅偉景智能一家企業擁有此項核心技術。偉景智能人形機器人的出發點在于制造真正可以商業落地的低成本、可量產的機器人。在其商業計劃中,首批人形機器人將于今年12月量產交付。與預期不同,首批產品并非定位于教育科研領域,而是專為采摘市場量身打造。偉景智能將在農業采摘領域進行運用性落地驗證,并在初步驗證通過后逐步向其他應用場景拓展。在人形機器人領域,這種清晰且完整的商業閉環鏈路似乎沒有幾家企業能夠真正做到。幾年前,董霄劍曾表示要徹底改寫3D立體相機市場格局。如今,偉景智能依靠其特有的線激光+雙目立體視覺技術路線,將智能焊接與拆碼垛領域的硬件價格降至2萬元以下,并提供免費軟件使用。3D立體相機市場的格局正在被重新改寫。寫在最后,筆者腦海中閃現出一個人,田中耕一,這位2002年諾貝爾化學獎獲得者既非科班出身,也并非化學世家,而是一位普通的日本職員。因在一次實驗中的失誤意外發現了生物大分子的質譜分析法而大獲成功,被視為“底層小職員的神奇逆襲”。有時候,技術的迭代并非按照線性秩序發展,也并非一定由圈內行業大佬開辟。破局者,往往從另一視角提供足以改變底層邏輯的創新驅動力。這一切又是否會在人形機器人產業發生呢?在人形機器人產業激戰正酣的當下,讓我們拭目以待。