ICC訊 在巴黎舉行的VivaTech 2025科技大會上,Meta首席AI科學家Yann Le Cun勾勒出一份實現高級機器智能(AMI)的雄心勃勃路線圖,其核心是基于視頻預測模型V-JEPA V2。該模型旨在解決AI面臨的三大核心挑戰:理解物理世界、推理和規劃。
"V-JEPA是首個能真正學習物理世界運行規律的系統之一,"Le Cun表示。與早期試圖在像素級別預測視頻幀的方法不同,V-JEPA通過預測視頻內容的抽象表征來學習,這種自監督學習方式被Le Cun描述為取得突破的關鍵。
與大型語言模型(LLM)不同,視頻預測在確定性預測方面一直存在困難。"直到最近,這方面都算是失敗的,"他坦言。
V-JEPA V2在完成表征層面的視頻內容預測訓練后,將進入第二階段:世界建模。該模型能預測世界狀態如何隨著想象的行為而演變,使系統能夠預判結果并做出相應規劃。"系統可以想象一系列動作的后果,"Le Cun解釋道。Meta已將該模型應用于規劃機械臂動作,如抓取物體或開門,而無需進行特定任務訓練。
Le Cun特別區分了V-JEPA與生成式AI的不同:"V-JEPA架構不是生成式架構,因為它們不試圖重建或預測訓練所基于的世界。它們學習的是抽象表征,并在該抽象表征空間中進行預測。"他指出,大型語言模型缺乏這類內部世界模型,"它們基本上是盲目地基于訓練內容進行規劃或生成。"
不過,Le Cun也承認大型語言模型在代碼生成等領域的實用性。"它們很有用。我們也在研究它們,但這屬于短期工作。Meta的基礎AI研究團隊(FAIR)總是比當前AI潮流領先三到十年。"
在人工智能理論方面,Le Cun明確否定了"通用人工智能"(AGI)這一術語。他認為人類智能本質上是專業化的:"很遺憾地說,人類智能一點也不通用。我們比大多數動物稍微通用一些,但某些動物在某些領域比我們更聰明,當然計算機在某些任務上表現也比我們更好,這意味著我們在某種程度上是專業化的。"
為此,Le Cun提出了Meta內部使用的術語:人工超級智能(ASI)和高級機器智能(AMI)。"超級智能并不意味著通用,"他強調,"它只是在某些領域比人類略強。"Meta的長期計劃是開發"與人類一樣聰明甚至更勝一籌"的AI助手。AMI藍圖聚焦于能夠理解物理世界、具備常識、擁有持久記憶、能推理規劃且安全可控的系統。
關于超級智能的本質,Le Cun以已在國際象棋、撲克和路線規劃等特定領域超越人類的AI系統為例。他將AI的未來定位為"增強智能",人類將獲得在某些任務上更聰明的AI助手支持,如同擁有虛擬專家團隊。"與比你聰明的人或機器共事能帶來賦能,"他說。
Le Cun設想未來將出現具有用戶知識和偏好心理模型的智能代理系統。"這些系統將建立關于我們已知什么、未知什么、能消化什么信息、可能對哪類信息感興趣的心理模型,"他表示。這類系統將能規劃復雜行動,如預訂旅行或管理家庭設備。
未來幾個月,Meta計劃擴大訓練規模,將V-JEPA應用于更廣泛場景,并改進訓練方法。"我們可以用這些模型為機器人規劃簡單動作,"Le Cun說。團隊還在探索更有效的V-JEPA架構訓練方法和分層規劃改進方案。
以紐約到巴黎的旅行為例,Le Cun說明了規劃面臨的挑戰:從預訂航班到開門走向電梯,需要在不同抽象層面進行規劃。"我們還不能規劃很長的動作序列,"他坦言,"對于需要多個動作的復雜任務,我們需要分層規劃,這完全是個未解難題。我們尚不知道如何用AI系統實現...我們有些想法,但仍處于研究階段。"
被問及如何解決這些問題時,Le Cun回答:"我們聘請聰明人才,并努力說服他們這是值得研究的有趣問題。"他強調跨學科合作的重要性,特別是對于需要應用數學見解的分層規劃等問題。"這是科學問題,不是技術開發問題,"Le Cun說,并強烈呼吁開源合作。"我們需要匯集科學界、學術界、其他公司和公共研究機構中可能對此有所貢獻的所有人才。這就是為什么我們需要實踐開放研究。我們開源代碼,V-JEPA V2就是開源的。"
關于超級智能的發展進度,Le Cun給出了謹慎預測:"如果一切順利,如果我們設想的所有技術都奏效,并且在開發過程中只遇到常規困難,我們將在三年內較好地掌握這類V-JEPA方法。"他預計五年內將看到能夠理解物理世界的初步成果或原型系統,可能達到"貓或老鼠的水平"。之后他設想系統將具備規劃能力,不僅在基礎物理世界層面,還包括某些抽象領域,可能與語言、數學或幾何相關。"我們終將達到人類智能水平,但這肯定比我們想象的更難,"他表示。
"大約五年內,我們將開始看到這方面更具體的應用,"Le Cun補充道。
新聞來源:訊石光通訊網