文 | 周鑫雨
編輯 | 鄧詠儀
" 情感交互 " 正在成為機(jī)器邁向 AGI 的下一個(gè)戰(zhàn)場。
(資料圖片僅供參考)
近幾年隨著 AI 技術(shù)的迅速演進(jìn),機(jī)器學(xué)習(xí)的領(lǐng)域逐漸從文字、圖像、視頻等模態(tài),轉(zhuǎn)向更為復(fù)雜的情感識(shí)別。在情感識(shí)別技術(shù)發(fā)展下," 陪伴機(jī)器人 " 已發(fā)展為具有潛力的細(xì)分賽道。Precision Reports 數(shù)據(jù)顯示,2023 年全球陪伴機(jī)器人市場規(guī)模預(yù)估為 920311 萬美元,未來 5 年年復(fù)合增長率預(yù)計(jì)達(dá)到 25.68%。
成立于 2014 年,可以科技是 36 氪長期關(guān)注的機(jī)器人企業(yè)。其首款產(chǎn)品 ClicBot(可立寶)為可自由組裝構(gòu)型的模塊化機(jī)器人。ClicBot 好比可自由組裝成遙控車、機(jī)械臂、機(jī)械寵物等形態(tài)的機(jī)器人樂高,用戶可通過搭積木般的拼接以及功能程序編寫,DIY 具有不同功能的機(jī)器人。
在生成式 AI 技術(shù)逐漸成熟的當(dāng)下,可以科技的第二代產(chǎn)品、陪伴機(jī)器人 Loona 則將功能重點(diǎn)從樂高般的 DIY,轉(zhuǎn)移到了人機(jī)交互。36 氪曾有關(guān) Loona 的功能做過詳細(xì)的介紹。
Loona 與狗對(duì)視。圖源:可以科技可以科技創(chuàng)始人兼 CEO 楊健勃告訴 36 氪,Loona 的 " 寵物 " 形態(tài)來源于 ClicBot 中最受用戶歡迎的構(gòu)型。這一現(xiàn)象側(cè)面反映出,用戶對(duì)于機(jī)器提供類生命體的智能交互具有較高的需求," 我們想通過 Loona 打造下一代機(jī)器人智能決策機(jī)(Intelligent decision making machine)通過智能決策機(jī),可以讓機(jī)器人能夠通過多模態(tài)地信息流暢地表達(dá)情感,讓機(jī)器人真正懂人 "。而情感交互可以將機(jī)器人人機(jī)交互體驗(yàn)從 " 理解命令 " 提升到 " 懂你 ",讓機(jī)器人可以自由地表達(dá)情感。
Loona 被摸頭。圖源:可以科技想在機(jī)器人上實(shí)現(xiàn)智能情感交互,需要在感知、決策、執(zhí)行三個(gè)環(huán)節(jié)構(gòu)建完整的軟硬件系統(tǒng)。
作為建立人類情感模型的先決條件,高質(zhì)量的人機(jī)情感交互數(shù)據(jù)一直是稀缺資源。楊健勃告訴 36 氪,數(shù)據(jù)采集的難點(diǎn)主要有二:一是需要雙相交互,二是需要脫敏,不侵犯個(gè)人隱私。
為此,可以科技通過深度強(qiáng)化學(xué)習(xí)算法建立了一條從視覺感知、到生成式情感交互 AI 模型的通路。
在感知層,作為能夠 " 讀空氣 " 的寵物,Loona 的情感反饋來源于一整套復(fù)雜的視覺軟硬件系統(tǒng)。作為 " 眼睛 ",Loona 搭載的 3D-ToF 攝像頭等感知元件和算法可以實(shí)現(xiàn)人臉識(shí)別、身體檢測、動(dòng)態(tài)靜態(tài)手勢識(shí)別、人體骨骼識(shí)別、3D 動(dòng)作捕捉、物體識(shí)別、情感感知、寵物識(shí)別、場景識(shí)別、標(biāo)志識(shí)別等感知功能。
Loona 玩球。圖源:可以科技在決策層,在基于機(jī)器人收集到的脫敏交互數(shù)據(jù),可以科技將 Loona 的基于數(shù)據(jù)庫索引的交互模型轉(zhuǎn)換成了基于深度學(xué)習(xí)的 AI 模型,繼而則是通過 Loona 實(shí)機(jī)進(jìn)行強(qiáng)化學(xué)習(xí)。目前,Loona 擁有高日活躍率和持續(xù)提升的銷量,基于用戶反饋,Loona 的強(qiáng)化學(xué)習(xí)可以建立起數(shù)據(jù)飛輪。
在執(zhí)行層,基于以上兩環(huán)構(gòu)建的智能情感決策模型,可以科技正在研究一套實(shí)時(shí)交互生成系統(tǒng)。楊健勃介紹,以往 Loona 的情感表達(dá)采用的是由設(shè)計(jì)師提前設(shè)計(jì)的表情動(dòng)作和音效來表達(dá)。接入情感決策模型后,Loona 的表情、動(dòng)作和音效能根據(jù)用戶的交互實(shí)時(shí)生成,比如 Loona 的 " 眼球 " 能根據(jù)用戶的表達(dá)轉(zhuǎn)動(dòng),將交互周期從十幾秒縮短到毫秒級(jí)。未來,Loona 的實(shí)時(shí)交互系統(tǒng)還將持續(xù)升級(jí)。
Loona 與孩子一起玩耍。圖源:可以科技" 決策模型會(huì)顛覆掉 Loona 以往的交互方式。" 楊健勃對(duì) 36 氪表示," 指令和功能的概念會(huì)變得不重要,因?yàn)?Loona 能夠?qū)崟r(shí)理解人類的意圖,再自然地做出交互。"
而作為智能決策機(jī),楊健勃認(rèn)為 Loona 與寵物陪伴或人類陪伴并非替代關(guān)系,而是關(guān)系的有機(jī)補(bǔ)充," 生物的進(jìn)化有特殊的性能,目前 AI 側(cè)難以提供真實(shí)的感覺。但機(jī)器人的優(yōu)勢在于能夠從更多維度理解人且做出反饋,也更穩(wěn)定。相信它們將和寵物、人類有機(jī)共存。"
歡迎交流關(guān)鍵詞: