作者丨茯神 編輯丨九黎
生成式AI席卷全球的浪潮下,國(guó)內(nèi)的“百模大戰(zhàn)”經(jīng)歷了大力出奇跡的拼性能階段,正在邁入比落地、比應(yīng)用的場(chǎng)景化之爭(zhēng)。
手機(jī)上模仿ChatGPT而誕生的各類問(wèn)答助手,雖然能做到千人千面卻難免有些審美疲勞。相較之下,以不同形式的載體融入人們工作生活之中的智能硬件,尤其是異軍突起的具身機(jī)器人產(chǎn)品,更能彰顯人機(jī)共生的未來(lái)雛形。
從著名的莫拉維克悖論中可以看出,AI就像是一個(gè)高智商的“偏科生”,想要給AI加入一點(diǎn)理性邏輯之外的情商,恰恰是最難的地方。目前,讓AI擔(dān)任一個(gè)有問(wèn)必答的助手或許已經(jīng)合格,那么如何再進(jìn)一步,使其搖身變成一位共同生活工作的伙伴,就需要在人機(jī)智能交互方面更深入地突破傳統(tǒng)。
作為中國(guó)人工智能產(chǎn)業(yè)的第一批探索者 ,科大訊飛在6月12日的智能交互產(chǎn)品升級(jí)發(fā)布會(huì)上,一口氣拿出了AIUI、機(jī)器人超腦、虛擬數(shù)字人和訊飛星辰四大全面 升級(jí)后的 開(kāi)發(fā)平臺(tái), 以賦能開(kāi)發(fā)出 更強(qiáng)的 智能軟硬件產(chǎn)品,聚焦 兒童教育、家庭娛樂(lè)、 辦公、人力和企業(yè)數(shù)字化等領(lǐng)域,發(fā)布 了 十大標(biāo)桿場(chǎng)景方案。
科幻感爆棚的展區(qū)內(nèi),100+黑科技新品仿佛被賦予了靈魂,與參展觀眾互動(dòng)交流談笑風(fēng)生。它們?cè)谥厮艽竽P蜁r(shí)代的智能交互范式上邁出一大步,讓每一個(gè)人距離變身為心中的“賽博浪客”又近了一些。
給工具加點(diǎn)“情商”
以語(yǔ)音方式進(jìn)行人機(jī)智能交互的大前提,必須建立在機(jī)器聽(tīng)得清且聽(tīng)得懂的基礎(chǔ)上。
傳統(tǒng)的語(yǔ)音交互技術(shù)在復(fù)雜環(huán)境下的收音識(shí)別、語(yǔ)義理解上,即使實(shí)現(xiàn)了極高的成功率,但一次失敗的體驗(yàn)就會(huì)讓用戶望而卻步。科大訊飛在語(yǔ)音技術(shù)領(lǐng)域深耕二十余年,更是深諳此道,2015年就發(fā)布的AIUI人機(jī)交互平臺(tái)正是其沉淀了多年的技術(shù)結(jié)晶,目前在其基礎(chǔ)上開(kāi)發(fā)運(yùn)行的終端設(shè)備數(shù)量已達(dá)到了22.5億。
沖破瓶頸的契機(jī),來(lái)自于AI大模型技術(shù)的應(yīng)用。全新的AIUI平臺(tái)以訊飛星火大模型為引擎進(jìn)行技術(shù)升級(jí),發(fā)布會(huì)上亮相的全雙工擬人交互方案,不僅能夠在嘈雜環(huán)境中精準(zhǔn)捕捉到有效指令,還賦予了硬件產(chǎn)品情緒識(shí)別、創(chuàng)意生成與深度語(yǔ)義理解等類人多模態(tài)能力。
比如存在多人的客廳場(chǎng)景中,搭載了AIUI技術(shù)方案的智能音箱,就可以一邊屏蔽掉非人聲的環(huán)境音影響,一邊識(shí)別到包含相關(guān)指令的語(yǔ)音內(nèi)容,并且會(huì)在用戶有遲疑、等待、附和時(shí)主動(dòng)延長(zhǎng)拾音;而從接收到反饋的端到端響應(yīng)僅需1.6秒,以此提供更高效、更具溫度的智能體驗(yàn)。
再放到愈發(fā)常見(jiàn)的智能眼鏡產(chǎn)品上,發(fā)布會(huì)現(xiàn)場(chǎng)科大訊飛演示了最新的 “ 三麥陣列降噪 ” 方案,專門為戶外移動(dòng)場(chǎng)景設(shè)計(jì)。在能夠聽(tīng)得更加清楚后,智能眼鏡在豐富的大模型能力加持下,游刃有余地在實(shí)時(shí)翻譯、專業(yè)導(dǎo)游、健康助理三重角色之間無(wú)縫切換,就像是一位同行的真人伙伴。
不過(guò),隨著智能硬件走進(jìn)兒童陪伴成長(zhǎng)的場(chǎng)景之中,語(yǔ)音交互又迎來(lái)了“童言童語(yǔ)”的挑戰(zhàn)。想要給玩具們施加一道 “ 活過(guò)來(lái) ” 的魔法,需要針對(duì)幼兒發(fā)音模糊、疊字代替正常詞匯、重復(fù)表達(dá)信息等常見(jiàn)特征,進(jìn)行特定方向上的強(qiáng)化訓(xùn)練。
為此,科大訊飛兒童群體首發(fā)推出兒童專屬交互方案。一方面專攻邏輯跳躍、音字不準(zhǔn)的識(shí)別,另一方面不忘情緒信號(hào)與認(rèn)知邏輯的匹配,在懂孩子的同時(shí)還能積極回應(yīng)、引導(dǎo)孩子的情緒。雙方的對(duì)話內(nèi)容聽(tīng)起來(lái)不再像兒童對(duì)玩具的發(fā)號(hào)施令,而更像是兩個(gè)玩伴間的親密互動(dòng)。
另外,在內(nèi)置了孫悟空等經(jīng)典IP和海量嚴(yán)選內(nèi)容生態(tài)之余,科大訊飛還推出了適用于多種場(chǎng)景的玩具開(kāi)發(fā)套件,如 毛絨玩具 、 IP潮玩 、桌面機(jī)器人等。發(fā)布會(huì)現(xiàn)場(chǎng)由幾位寶爸參加的一個(gè)60分鐘極速開(kāi)發(fā)挑戰(zhàn),足以證明了低門檻低成本的平臺(tái)價(jià)值。
讓機(jī)器人“開(kāi)口”
智能音箱、智能眼鏡和兒童玩具,都屬于消費(fèi)級(jí)的智能語(yǔ)音交互場(chǎng)景,而科大訊飛的 情懷 少不了對(duì)產(chǎn)業(yè)側(cè)的賦能。最近風(fēng)頭正勁的具身智能機(jī)器人賽道,自然成了不二之選。
今年春晚上,扭秧歌火出圈的宇樹(shù)機(jī)器人已經(jīng)家喻戶曉。同樣由其出品的宇樹(shù)G1,在登上 此次科大訊飛智能交互產(chǎn)品升級(jí) 發(fā)布會(huì)的舞臺(tái)時(shí),一邊揮舞金屬手臂一邊 “開(kāi)口” 歡快地跟觀眾打招呼,再度令人驚艷了一把。其中的奧秘,竟然只藏在了機(jī)器人背后一個(gè)書包模樣的盒子中。
這款屬于訊飛機(jī)器人超腦平臺(tái)上的全新技術(shù)方案“智能語(yǔ)音背包”,可以即插即用無(wú)需改造硬體,就像在U盤里藏了一位“腹語(yǔ)師”,隨時(shí)隨地接入即可打通運(yùn)動(dòng)控制和業(yè)務(wù)邏輯。
讓機(jī)器人即時(shí)“開(kāi)口”還只是前菜。宇樹(shù)G1隨后在現(xiàn)場(chǎng)打起了不屬于秧歌舞的太極拳,做著一板一眼的動(dòng)作同時(shí),還能 插科打諢 配合 演示人員 說(shuō)上幾句有梗的笑料,對(duì)于活動(dòng)氛圍的調(diào)動(dòng)不可謂不老練。這秒變社交達(dá)人的背后,就是訊飛超腦2030技術(shù)底座的發(fā)力。
2022年就推出的機(jī)器人超腦平臺(tái),本質(zhì)上是為了給 機(jī)器人打造 一個(gè)能聽(tīng)會(huì)說(shuō)、能理解會(huì)行動(dòng)的 中樞系統(tǒng) ,已經(jīng)成為500多家機(jī)器人客戶的共同選擇。如今在融合了視聽(tīng)感知交互能力與基于大模型的機(jī)器人大腦,構(gòu)建出“端-云協(xié)同”的AI架構(gòu)。
在端側(cè),超腦平臺(tái)可以提供多模態(tài)降噪、人臉識(shí)別、物體檢測(cè)、端側(cè)大模型等本地感知與計(jì)算能力;在云端,依托語(yǔ)音大模型與具身智能技術(shù),就能實(shí)現(xiàn)“察言觀色”的類人化交互與復(fù)雜任務(wù)理解。
比如在 常見(jiàn) 的工廠巡檢場(chǎng)景中, 工業(yè) 機(jī)器人 需要 自動(dòng)巡查設(shè)備運(yùn)行狀態(tài),發(fā)現(xiàn)異常及時(shí)上報(bào)。而在檢測(cè)設(shè)備故障、識(shí)別安全隱患的過(guò)程中,就 必須依賴 語(yǔ)音 、 人像、物體等 多 模態(tài)的識(shí)別、認(rèn)知和判斷 能力 。
再看 服務(wù)機(jī)器人領(lǐng)域,智元機(jī)器人旗下的遠(yuǎn)征A2人形機(jī)器人 , 在訊飛超腦的 賦能 下 搖身一變 為4S店迎賓機(jī)器人,既做到對(duì)顧客主動(dòng)感知、主動(dòng)迎賓,又能結(jié)合專業(yè)汽車知識(shí)庫(kù)提供車型參數(shù)問(wèn)詢、促銷活動(dòng)講解,還可以基于大模型進(jìn)行趣味互動(dòng),為顧客提供具有科技感的購(gòu)車和交付體驗(yàn)。
人形機(jī)器之外,普及更廣的四輪、雙足、輪式機(jī)器人等產(chǎn)品形態(tài),訊飛超腦平臺(tái)都提供了定制化的交互方案。而當(dāng)遇到所有機(jī)器人都最怕的斷網(wǎng)或弱網(wǎng)環(huán)境, 訊飛離線交互套件 也可以 一鍵解決,讓所有交互、識(shí)別都在端側(cè)完成 。
科大訊飛為了加速對(duì)機(jī)器人產(chǎn)業(yè)的賦能進(jìn)程,“ 具身智能訓(xùn)練一體機(jī) ”也應(yīng)運(yùn)而生,將數(shù)據(jù)采集、訓(xùn)練推理等一系列復(fù)雜過(guò)程,集成到一臺(tái)機(jī)器上全部完成。
做最全面的AI
發(fā)家于語(yǔ)音合成技術(shù),在“百模大戰(zhàn)”中脫穎而出的科大訊飛,爭(zhēng)的不是流水之先,而是滔滔不絕。被AI大模型浪潮催生出的虛擬人和智能體兩大風(fēng)口,同樣成為其四大開(kāi)發(fā)平臺(tái)中的砥柱。
大會(huì)現(xiàn)場(chǎng),訊飛開(kāi)放平臺(tái)總經(jīng)理趙艷軍通過(guò)照片和語(yǔ)音生成的數(shù)字分身,竟絲滑流暢地接管了舞臺(tái)演示,讓人感受不到一絲違和。呈現(xiàn)在帶移動(dòng)底座的55寸OLED透明屏上的數(shù)字人“小雨”,可以按照提前制作好的動(dòng)線自主移動(dòng),不管是面對(duì)工作人員還是臨時(shí)嘉賓,都能隨機(jī)應(yīng)變對(duì)答如流,近乎完美地承擔(dān)了導(dǎo)覽職責(zé)。
與電商平臺(tái)上應(yīng)用頗多的數(shù)字人主播不同,科大訊飛的虛擬人交互平臺(tái) 依托領(lǐng)先的多模態(tài)感知與生成技術(shù), 正在掀起一場(chǎng) 數(shù)字人構(gòu)建的 “ 極簡(jiǎn)革命 ”。
輸入 一句 錄音 、 上傳 一張 圖片,用戶即可 生成 專屬的 數(shù)字分身 。 這種 “ 分鐘級(jí) ”的 創(chuàng)建 效率才能填平普通大眾面前的技術(shù)鴻溝 。 也正是得益于此, 平臺(tái) 上 已積累超 過(guò) 100萬(wàn)的聲音復(fù)刻用戶,超 過(guò) 10萬(wàn)的數(shù)字分身資產(chǎn) ;還深度賦能了媒體、教育、文旅、金融、政務(wù)等千行百業(yè),并獲得了信通院L5等級(jí)認(rèn)證。
面向智能體方向的星辰Agent,則是低門檻一站式的大模型精調(diào)與智能體構(gòu)建平臺(tái),在全棧自研的星火大模型之外,還廣泛兼容DeepSeek等業(yè)界主流的開(kāi)源大模型,進(jìn)一步助力企業(yè)高效構(gòu)建專屬大模型和智能應(yīng)用。
而針對(duì)解決模型貼合場(chǎng)景需求的星辰MaaS,通過(guò)一站式精調(diào)工具鏈將行業(yè)數(shù)據(jù)轉(zhuǎn)化為專屬模型。在與Agent的協(xié)同下,二者可以打造出“模型精調(diào)-智能體開(kāi)發(fā)-場(chǎng)景落地”的閉環(huán)生態(tài)。
依托于此,一系列聚焦于辦公、人力、企業(yè)數(shù)字化場(chǎng)景的智能產(chǎn)品服務(wù)被開(kāi)發(fā)出來(lái)。 升級(jí)后的訊飛智文從PPT工具拓展為智能文檔平臺(tái) ; 訊飛繪文和訊飛繪鏡則可以幫助新媒體崗位 一站式 快速完成選題、圖文、視頻等內(nèi)容創(chuàng)作的 范式 ;星火紀(jì)要、星火陪練、星火快答、星火投標(biāo) 、訊飛智聘 等 針對(duì) B端 的 應(yīng)用,從多個(gè)方面 全方位地 賦能企業(yè)智能化,提升運(yùn)營(yíng)效率。
不難發(fā)現(xiàn),科大訊飛幾乎沒(méi)有錯(cuò)過(guò)任何一個(gè)AI大模型落地場(chǎng)景的可能性。據(jù)數(shù)據(jù)機(jī)構(gòu)Xsignal奇異因子統(tǒng)計(jì),僅在C端方向上,科大訊飛就覆蓋了11個(gè)核心賽道,共計(jì)有27款A(yù)I應(yīng)用通過(guò)APP和Web端全面鋪開(kāi);在To B和To G市場(chǎng)上更是領(lǐng)跑同行,數(shù)據(jù)顯示其累計(jì)中標(biāo)項(xiàng)目已超130個(gè),總金額突破14億元。
從15年前業(yè)界首個(gè)語(yǔ)音云的發(fā)布,到AIUI、機(jī)器人超腦等平臺(tái)的相繼問(wèn)世,科大訊飛終于在大模型時(shí)代以星火大模型為核心,將各項(xiàng)語(yǔ)音智能技術(shù)融會(huì)貫通聚沙成塔。一棵代表人機(jī)智能交互的生態(tài)大樹(shù)拔地而起,這一片最全面的AI森林也愈發(fā)郁郁蔥蔥。