文|雷科技
大家平時有使用手機語音助手的習慣嗎?
作為人工智能技術在我們日常生活中最直觀的應用,手機的智能語音助手卻總是以一副“人工智障”的面孔出現在大家身邊。無論是外來的Alexa、Google Assistant、Siri還是國內的小愛、小度,由于其智能程度和真正的“人類”還差很長一段距離,這也導致我們能在網上找到許多“戲?!闭Z音助手,讓它進入死鎖不斷循環的有趣場面。
而蘋果的Siri,毫無疑問就是“人工智障”中的“佼佼者”。
對于Siri的“智能”程度,一句話來概括就是“甚至還不如聯通的語音機器人”,畢竟即使是聯通的機器客服,也只會在聽到“機器人”這個關鍵詞后播放語音回復,而蘋果的Siri可是能在成語接龍中被“為所欲為”自己進入無限循環的存在。
不過從工作原理來說,Siri能有這樣的“人工智障”表現其實也說得過去:Siri是目前手機語音助手中為數不多的可以選擇不向蘋果分享數據、甚至可以只在設備本地運行的語音助手。這些對用戶信息的隱私處理讓Siri成為了可能是“發展最慢”的語音助手——Siri的第一個初始版本誕生于2011年10月,誕生至今已經超越10年。但在部分冠軍愛你功能上,Siri能實現的甚至還不如一些國內公司的“后起之輩”。
不過對于廣大Siri用戶來說,未來使用Siri的體驗有望踏上一個全新的臺階,因為Siri終于要迎來一個“史詩級”的升級:
以后使用Siri時,不再需要喊“Hey Siri”了,直接喊Siri就可以了。
取消喚醒詞有多難?
說實話,取消“Hey”直接“Siri”并不能從根本解決Siri不好用這個問題,無論你怎么縮減Siri的喚醒詞,Siri能實現的功能依舊只有這么點:你依然沒辦法用一句話讓Siri控制兩個不同的智能家電,也不能阻止Siri用網頁搜索的結果回復你提出的復雜問題,更不能像Google Assistant或小愛同學那樣幫你自動接電話。
但從技術層面來看,取消“Hey”直接“Siri”背后的技術挑戰其實并不簡單。
可能有人認為取消“Hey”背后沒什么單獨,甚至有效降低了Siri識別用戶語音所消耗的時間。如果我們只是簡單把“Hey”從喚醒詞中移除,那確實很簡單。但在此之前,我們還需要考慮另一個問題:如何保證用戶是真的需要喚醒語音助手?不能理解?那我們就要從語音助手喚醒詞背后的選擇條件開始說起了。怎樣的短語才是一個“好的”語音喚醒詞?從產品的角度來看,除了便于傳播之外我們還要考慮兩個從一定程度上互斥的因素:容易觸發和不容易誤觸。
我們先說第一個“容易觸發”的問題,顧名思義,語音助手的喚醒詞一定要容易觸發,具體來說就是這個喚醒詞必須好讀、不容易讀錯,同時也不能太長,最好讓用戶可以在一句話里一口氣說完喚醒詞和語音指令。
但另一方面,喚醒詞也不能太短,更不能是日常生活中的高頻常用詞。試想一下如果Siri的觸發詞時“Hey”,那高頻誤觸只會讓Siri變得更加難用。更重要的是觸發詞必須具有“排他性”,即當用戶說出“觸發詞”時,用戶想且只想觸發語音助手。亞馬遜的Alexa就是語音助手在誤觸這方面的典型代表:
由于亞馬遜語音助手Alexa名字過于大眾,且智能設備的觸發靈敏度過高,這些設備會對日常生活中所有的“Alexa”做出響應,甚至會被電影電視劇中包含Alexa的臺詞喚醒。這也是從喚醒詞中去掉“Hey”背后的技術難點:修改喚醒詞很容易,但在縮短喚醒詞后避免語音助手誤觸,這并不簡單。
智能的邊界在哪里?
當然有人認為語音助手誤觸無所謂,畢竟誤觸也就手機上的事,把懸浮球劃掉不就好了。但事實并非如此,語音助手觸發詞背后其實還藏著更長遠的問題:智能助手的邊界應該在哪里?
在各企業的設想中,智能助手就像是一個貼心的“管家”,這一點在智能家居品牌中尤為常見:作為用戶的我們只要一開口,家里的電器就會自動工作。如果大家有見過TikTok上關于“智能生活”的設想,一定對這種生活“有所耳聞”。
但實際上,還需要依靠語音交互的智能家居已經是智能家居2.0時代的“過時產物”了,在智能家居3.0中,智能助手不再需要你的語音指令,就可以在幕后“觀察”用戶的狀態并
“主動出擊”調整智能家居的設置。在智能家居體系中,這個特性叫“無感化”,即用戶不需要給出實質性指令(語音、文字或機械開關),智能家居系統就會根據用戶的實際狀況主動響應。
在技術成熟的情況下,一個優秀的智能家居系統能主動識別用戶的真實場景。但對部分關注個人隱私的用戶來說,這種時刻被機器、算法甚至屏幕背后的人觀察的生活卻一刻都不能忍受。這種體驗從好的方面看叫“無感化”,但從另一面看,這仿佛就在“黑鏡”中生活,是魚缸中的“人類生活觀察樣本”。
以此次話題中心的Hey Siri為例:既然我們可以只用Siri來喚醒Siri,那這至少意味著兩件事:
1. 手機時時刻刻在錄音,以響應我的語音喚醒;
2. 手機在錄音后還會經過處理,明白我說的話是什么意思,知道我什么時候想喚醒Siri,什么時候只是說話時提到。
而與其他智能助手不同的是,Siri在這里保持著高度的“克制”,即使Siri能做到剛剛提到的兩件事,但設備端處理的機制保證錄音數據只會保存在手機本地,不會上傳到其他服務器中(飛行模式可以證明這一點);另外本地數據也在硬件加密設備中保存。
但從iPhone 4S的長按觸發Siri到后來的語音觸發Siri,再到手表的“抬腕”喚醒以及未來的“免Hey直接Siri”,可以預見的是智能語音助手必將進一步朝著“無感化”進發。至于未來的語音助手還能不能把持住功能與隱私之間的界限,以及絕大多數用戶究竟擔不擔心自己被“大數據”,之前魅族的“三零手機”的市場回應已經給了我們的答案。