最近在閱讀關(guān)于智能語(yǔ)音方面的書(shū)籍,將最近零零碎碎的筆記重新整理了一番,希望能讓讀者更加快捷、高效的認(rèn)識(shí)智能語(yǔ)音方面的基礎(chǔ)知識(shí)點(diǎn)。
智能語(yǔ)音對(duì)話系統(tǒng)
語(yǔ)音交互界面是近年來(lái)最重要的趨勢(shì)之一,它不僅可以依托于智能手機(jī)而存在,而且可以和智能家居、車載導(dǎo)航、智能電視、智能音響等一系列產(chǎn)品結(jié)合到一起。越來(lái)越多的人更加頻繁地使用 Siri、Google Assistant、Cortana、小愛(ài)同學(xué)等。越來(lái)越多的應(yīng)用也都已經(jīng)涉及到智能語(yǔ)音技術(shù)。
1、語(yǔ)音和語(yǔ)言有何區(qū)別?
我們首先需要了解「語(yǔ)音」和「語(yǔ)言」的區(qū)別。
語(yǔ)音是語(yǔ)言的信號(hào)載體,語(yǔ)音是人的發(fā)音器官發(fā)出的,承載一定的語(yǔ)言意義,而語(yǔ)言才承載人類的智慧。通俗的講,語(yǔ)音是天生就存在的,嬰兒剛出生的哭喊聲也算是語(yǔ)音。它是人的發(fā)音器官發(fā)出具有一定社會(huì)意義的聲音。其物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色四要素構(gòu)成。而語(yǔ)言則是需要學(xué)習(xí)不斷進(jìn)化的。在智能語(yǔ)音中,我們需要考慮的是如何確保在復(fù)雜的現(xiàn)實(shí)環(huán)境下,把干擾信息過(guò)濾,獲取到準(zhǔn)確的信息。
2、語(yǔ)音界面之間的關(guān)聯(lián)
喚醒:Amazon Echo 和 Google Home 之類的語(yǔ)音驅(qū)動(dòng)設(shè)備不斷地在等待喚醒詞(“Alexa ...”或“OK,Google ...”)從而進(jìn)入喚醒狀態(tài)。
反饋:一旦喚醒,設(shè)備會(huì)將隨后接收到的音頻發(fā)送到云端的AI平臺(tái)。 該平臺(tái)使用自動(dòng)語(yǔ)音識(shí)別(ASR)和自然語(yǔ)言理解(NLU)的組合來(lái)識(shí)別用戶的意圖并將其發(fā)送到支持應(yīng)用程序。
回復(fù):應(yīng)用程序處理請(qǐng)求并通過(guò)文本進(jìn)行響應(yīng)(如果支持則提供可視化信息)。該平臺(tái)將文本轉(zhuǎn)換為語(yǔ)音并通過(guò)設(shè)備播放。
3、對(duì)話系統(tǒng)概述
對(duì)話系統(tǒng):能夠與人進(jìn)行連貫對(duì)話的計(jì)算機(jī)系統(tǒng),可以采用文本、語(yǔ)音、圖形、觸覺(jué)、手勢(shì)及其他方式與人進(jìn)行交互,常以語(yǔ)音交互為主。
而如今的智能設(shè)備能夠“理解你所說(shuō)的話并且采取行動(dòng)”,是兩個(gè)重要技術(shù)結(jié)合的結(jié)果:一個(gè)是自動(dòng)語(yǔ)音識(shí)別(ASR),另一個(gè)是自然語(yǔ)言理解(NLU)。
自動(dòng)語(yǔ)音識(shí)別(ASR) — 通過(guò)聲學(xué)模型和語(yǔ)言模型,將人的語(yǔ)音識(shí)別為文本的技術(shù)
自然語(yǔ)言理解(NLU)— 對(duì)用戶輸入的文本進(jìn)行語(yǔ)義理解,包括用戶意圖識(shí)別和語(yǔ)義槽填充
對(duì)話狀態(tài)跟蹤(DST) — 根據(jù)所有對(duì)話歷史信息推斷當(dāng)前對(duì)話狀態(tài)St和用戶目標(biāo)
對(duì)話策略學(xué)習(xí)(DPL) — 基于當(dāng)前狀態(tài)生成下一步操作
自然語(yǔ)言生成(NLG) — 獲取結(jié)果文本,主要依據(jù)模板或深度生成的模型生成用戶可以理解的自然語(yǔ)言文本
從文本到語(yǔ)音(TTS) — 結(jié)果播放給用戶聽(tīng),將自然語(yǔ)言文本轉(zhuǎn)化成語(yǔ)言輸出
4、語(yǔ)音交互設(shè)計(jì)需要遵循什么原則?
遵循合作原則:「聽(tīng)者」和「說(shuō)話者」為了能夠順利交談,必須互相合作。Paul Grice 提出了這個(gè)觀點(diǎn),并將其分為以下4個(gè)準(zhǔn)則。
質(zhì)的準(zhǔn)則:說(shuō)真實(shí)信息,做不到的話不要說(shuō)。
舉例:對(duì)用戶說(shuō):“有什么可以幫您的嗎?”,而實(shí)際上整個(gè) VUI 系統(tǒng)僅僅能提供查詢?cè)捹M(fèi)余額。
量的準(zhǔn)則:保持對(duì)話交流簡(jiǎn)潔,減少認(rèn)知負(fù)荷。
解釋:刪除多余的措辭。比如“請(qǐng)您注意聽(tīng),因?yàn)槲覀兊倪x項(xiàng)可能已經(jīng)變了”。
相關(guān)準(zhǔn)則:所說(shuō)的話需與當(dāng)前對(duì)話有關(guān),不干擾當(dāng)前任務(wù)進(jìn)行。
解釋:比如用戶想知道天氣,你給他推薦旅游的地方。
方式準(zhǔn)則:說(shuō)話需清晰、明了,不要拐彎抹角。
解釋:不要使用讓用戶難以理解的「專業(yè)術(shù)語(yǔ)」。
了解 VUI 相關(guān)知識(shí)
語(yǔ)音交互界面(VUI)指的是為用戶提供可進(jìn)行語(yǔ)音交互的計(jì)算機(jī)平臺(tái),它能夠?qū)崿F(xiàn)自動(dòng)化的服務(wù)并且提供完整的相關(guān)流程。而設(shè)計(jì) VUI 的時(shí)候,設(shè)計(jì)師需要側(cè)重于用戶的語(yǔ)音交互過(guò)程,并設(shè)計(jì)出相應(yīng)的語(yǔ)音應(yīng)用系統(tǒng)。由于 VUI 是面向用戶的交互界面,因此滿足用戶的實(shí)際需求是至關(guān)重要的。
1、語(yǔ)音用戶界面 VUI 簡(jiǎn)史
20世紀(jì)50年代:貝爾實(shí)驗(yàn)室建立了一個(gè)單人語(yǔ)音數(shù)字識(shí)別系統(tǒng)。
20世紀(jì)60、70年代:語(yǔ)音數(shù)字系統(tǒng)的這項(xiàng)研究仍在不斷拓展可識(shí)別的詞匯,并且致力于實(shí)現(xiàn)“連續(xù)語(yǔ)音”的識(shí)別。
20世紀(jì)80年代:技術(shù)進(jìn)步讓語(yǔ)音識(shí)別更具實(shí)用性,使日常語(yǔ)音的識(shí)別成為可能。
20世紀(jì)90年代:誕生了第一個(gè)可行的非特定人的語(yǔ)音識(shí)別系統(tǒng)。簡(jiǎn)稱 IVR
21世紀(jì)初期,IVR 系統(tǒng)成為了主流,任何人都可以通過(guò)一個(gè)普通的固定電話和語(yǔ)音進(jìn)行股票詢價(jià)、機(jī)票預(yù)定、銀行轉(zhuǎn)賬、處方藥品預(yù)定、本地電影排片查詢以及收聽(tīng)交通信息等。
2、那什么是 IVR 系統(tǒng)?
交互模式的語(yǔ)音應(yīng)答,簡(jiǎn)稱為 IVR。我們后續(xù)簡(jiǎn)稱為:交互式語(yǔ)音應(yīng)答(IVR)系統(tǒng)
它可以通過(guò)電話線路理解人們的話并且執(zhí)行認(rèn)為,一般都廣泛的應(yīng)用在運(yùn)營(yíng)的客服方面,即使是現(xiàn)在三大運(yùn)營(yíng)上的機(jī)器客服還是采用了這種語(yǔ)音應(yīng)答的方式。但是通過(guò)電話撥號(hào)的方式開(kāi)始語(yǔ)音的問(wèn)答還存在很多的缺點(diǎn),例如只能應(yīng)用在單輪任務(wù)的問(wèn)答,交互方式比較單一,不能進(jìn)行中途打斷等缺點(diǎn)。
IVR,即語(yǔ)音增值業(yè)務(wù),是移動(dòng)運(yùn)營(yíng)商由2002年開(kāi)始啟動(dòng)的業(yè)務(wù)。移動(dòng)的 IVR 分為兩大品牌:音信互動(dòng)和娛音在線,聯(lián)通的 IVR 品牌為聯(lián)通。
3、IVR 系統(tǒng)設(shè)計(jì)與移動(dòng)設(shè)備
21世紀(jì)初,IVR 系統(tǒng)已逐漸普及。起初“按鍵+語(yǔ)音”的混合形式(請(qǐng)按“1”或者說(shuō)“1”),是很常見(jiàn)的模式,比如10086的查詢功能。人們創(chuàng)造了 IVR 系統(tǒng),希望它可以自動(dòng)處理一些事物,這樣客戶就不會(huì)總是需要找一個(gè)真人來(lái)解決問(wèn)題了。相比與真人客服交談,很多用戶實(shí)際上更喜歡使用 IVR 系統(tǒng),因?yàn)樗麄兛梢曰ê荛L(zhǎng)時(shí)間反復(fù)咨詢信息而不會(huì)覺(jué)得他們是在“打擾”一個(gè)人類客服。
移動(dòng) VUI 設(shè)計(jì)需要注意:
1、確定它是否需要一個(gè)視覺(jué)化的呈現(xiàn),比如一個(gè)虛擬角色。
2、確定你的 VUI 在什么時(shí)候允許用戶說(shuō)話?可以被打斷嗎?是否需要按鍵功能?
4、VUI 的優(yōu)勢(shì)是什么?
速度快:語(yǔ)音輸入的方式比手動(dòng)輸入快很多,同樣的時(shí)間可以輸出更多的信息。
釋放雙手:釋放雙手與機(jī)器進(jìn)行交互,比如駕駛狀態(tài)下,通過(guò)語(yǔ)音輸入完成用戶需求,安全和便利。
直覺(jué)性:說(shuō)話更自然,更容易??梢灾苯油ㄟ^(guò)語(yǔ)音輸入的方式來(lái)表達(dá)你的意愿。
同理心:語(yǔ)音包含了語(yǔ)氣、音量、語(yǔ)調(diào)和語(yǔ)速,且傳遞了大量的感知信息,不僅僅是文字那么簡(jiǎn)單。
5、哪些場(chǎng)景不適合使用 VUI ?
公眾場(chǎng)所:開(kāi)放的環(huán)境辦公,比如:咖啡館、圖書(shū)館等。環(huán)境影響因素較大,不利于用戶語(yǔ)音的錄入和接收。
不適應(yīng)對(duì)計(jì)算機(jī)說(shuō)話:并不是每個(gè)人都喜歡對(duì)計(jì)算機(jī)大聲說(shuō)話,即使是在私人空間。
更喜歡打字:許多人習(xí)慣每天在手機(jī)上花幾小時(shí),大部分的時(shí)間都是在打字。
隱私安全:比如身份證、銀行密碼等。GUI 比 VUI 更加適合高效安全輸入。
6、哪些場(chǎng)景適合使用 VUI?
使用場(chǎng)景需要騰出雙手,比如車載導(dǎo)航、智能音響。
作為家庭的控制中心,打造智能家具居控制的切入點(diǎn)。
語(yǔ)音記錄病歷,不管對(duì)醫(yī)生來(lái)說(shuō)還是患者來(lái)說(shuō),都是提高看病效率的很好助手。
幫助用戶簡(jiǎn)單記錄、查詢、照顧用戶的作息時(shí)間等。
7、VUI 設(shè)計(jì)師的工作內(nèi)容
VUI 設(shè)計(jì)師思考的是在系統(tǒng)和終端用戶間,從開(kāi)始到結(jié)束的整個(gè)對(duì)話過(guò)程。他們思考正在解決的問(wèn)題以及用戶需要什么來(lái)達(dá)成他們的目的。VUI 設(shè)計(jì)師在項(xiàng)目中扮演著非常重要的角色。通常會(huì)參與項(xiàng)目全程的工作,并與團(tuán)隊(duì)合作完成在技術(shù)、體驗(yàn)、設(shè)計(jì)上的優(yōu)化。
如果 VUI 需要與后端系統(tǒng)進(jìn)行交互,他們要考慮需要處理的請(qǐng)求。如果流程中有人的因素,比如客服需要交接,那么設(shè)計(jì)師需要考慮如何進(jìn)行交接,以及如何培訓(xùn)客服。
語(yǔ)音用戶界面基本設(shè)計(jì)原則
1、對(duì)話式用戶界面
對(duì)話式設(shè)計(jì)定義:思考如何與 VUI 系統(tǒng)進(jìn)行一輪以上的交互。
因此,需要設(shè)計(jì)一輪以上的對(duì)話,并思考用戶接下來(lái)可能會(huì)做什么。不要強(qiáng)迫用戶展開(kāi)新一輪對(duì)話,而是去嘗試了解用戶的意圖并允許用戶繼續(xù)交談,同時(shí)有必要為用戶近期所說(shuō)的話保留歷史記錄。
2、多模態(tài)界面
與 IVR 系統(tǒng)不同的是,在移動(dòng)設(shè)備上我們可以增加一個(gè)可視化組件。
比如在向用戶傳達(dá)信息、確認(rèn)信息,以及告訴用戶什么時(shí)候輪到他們說(shuō)話等。(比如:百度地圖的小度,他會(huì)告訴用戶什么時(shí)候可以說(shuō)話,目前所處的狀態(tài),說(shuō)完之后給予的反饋)
如果有一個(gè)可視化組件,則會(huì)讓移動(dòng)設(shè)備增強(qiáng)優(yōu)勢(shì)。允許用戶同時(shí)使用語(yǔ)音和屏幕進(jìn)行交互。(手機(jī)上虛擬助手,有些雖然以語(yǔ)音交互為主,但是在用戶的智能手機(jī)上也會(huì)有一個(gè)配套的APP)。
3、設(shè)定用戶期望
優(yōu)秀的對(duì)話式設(shè)計(jì)不僅僅是精心制作的友好提示。Google 交互設(shè)計(jì)師 Margaret Urban 建議:如果你不能理解答案,就不提問(wèn)。
“當(dāng)某個(gè)人成功完成了一次語(yǔ)音交互,伴隨著腦內(nèi)咖(endorphin)的升高,用戶會(huì)獲得一種成就感和滿足感。此時(shí)正是一個(gè)絕佳的時(shí)機(jī)來(lái)告訴用戶”你做的很棒,要不要再試試這個(gè)?”
是否讓我們想到了網(wǎng)頁(yè)登陸驗(yàn)證的時(shí)候,需要完成一塊拼圖,但是你再慢他也告訴你超越全球96%以上的人。
“如果你已經(jīng)設(shè)計(jì)了一個(gè)設(shè)置鬧鐘的功能,但是你沒(méi)有提供用戶取消設(shè)置的方式,這就像給人一條浴巾但是沒(méi)給他香皂一樣。如果你設(shè)置了可以完成某項(xiàng)任務(wù)的語(yǔ)氣,請(qǐng)務(wù)必考慮與之相關(guān)的任務(wù)?!?/strong>
4、確定策略時(shí)需注意的幾點(diǎn)
輸入確認(rèn):必須確保用戶感覺(jué)到自己是被理解的,同時(shí)有助于讓用戶知道,什么時(shí)候 VUI 不理解他們所說(shuō)的話。
1、確認(rèn)錯(cuò)誤的后果是什么?比如:預(yù)定錯(cuò)誤的航班?制定錯(cuò)誤的任務(wù)?播放錯(cuò)誤的歌曲?
2、系統(tǒng)將如何反饋?比如:會(huì)有音頻提示嗎?是否有視覺(jué)反饋嗎?比如Amazon Echo上的光環(huán)。
3、是否擁有屏幕?比如:車載導(dǎo)航、手機(jī)屏幕、智能手表。
4、選擇合適的確認(rèn)形式?比如:明確確認(rèn)、含蓄確認(rèn)、混合式的確認(rèn)。
5、確認(rèn)策略的兩種方案
顯性確認(rèn):重要信息,需強(qiáng)制用戶確認(rèn)信息。
隱性確認(rèn):讓用戶知道他的話接收到了,但不需要他們確認(rèn)。
6、確認(rèn)信息的方式
三級(jí)置信度:
系統(tǒng)將在一定的閾值內(nèi),以明確的形式確認(rèn)信息,拒絕較低置信度的信息,并以隱性確認(rèn)來(lái)確認(rèn)置信度超過(guò)80%閥值的信息。
1、80%以上,使用隱性確認(rèn)。如果是誤識(shí)別代價(jià)高的話,考慮采取顯性確認(rèn)。
2、45%-80%,使用顯性確認(rèn),以明確的形式確認(rèn)信息。
3、45%以下的,拒絕確認(rèn)信息。
舉例:用戶:幫我再買一份口香糖。
VUI:(置信度大于80%,使用隱性確認(rèn))好的,已經(jīng)為您再購(gòu)買一份口香糖。
(置信度45%~79%,使用顯性確認(rèn))您是想再多買一份口香糖,是嗎?
(置信度小于45%)對(duì)不起,我沒(méi)有聽(tīng)清您講的話,您想買什么?
隱性確認(rèn):
1、只使用隱性確認(rèn),不要求用戶進(jìn)行操作。
2、將「答案」和連同「原始的問(wèn)題的一部分」一同回復(fù),讓用戶知道系統(tǒng)識(shí)別到的是哪個(gè)問(wèn)題。
3、當(dāng)置信度高的時(shí)候,也可以不用連同問(wèn)題,這樣更自然流暢。
非語(yǔ)言式確認(rèn):
1、僅需行動(dòng)反饋,而不需要口頭響應(yīng)。
2、通過(guò)視覺(jué)確認(rèn),比如小米智能家居,可以通過(guò)語(yǔ)音交互打開(kāi)燈光、電視、窗簾等。
a、如果沒(méi)有延遲,沒(méi)必要再對(duì)其回復(fù)。
b、如果有3-5秒延遲,需進(jìn)行回復(fù),讓用戶知道并不是設(shè)備沒(méi)有聽(tīng)到她的聲音。
3、使用一個(gè)“聲音標(biāo)識(shí)”,即簡(jiǎn)短的、有識(shí)別度的聲音。這樣有助于幫助用戶快速知道他們已經(jīng)到了哪一步。
通用確認(rèn):
1、在某些對(duì)話式系統(tǒng)中,最好不要詢問(wèn)用戶具體說(shuō)了些什么 - 哪怕是隱性確認(rèn)。
2、通用確認(rèn)可以讓用戶分享更豐富的體驗(yàn),因?yàn)檫@類反饋能適應(yīng)用戶輸入的各種信息,并讓對(duì)話繼續(xù)進(jìn)行。通常人與人之間的對(duì)話,也不會(huì)句句必回復(fù),也會(huì)有 “嗯” “哦 ”“啊” “然后呢”等。
視覺(jué)確認(rèn):
1、確認(rèn)一個(gè)項(xiàng)目清單,通過(guò)屏幕顯示進(jìn)行溝通會(huì)更加有效。人的記憶有限,通常用戶一次性不能記住超過(guò)大約7個(gè)聽(tīng)覺(jué)項(xiàng)目。
2、用來(lái)確認(rèn)用戶的選擇。用戶可以通過(guò)說(shuō)話或按下按鈕來(lái)回復(fù)。而 GUI 的反饋指令更加明確。
7、判斷你的 VUI 適合哪種類型
目前大多數(shù)的 VUI 系統(tǒng)都是“命令 - 控制”模式,這意味著當(dāng)用戶想要說(shuō)話時(shí),必須給出明確的指示。
1、用戶可以隨時(shí)向系統(tǒng)詢問(wèn) / 發(fā)出命令嗎?
2、是否參與一個(gè)有明確開(kāi)始和結(jié)束的封閉式對(duì)話?
8、命令-控制模式
喚醒系統(tǒng)方式:按鍵通話(車載導(dǎo)航、Siri等)、直接進(jìn)行關(guān)鍵詞呼叫(“OK Google”“小度”等喚醒詞)。
喚醒系統(tǒng)反饋:系統(tǒng)檢測(cè)到用戶說(shuō)話完成,通常會(huì)使用某種非語(yǔ)言的音效進(jìn)行提示,然后做出相應(yīng)處理(比如:“啵”的一聲或者視覺(jué)反饋:聲波線、點(diǎn)狀動(dòng)效、設(shè)備逐漸發(fā)光等)。
系統(tǒng)聆聽(tīng)時(shí)間:用戶說(shuō)出喚醒詞或按下按鈕后,系統(tǒng)保持聆聽(tīng)狀態(tài)的時(shí)長(zhǎng),根據(jù)經(jīng)驗(yàn)來(lái)看,10秒 是個(gè)不錯(cuò)的起始時(shí)間段。
喚醒響應(yīng)時(shí)間與反饋方式
喚醒響應(yīng)時(shí)間與喚醒反饋方式有關(guān),不同喚醒反饋方式下,最佳響應(yīng)時(shí)間不同:
1、當(dāng)喚醒反饋為"燈光"反饋時(shí),喚醒響應(yīng)速度越快越好,在200ms時(shí),用戶響應(yīng)舒適度最高(對(duì)響應(yīng)時(shí)間評(píng)價(jià)為剛剛好的用戶比例),73%的用戶對(duì)速度滿意。
2、當(dāng)喚醒反饋為"燈光+音效"時(shí),喚醒響應(yīng)速度的舒適時(shí)間為300ms左右,76%的用戶對(duì)速度滿意。
3、當(dāng)喚醒反饋為"燈光+人聲"時(shí),喚醒響應(yīng)速度的舒適時(shí)間為500ms左右,74%的用戶對(duì)速度滿意。
數(shù)據(jù)來(lái)源:百度人工智能交互設(shè)計(jì)院智能音響時(shí)間測(cè)試實(shí)驗(yàn)
喚醒等待時(shí)間體驗(yàn)感
用戶請(qǐng)求及反饋階段響應(yīng)時(shí)間對(duì)等待體驗(yàn)的影響:
1、1250ms以內(nèi)是用戶認(rèn)為響應(yīng)速度較優(yōu)的區(qū)間,其中650ms為最佳體驗(yàn)值。在450ms時(shí),少量用戶覺(jué)得響應(yīng)速度太快了,用戶會(huì)感覺(jué)到緊迫感和壓力,難以接受。
2、在1450ms時(shí),有53%的用戶開(kāi)始感覺(jué)響應(yīng)有延時(shí),但仍能夠接受。
3、從2150ms開(kāi)始,有20%的用戶認(rèn)為音箱響應(yīng)太慢,不能夠接受。我們認(rèn)為20%的用戶不滿意,已經(jīng)不足以被稱為一個(gè)優(yōu)秀的產(chǎn)品。
數(shù)據(jù)來(lái)源:百度人工智能交互設(shè)計(jì)院智能音響時(shí)間測(cè)試實(shí)驗(yàn)
9、對(duì)話模式
1、不要強(qiáng)迫他們不斷地去表明他們將要開(kāi)始說(shuō)話,自然地對(duì)話技巧進(jìn)行話輪轉(zhuǎn)換。
2、通過(guò)更精細(xì)的設(shè)計(jì),使 VUI 系統(tǒng)可以處理一些常見(jiàn)的微妙表達(dá)方式。(用戶處理完畢說(shuō)“謝謝”,你可以設(shè)置系統(tǒng)忽略這種情況,或回復(fù)“不用客氣”,而不是提示或者報(bào)錯(cuò)。)
3、不要問(wèn)你都無(wú)法理解的反問(wèn)句。
4、打破話輪轉(zhuǎn)換的情況,用戶在系統(tǒng)說(shuō)完之前就進(jìn)行提問(wèn)。
5、在命令 - 控制模式和對(duì)話模式之間進(jìn)行切換。喚醒之后進(jìn)行自然的對(duì)話。
10、對(duì)話式標(biāo)識(shí)
使 VUI 更加人性化、更具吸引力,對(duì)話式標(biāo)識(shí)是讓用戶了解交談進(jìn)展以及進(jìn)展情況的重要方式,當(dāng)系統(tǒng)在對(duì)話中使用了一些基本的對(duì)話禮儀后,用戶的參與度會(huì)更高,并且會(huì)以同樣的方式進(jìn)行回復(fù)。
反面案例:
虛擬助理:你昨晚你睡了幾小時(shí)?
用戶:大約7個(gè)小時(shí)。
虛擬助理:你昨天吃了幾份水果和蔬菜?
用戶:大概有4份。
虛擬助理:你昨晚吃藥了嗎?
用戶:吃藥。
虛擬助理:再見(jiàn)。
正確案例:
虛擬助理:我會(huì)問(wèn)你幾個(gè)有關(guān)你身體健康的問(wèn)題。第一個(gè)問(wèn)題,昨晚你睡了幾小時(shí)?
用戶:大約7個(gè)小時(shí)。
虛擬助理:不錯(cuò)。你昨天吃了幾份水果和蔬菜?
用戶:大概有4份。
虛擬助理:了解了。最后一個(gè)問(wèn)題,你昨晚吃藥了嗎?
用戶:吃藥。
虛擬助理:好的,暫時(shí)就這些了,我明天還會(huì)再問(wèn)你的,回見(jiàn)。
11、異常處理
“當(dāng)你與人類交談時(shí),永遠(yuǎn)不會(huì)出現(xiàn)不可恢復(fù)的錯(cuò)誤狀態(tài)?!?
— ABI JONES, Google 設(shè)計(jì)主管
“你偶爾因?yàn)榉稿e(cuò)和不知道某些事情導(dǎo)致評(píng)分降低造成的影響,比你每次做對(duì)一件事情重要百倍?!?nbsp;
— 英特爾語(yǔ)音助手部經(jīng)理 Pilar Manchon
如果處理的得很好,錯(cuò)誤情況就不會(huì)影響用戶,你可以讓用戶回到正常流程,并順利完成任務(wù)。但如果處理不好,用戶不僅這次無(wú)法完成任務(wù),他們以后都可能再也不用你的產(chǎn)品了。
一個(gè)好的設(shè)計(jì)師應(yīng)該知道,你不能只設(shè)計(jì)正常的情況, 你還要對(duì)出錯(cuò)的情況做出設(shè)計(jì)。這對(duì)于 VUI 設(shè)計(jì)來(lái)說(shuō)尤為重要,因?yàn)槌鲥e(cuò)情況是家常便飯。
未檢測(cè)到語(yǔ)音 / 檢測(cè)到語(yǔ)音,但沒(méi)有識(shí)別
1、什么情況下可以明確說(shuō)出來(lái)?
a、你的系統(tǒng)只使用語(yǔ)音
b、用戶沒(méi)有其他的回復(fù)方式
c、必須要用戶回復(fù)后,系統(tǒng)才能繼續(xù)進(jìn)行任務(wù) / 對(duì)話
2、什么情況下可以什么都不做?
a、用戶可以通過(guò)其他方式進(jìn)行下一步操作(比如通過(guò)按鍵選擇)
b、就算什么也不做,也不會(huì)中斷對(duì)話
c、系統(tǒng)沒(méi)有理解時(shí),用視覺(jué)信息提示告訴用戶,比如:提示列表等
d、利用虛擬表情形象反饋,疑問(wèn)、微笑等動(dòng)作表達(dá)
其他異常處理
1、當(dāng)出現(xiàn):語(yǔ)音被正確識(shí)別,但系統(tǒng)無(wú)法處理
a、程序?qū)﹃P(guān)鍵屬性理解不明,寫了錯(cuò)誤的回復(fù)
b、沒(méi)有針對(duì)一些情況的回復(fù)
解決:對(duì)用戶可能會(huì)說(shuō)到的所有情況做更完善的預(yù)測(cè),通過(guò)數(shù)據(jù)收集來(lái)避免此問(wèn)題
2、當(dāng)出現(xiàn):部分語(yǔ)音識(shí)別錯(cuò)誤
a、什么也不去處理,因?yàn)檫@不是你想要的結(jié)果
b、匹配錯(cuò)誤的行為
解決:可以用 N-Best 列表來(lái)智能匹配最有可能的識(shí)別結(jié)果
3、增強(qiáng)錯(cuò)誤提示
a、當(dāng)需要用戶說(shuō)話的時(shí)候,使用這種增強(qiáng)錯(cuò)誤提示策略
b、必要的情況下,進(jìn)階錯(cuò)誤行為提示可以更為詳細(xì),并提供更多的幫助
c、如果你正在設(shè)計(jì)一個(gè)可以提供真人輔助的系統(tǒng),可以為錯(cuò)誤數(shù)量設(shè)置一個(gè)閾值,當(dāng)達(dá)到該閾值時(shí),將用戶轉(zhuǎn)移給人工助手
12、新手和專家用戶
如果你的用戶會(huì)定期使用你的系統(tǒng),那么在設(shè)計(jì)中就需包含不同的策略。
“務(wù)必確保你的目標(biāo)不是簡(jiǎn)單的訓(xùn)練你的用戶,應(yīng)當(dāng)適應(yīng)用戶的行為,而不是用已有的命令讓用戶感到厭煩?!?
— Google 交互設(shè)計(jì)師 Margaret Urban
我們?cè)?VUI 設(shè)計(jì)上該如何更好的交互設(shè)計(jì)?
1、減少冗長(zhǎng)指令以及其他引導(dǎo)提示。通過(guò)計(jì)算 APP 使用次數(shù)和頻率來(lái)確認(rèn)是否切換模式。
2、縮短解釋性提示。但是請(qǐng)務(wù)必使用“對(duì)話式標(biāo)識(shí)”。
3、啟動(dòng)效應(yīng)。
什么是啟動(dòng)效應(yīng)?
指某人受到某種特定的刺激后(例如一個(gè)詞語(yǔ)或者圖像)會(huì)影響他們對(duì)之后刺激的反應(yīng)。首先讓用戶預(yù)先知道你會(huì)問(wèn)他們幾個(gè)確定數(shù)量的問(wèn)題,為后面會(huì)發(fā)生的事情提供了暗示,用戶就會(huì)知道如何去準(zhǔn)備。比如以下情況:
1、當(dāng)給人們呈現(xiàn)一個(gè)還沒(méi)完成的草圖,隨著這個(gè)草圖越來(lái)越完整,人們就越來(lái)越辨認(rèn)出這張圖畫(huà)的是什么。之后,再給他們呈現(xiàn)其他還沒(méi)完成的草圖時(shí),他們會(huì)更早辨認(rèn)出這張圖畫(huà)的是什么;
2、如果當(dāng)給人們呈現(xiàn)一組漢字,假如里面含有 “河” 這個(gè)字,隨后讓他們寫出部首是 “氵” 的字時(shí),這些人回答 “河” 的幾率會(huì)更大。
談?wù)勛约簩?duì)新手和專家用戶的理解
01、專家型用戶:代表老用戶且愿意探索你的產(chǎn)品或服務(wù),有著很大的包容度。并會(huì)積極提出各種改進(jìn)的建議和享受產(chǎn)品帶來(lái)的驚喜感。
02、新手:什么叫新手,就是剛剛下載你的產(chǎn)品,準(zhǔn)備使用的用戶,對(duì)產(chǎn)品功能都還處于陌生摸索的階段。他們不會(huì)因?yàn)槟愕募夹g(shù)而使用你的產(chǎn)品,使用你的產(chǎn)品目的是完成某項(xiàng)任務(wù)。他們有興趣使用更高級(jí)更復(fù)雜的產(chǎn)品,但卻不愿意接觸全新的東西,要想讓他們認(rèn)可,那么產(chǎn)品就必須足夠簡(jiǎn)單。
13、持續(xù)跟蹤上下文
持續(xù)跟蹤信息并不容易,但如果不跟蹤這些信息,你的 APP 就只能做單輪的對(duì)話行為。
指代:用兩個(gè)不同的詞語(yǔ)指同一個(gè)東西。比如: “他” “哪些”
14、幫助和其他通用部分
我們?cè)谠O(shè)計(jì) IVR 系統(tǒng)時(shí),我們會(huì)確保每個(gè)狀態(tài)都包含一組通用組件:重復(fù)、主菜單、幫助、操作和再見(jiàn)。
15、延遲
產(chǎn)生原因:糟糕的連續(xù)性能、系統(tǒng)處理進(jìn)程、數(shù)據(jù)庫(kù)訪問(wèn)
處理方式:告知用戶關(guān)于延遲的情況(比如:“請(qǐng)稍等,正在查找相關(guān)記錄”)、非語(yǔ)音和視覺(jué)的提示(比如:延遲提示音以及加載狀態(tài))、可視化效果(比如:加載中的動(dòng)態(tài)圖標(biāo))
處理細(xì)節(jié):延遲的時(shí)長(zhǎng)可能為0~10秒,在沒(méi)有延遲的時(shí)候最好也插入幾秒的延遲。因?yàn)槿绻谙到y(tǒng)說(shuō)“請(qǐng)稍等”之后,緊接著就繼續(xù)對(duì)話的話,會(huì)給用戶帶來(lái)異樣的感受。很多設(shè)備針對(duì)喚醒詞采用了本地化識(shí)別的方式,這樣喚醒的會(huì)更快。
16、消除歧義
問(wèn)題來(lái)源:用戶只會(huì)提供執(zhí)行命令所需的部分信息,而沒(méi)有提供所有的細(xì)節(jié)。
舉例:用戶可能會(huì)詢問(wèn)某地的天氣,而很多地方都有叫這個(gè)名字的地點(diǎn),諸如“湖南路”那邊的天氣怎么樣。
解決方案:
1、依靠任何已知的信息來(lái)確定答案,而不是再次詢問(wèn)用戶。
2、根據(jù)上下文線索進(jìn)行判斷。
3、反問(wèn)用戶進(jìn)行確認(rèn),確保系統(tǒng)對(duì)用戶同一個(gè)問(wèn)題的各種各樣的回復(fù)形式都有良好的適應(yīng)性。
4、指令不明確。比如“給胡歌打電話,撥打工作電話還是家庭電話?”,系統(tǒng)以隱性的形式對(duì)名字進(jìn)行了確認(rèn),系統(tǒng)對(duì)這個(gè)名字有很高的置信度,并且僅有一個(gè)胡歌。
5、用戶回答的信息超初了你的 VUI 系統(tǒng)可以處理的范圍時(shí),你可能需要縮小范圍消除歧義。
17、設(shè)計(jì)文檔
我們需要制作:示例對(duì)話(sample dialogs)和會(huì)話流(dialog flow)文檔外其他一些情況。例如:在設(shè)計(jì)過(guò)程中,你還需要?jiǎng)?chuàng)建提示列表、完善對(duì)話每個(gè)狀態(tài)指定完整的語(yǔ)法規(guī)則等等。
18、無(wú)障礙設(shè)計(jì)
“一開(kāi)始,我就很討厭屏幕閱讀器的工作方式。為什么它會(huì)被設(shè)計(jì)成這樣?當(dāng)以視覺(jué)的方式來(lái)展示信息沒(méi)有任何意義時(shí),屏幕閱讀器只是簡(jiǎn)單地將文字轉(zhuǎn)換成音頻。所有那些應(yīng)用花在創(chuàng)造完美用戶體驗(yàn)的時(shí)候和精力此時(shí)都變得沒(méi)有任何意義,甚至有的給盲人用戶帶來(lái)了更糟的體驗(yàn)?!? — 克里斯·莫里(Chris Maury)
19、典型 VUI 項(xiàng)目交付項(xiàng)內(nèi)容
示例對(duì)話:系統(tǒng)和用戶之間可能產(chǎn)生交互行為的預(yù)設(shè)對(duì)話,對(duì)話看起來(lái)就像電影劇本一樣,包括兩個(gè)主要角色之間來(lái)回往復(fù)對(duì)話。
流程圖:展示下一個(gè)狀態(tài)分支的所有方式,不一定要羅列所有的交互或示例對(duì)話,也可以是功能的分組、文本的分組等。
提示列表:如果沒(méi)有屏幕可以使用配音演員或語(yǔ)音合成來(lái)播放提示列表。
產(chǎn)品原型:如果這是一個(gè)多模態(tài)產(chǎn)品,有屏幕、支持觸摸交互。
參考文獻(xiàn):
《語(yǔ)音用戶界面設(shè)計(jì):對(duì)話式體驗(yàn)設(shè)計(jì)原則》-【美】Cathy Pearl(凱瑟 彼爾)
語(yǔ)音交互入門:從概念,原理到如何設(shè)計(jì)VUI產(chǎn)品 - 杜松
AI時(shí)代的語(yǔ)音設(shè)計(jì)經(jīng)驗(yàn)漫談 - 少夫白杰
語(yǔ)音用戶界面設(shè)計(jì) - 對(duì)話式體驗(yàn)設(shè)計(jì)原則 - walle_x