全力以赴答好每一道判斷題
——小米公司“小愛(ài)語(yǔ)音喚醒專項(xiàng)”背后的質(zhì)量故事
□ 本報(bào)記者 彭 燮
“小愛(ài)同學(xué)”“在”……每一天,這樣看似簡(jiǎn)單的對(duì)話會(huì)在地球各個(gè)角落重復(fù)1億次以上。作為小米公司依托強(qiáng)大生態(tài)鏈條打造的智能語(yǔ)音交互系統(tǒng),“小愛(ài)同學(xué)”已成為國(guó)內(nèi)最“忙”的智能語(yǔ)音助手,是億萬(wàn)用戶智能生活中不可或缺的一部分。
“在我們看來(lái),喚醒‘小愛(ài)同學(xué)’相當(dāng)于進(jìn)門(mén)的‘門(mén)禁’。門(mén)禁不好用,大家想進(jìn)也進(jìn)不來(lái)?!毙∶准瘓F(tuán)“小愛(ài)語(yǔ)音喚醒專項(xiàng)”算法產(chǎn)品經(jīng)理王玲玲介紹說(shuō),她所在的團(tuán)隊(duì)成立于2020年,擁有來(lái)自算法、硬件、測(cè)試等多個(gè)部門(mén)數(shù)十名工程師的“豪華陣容”,大家的目標(biāo)就是要讓“門(mén)禁”更好用,讓小米語(yǔ)音交互的用戶體驗(yàn)再上一個(gè)新臺(tái)階。
判斷題一:是不是非要自己做算法
王玲玲告訴記者,如果說(shuō)語(yǔ)音識(shí)別是關(guān)于語(yǔ)意和語(yǔ)氣的“理解題”,那么語(yǔ)音喚醒就是一道針對(duì)語(yǔ)音的“判斷題”。但是,想要答好“小愛(ài)同學(xué)”這道“4個(gè)字的判斷題”,盡可能避免“喚不醒”和“誤喚醒”,難度很大。
2020年,小米智能產(chǎn)品的三大端(手機(jī)、電視、音箱)都采用了頭部供應(yīng)商的喚醒算法,也代表著業(yè)內(nèi)的主流水平。但從用戶端反饋來(lái)看,大家對(duì)于包括小米在內(nèi)的各家品牌智能產(chǎn)品的語(yǔ)音喚醒并不滿意,“喊了半天沒(méi)反應(yīng),沒(méi)喊了反倒冷不丁答應(yīng)一聲”類似的用戶吐槽比比皆是。
把算法改進(jìn)的任務(wù)交給供應(yīng)商,還有一個(gè)潛在的悖論——出于保護(hù)用戶隱私的考慮,小米不可能把用戶數(shù)據(jù)交給第三方,但是沒(méi)有用戶數(shù)據(jù)的反饋,供應(yīng)商也很難開(kāi)展針對(duì)性的改進(jìn)。
其實(shí),小米早在幾年前就開(kāi)始著手自研語(yǔ)音喚醒算法,但幾年下來(lái)成績(jī)也并不太理想,和供應(yīng)商算法相比沒(méi)有明顯優(yōu)勢(shì)。一方面,喚醒詞“小愛(ài)同學(xué)”的“愛(ài)”字沒(méi)有聲母,容易連讀吞字,“同學(xué)”則屬于生活常用詞,容易造成誤喚醒;另一方面語(yǔ)音喚醒對(duì)底層硬件依賴度很高,技術(shù)改進(jìn)需要融合傳統(tǒng)音頻降噪和深度學(xué)習(xí)算法,非常復(fù)雜。而對(duì)于用戶來(lái)說(shuō),相比語(yǔ)音識(shí)別,大家對(duì)于喚醒的成功預(yù)期更高,容忍度更低,這也給技術(shù)改進(jìn)帶來(lái)了非常大的壓力。
以誤喚醒為例,按照小米制定的測(cè)試標(biāo)準(zhǔn),一天24小時(shí)誤喚醒次數(shù)不多于兩次,相當(dāng)于86400秒里最多允許算法出現(xiàn)4秒錯(cuò)誤,對(duì)算法精度的要求可想而知。
是不是非要做自研算法?這道判斷題在項(xiàng)目組成員們的腦海中盤(pán)旋了很久,最終大家給出了答案——是!
據(jù)算法團(tuán)隊(duì)負(fù)責(zé)人高鵬博士介紹,項(xiàng)目組通過(guò)給現(xiàn)有數(shù)據(jù)加混響、加噪聲、變調(diào)、調(diào)整音量等策略,將訓(xùn)練數(shù)據(jù)擴(kuò)充到20倍以上;采用了TDNN-F算法;通過(guò)模型結(jié)構(gòu)的優(yōu)化,提升喚醒性能;通過(guò)大量實(shí)驗(yàn),提高模型學(xué)習(xí)能力,最終達(dá)到明顯的優(yōu)化效果。
為了解決“閑聊喚醒”等問(wèn)題,項(xiàng)目組還開(kāi)展了兒童喚醒、句中喚醒抑制等專項(xiàng)改進(jìn),從而降低誤喚醒發(fā)生幾率。
據(jù)統(tǒng)計(jì), 目前,手機(jī)、音箱、電視三大端的“小愛(ài)同學(xué)”喚醒體驗(yàn)都有了明顯提升。以手機(jī)為例,喚醒投訴率降低了79%,誤喚醒率降低到了1%以下。
判斷題二:有必要每條用戶反饋都跟進(jìn)嗎
用戶反饋是小米質(zhì)量改進(jìn)的最大遵循??蓪?duì)于“小愛(ài)語(yǔ)音喚醒專項(xiàng)”來(lái)說(shuō),收集用戶反饋本身就挺困難。
相比誤喚醒,難喚醒(漏召)相當(dāng)于機(jī)器自動(dòng)判定為“否”,因此沒(méi)有本地?cái)?shù)據(jù),在監(jiān)測(cè)上更為困難,這也是業(yè)內(nèi)公認(rèn)的難題之一。
明明是用戶的痛點(diǎn),又是現(xiàn)有數(shù)據(jù)的盲點(diǎn),怎么辦?團(tuán)隊(duì)跳出數(shù)據(jù)監(jiān)控的慣性思維,設(shè)立了喚醒PPM(每百萬(wàn)用戶投訴量)指標(biāo),對(duì)小米公司所有用戶反饋渠道的相關(guān)信息進(jìn)行了梳理和驗(yàn)證,挖掘喚不醒相關(guān)反饋,并對(duì)其進(jìn)行有針對(duì)性的分析和改進(jìn)。
今年3月,米粉“YK3372”通過(guò)小米手機(jī)“用戶與反饋”提交了“行車(chē)狀態(tài)下,手機(jī)‘小愛(ài)同學(xué)’無(wú)法被喚醒”的問(wèn)題,這也是小米迄今為止收到的唯一一條行車(chē)場(chǎng)景下喚不醒的反饋。
很快,小米語(yǔ)音喚醒用戶工程師任栩聯(lián)系到了“YK3372”,請(qǐng)他幫忙試著復(fù)現(xiàn)問(wèn)題,并組織相關(guān)工程師一起討論問(wèn)題出在哪里。面對(duì)大量的用戶日志,工程師進(jìn)行了仔細(xì)的篩選和排查。
從懷疑麥克風(fēng)收音有問(wèn)題到懷疑輸入音頻有問(wèn)題,經(jīng)過(guò)一天多的排查,任栩終于發(fā)現(xiàn)了問(wèn)題所在——語(yǔ)音喚醒模塊在處理音頻時(shí),由于聲紋識(shí)別比算法處理速度快,提前截?cái)嗔藛拘言~音頻,導(dǎo)致只識(shí)別了“小愛(ài)同”,因此無(wú)法喚醒。任栩還記得,深夜加班找到原因之后自己那種激動(dòng)的心情,“感覺(jué)終于可以給米粉,給其他同學(xué)一個(gè)交代了”。
隨后,工程師們針對(duì)這一情況改寫(xiě)了判斷策略,并升級(jí)了版本。軟件升級(jí)后,無(wú)論是開(kāi)車(chē)還是其他場(chǎng)景,“YK3372”再也沒(méi)有遇到過(guò)類似的問(wèn)題。隨叫隨到的“小愛(ài)同學(xué)”成為了他越來(lái)越離不開(kāi)的生活助手。而小米則為此成立了技術(shù)攻關(guān)小組,繼續(xù)探尋聲紋識(shí)別速度異常波動(dòng)的深層次原因。
對(duì)問(wèn)題日志創(chuàng)新研發(fā)自動(dòng)化標(biāo)注,對(duì)渠道反饋內(nèi)容進(jìn)行一對(duì)一細(xì)化排查和深度跟蹤處理……實(shí)踐證明,這種主動(dòng)找問(wèn)題、挖線索的工作思路是切實(shí)有效的。從數(shù)據(jù)看,目前小米各個(gè)渠道關(guān)于語(yǔ)音喚醒的投訴反饋數(shù)量已經(jīng)下降60%左右。
選擇題三:有沒(méi)有必要挑戰(zhàn)極限
兩年多來(lái),“小愛(ài)語(yǔ)音喚醒專項(xiàng)”以極大的勇氣在算法、軟件、測(cè)試、標(biāo)準(zhǔn)、硬軟件適配等多個(gè)領(lǐng)域進(jìn)行了突破性改進(jìn),并采用先標(biāo)桿后復(fù)制的聚焦打法,從旗艦單品到全面鋪開(kāi),最終實(shí)現(xiàn)了用戶體驗(yàn)明顯優(yōu)化、相關(guān)投訴大幅降低的超預(yù)期成果。
2021年8月發(fā)布的小米首款高端智能音箱——Xiaomi Sound,就是小愛(ài)語(yǔ)音喚醒改進(jìn)的“旗艦單品”之一,也是工程師們“挑戰(zhàn)極限”的里程碑之作。
這款音箱外觀設(shè)計(jì)圓潤(rùn)時(shí)尚,很有特色,但從收音角度來(lái)說(shuō),“就等于你把一個(gè)人的耳朵捂得嚴(yán)嚴(yán)實(shí)實(shí)的,還要求他聽(tīng)得特別清楚?!备啭i如是說(shuō)。
為了確保收音質(zhì)量,高鵬和團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)室的測(cè)試數(shù)據(jù),去反向推導(dǎo)改進(jìn)聲音結(jié)構(gòu)設(shè)計(jì),以提升收音的質(zhì)量和精準(zhǔn)度,然后再通過(guò)實(shí)驗(yàn)室去驗(yàn)證改進(jìn)是否達(dá)到效果。
一般來(lái)說(shuō),智能音箱的收音質(zhì)量測(cè)試環(huán)節(jié)大概需要7天時(shí)間,而Xiaomi Sound音箱的收音質(zhì)量測(cè)試,整整用了兩個(gè)月。這對(duì)于“跑”著出新品的小米來(lái)說(shuō),實(shí)在是很奢侈的一件事情,足以說(shuō)明Xiaomi Sound音箱的研發(fā)難度之大?!斑@個(gè)特別的外觀設(shè)計(jì),必須要匹配極致的聲音結(jié)構(gòu)設(shè)計(jì),否則就沒(méi)辦法向米粉交代,我們也只能拼了?!?/p>
Xiaomi Sound音箱采用了業(yè)內(nèi)最先進(jìn)的混合算力芯片,涉及4家供應(yīng)商,等于每一次算法的調(diào)整,都需要經(jīng)歷4次“不同語(yǔ)言”的考驗(yàn)。高鵬說(shuō),如果以10分為難度最高,小米以往的智能音響的芯片適配難度大概是5,而Xiaomi Sound音箱能達(dá)到9。
在保證適配的同時(shí),高鵬還帶領(lǐng)團(tuán)隊(duì)在算法上做了改進(jìn),將整體采樣率和精度都做到最大值,從業(yè)內(nèi)普遍采用的16k采樣、16比特精度提升為48k采樣、32比特精度,以更高的精度和更好的信號(hào)質(zhì)量,來(lái)保證算法數(shù)據(jù)的精準(zhǔn)度。
星光不負(fù)趕路人。承載著小愛(ài)團(tuán)隊(duì)心血和汗水的Xiaomi Sound音響一上市就廣受好評(píng),更讓高鵬和小伙伴們驚喜的是,Xiaomi Sound音響在語(yǔ)音交互方面的各項(xiàng)指標(biāo)竟然是現(xiàn)有小米智能音箱中表現(xiàn)最為突出的,達(dá)到了自研算法的最好水平,相關(guān)的用戶投訴率也是最低的。
把“不可能完成的任務(wù)”變成了“最佳表現(xiàn)”,這背后的故事令人心潮澎湃,更讓人心生敬意。正是小米工程師們的永不放棄和執(zhí)著追求,才誕生了一個(gè)個(gè)極致的產(chǎn)品,成就了米粉們的驕傲。
《中國(guó)質(zhì)量報(bào)》