SoundHound是位于加州聖何塞的(de)一家語音(yīn)識别初創公司,公司的(de)創始人(rén)兼首席執行官Keyvan Mohajer在接受采訪時(shí),向我們展示了(le)一款全新免費的(de)語音(yīn)助手App,演示了(le)它的(de)各項功能和(hé)使用(yòng)過程。這(zhè)款App于周二正式上線,目前有iPhone和(hé)Android兩個(gè)版本。
Mohajer拿著(zhe)他(tā)手中的(de)Android手機滔滔不絕地開始介紹,他(tā)表示:“這(zhè)款語音(yīn)小助手非常好用(yòng),比如說它能夠告訴我日本和(hé)中國的(de)首都在哪裏,有多(duō)少的(de)人(rén)口,有多(duō)大(dà)的(de)地理(lǐ)面積。再比如說,它能夠告訴我印度現在有多(duō)少居住人(rén)口,德國、法國、意大(dà)利的(de)電話(huà)區(qū)号又分(fēn)别是什(shén)麽,這(zhè)些簡單的(de)問題它完全可(kě)以回答(dá)。”
隻要你提出問題,Hound能夠立刻準确無誤地給出答(dá)案。
如果你現在換一下(xià),使用(yòng)Siri或Google Now,那恐怕隻提出以上一半的(de)問題,都不會得(de)到任何的(de)答(dá)複。Mohajer正在盡自己最大(dà)的(de)努力來(lái)向人(rén)們推薦這(zhè)款Hound語音(yīn)識别助手,展示它所具備的(de)強大(dà)功能,因爲這(zhè)是他(tā)的(de)公司SoundHound在過去9年内默默傾注心血所研發出來(lái)的(de)産品。
Mohajer将語音(yīn)控制看作是我們與科技進行互動的(de)一種自然而然的(de)過程。最開始的(de)時(shí)候,我們使用(yòng)鍵盤,後來(lái)使用(yòng)觸摸屏,在接下(xià)來(lái)的(de)幾年中,我們将會使用(yòng)語音(yīn)進行控制,我們身邊的(de)一切都可(kě)以根據語音(yīn)命令做(zuò)出反應。而他(tā)希望,在那個(gè)語音(yīn)控制的(de)世界中,Hound能夠成爲人(rén)們關注焦點和(hé)中心。
圖二
Mohajer将Hound使用(yòng)的(de)處理(lǐ)方式稱爲“語音(yīn)轉換爲文本學習(xí)”,它能夠加速對(duì)你提出的(de)問題進行分(fēn)析處理(lǐ)。大(dà)多(duō)數的(de)語音(yīn)助手都會先将你的(de)語音(yīn)命令轉換爲文本,接著(zhe)再努力去揣測、推敲你想要知道的(de)信息,但是Hound會直接通(tōng)過專屬的(de)引擎将這(zhè)些步驟一次性完成。它有點類似人(rén)腦(nǎo)的(de)運作過程,如果你能夠同時(shí)完成轉換和(hé)分(fēn)析的(de)步驟,那麽它也(yě)能,而且會比你快(kuài)速得(de)多(duō)。
此外,除了(le)一些基本的(de)簡單問題,Hound還(hái)能夠理(lǐ)解并回答(dá)複雜(zá)高(gāo)深的(de)問題,這(zhè)一點就使得(de)其他(tā)的(de)語音(yīn)助手相形見绌了(le)。
舉個(gè)例子,如果你問Siri現在幾點,那它肯定能告訴你。哪怕是你再加上一些限定詞,問它東京現在幾點,它也(yě)能告訴你。同樣,你問它天氣或東京的(de)天氣怎麽樣,這(zhè)些都沒問題。但是,你試試問它“在2021年聖誕節之前兩天的(de)日本東京,太陽何時(shí)升起?”,我保證Siri就懵了(le),你就别指望能得(de)到答(dá)案了(le)。
但是同樣的(de)問題,Hound就能夠給出準确無誤的(de)答(dá)案。(不信你試試,正确答(dá)案爲早上6點47分(fēn))。
Mohajer在演示中問Hound,如果我看中了(le)一套120萬美(měi)元的(de)房(fáng)子,怎麽按揭貸款劃算(suàn)呢(ne)?那接下(xià)來(lái),這(zhè)款App就會問你有關首付、貸款期限和(hé)利率的(de)信息,最後進行分(fēn)析,給出一個(gè)最周全的(de)方案。接著(zhe),Mohajer又問了(le)它一個(gè)類似的(de)寬泛的(de)問題,在将所有的(de)數據信息都告訴它之後,Hound簡直就是以光(guāng)速給出了(le)回答(dá),而且準确度很高(gāo)。
現在的(de)語音(yīn)助手也(yě)存在一個(gè)頗爲嚴重的(de)問題,那就是它們不能夠理(lǐ)解命令發出者的(de)前後語境。如果你先讓Siri幫你查找附近的(de)咖啡館,那沒問題,但你要是再接著(zhe)命令它篩選出有無線網絡的(de)地方,它就不做(zuò)反應了(le),給出的(de)答(dá)案仍然是上一個(gè)回答(dá)提供的(de)那份。且不說Siri和(hé)Google Now其他(tā)方面有多(duō)先進,就這(zhè)一點而言還(hái)是不夠智能,它們并不能夠像真實的(de)人(rén)工助手那樣與你進行連續的(de)對(duì)話(huà)。
但Hound在這(zhè)方面就要比那些普通(tōng)軟件強得(de)多(duō)了(le)。由于公司與全球最大(dà)的(de)在線旅遊公司Expedia建立有夥伴合作關系,所以Mohajer給我們演示了(le)預訂酒店(diàn)的(de)過程。首先他(tā)說:“我需要在舊(jiù)金山預訂一家酒店(diàn),明(míng)天入住,共計住兩晚,價位在每晚200美(měi)元至400美(měi)元之間,需要配備有遊泳池和(hé)健身房(fáng),且能夠攜帶寵物(wù)。”
在其顯示出一份初始的(de)清單之後,Mohajer又說:“按價格從低到高(gāo)進行排序,舍去那些價格低于250美(měi)元的(de)。另外,不配備有無線網絡的(de)也(yě)都不要。” 事實證明(míng),Hound能夠理(lǐ)解他(tā)的(de)要求并且據此做(zuò)出修正,就連此處“不要那些不配備有無線網絡的(de)酒店(diàn)”這(zhè)樣的(de)雙重否定句,它都能夠聽(tīng)懂(dǒng)。
下(xià)面再舉幾個(gè)與Hound進行互動的(de)例子:
• 1.我的(de)航班狀态現在如何?(如果你沒有給它相關細節,它會主動問你具體起飛(fēi)城(chéng)市、到達城(chéng)市、航線等等,根據你手機的(de)定位和(hé)時(shí)間告訴你具體的(de)航班信息。)
• 2.這(zhè)周五下(xià)午三點金門大(dà)橋附近的(de)風速約爲多(duō)少?
• 3.從舊(jiù)金山機場(chǎng)到渡輪大(dà)廈大(dà)約需要多(duō)少錢?(由于與Uber建立了(le)合作夥伴關系,所以Hound能夠根據實時(shí)車況進行預估,并讓你語音(yīn)預訂出租。)
• 4.幫我推薦周日營業到晚上9點且有無線網的(de)咖啡館,位置在可(kě)步行到達範圍内。(由于與Yelp建立了(le)合作夥伴關系,所以Hound能夠在顯示店(diàn)家聯系信息的(de)同時(shí)顯示消費者對(duì)于各家店(diàn)的(de)評級和(hé)評論。)
圖四
Hound最初于去年6月(yuè)發布了(le)一個(gè)非公開的(de)Android測試版App。Mohajer表示在任何Android版本和(hé)iPhone版本App可(kě)以下(xià)載之前, SoundHound希望能夠獲得(de)至少1000位測試者的(de)使用(yòng)反饋。
自Hound去年6月(yuè)宣布有50家合作夥伴之後,現在已經共計擁有了(le)110家合作商,比如說Yelp、Uber和(hé)Expedia。而Mohajer指出,這(zhè)一數據若是非要拿來(lái)對(duì)比的(de)話(huà),我們可(kě)以看到Siri在五年前擁有12家數據合作商,而現在也(yě)隻不過擁有25家。
鑒于Google Now語音(yīn)助手在Android 手機上出現的(de)不足與缺陷,Hound完全可(kě)以取代它的(de)位置,但是蘋果公司是絕對(duì)不會允許任何第三方App來(lái)代替iPhone上的(de)Siri的(de)。不僅如此,Siri可(kě)以與蘋果的(de)很多(duō)軟件進行深度合作,所以在這(zhè)一點上是非常占優勢的(de)。雖然Hound現在也(yě)可(kě)以發送文本消息、打電話(huà),但是它還(hái)不能夠在iPhone上創建新的(de)日曆事件或提醒事項。
Hound是SoundHound 公司在這(zhè)一領域的(de)首秀。Mohajer 指出,得(de)益于公司開發的(de)一款基于雲引擎的(de)語音(yīn)識别平台Houndify,Hound 能夠完成各種各樣問題的(de)回答(dá),包括聯網揚聲器和(hé)自動恒溫器等等。近期,專門設計芯片的(de)NVIDIA公司稱将會幫助這(zhè)款小助手與未來(lái)的(de)智能手機進行結合。三星公司也(yě)宣布将在其Artik芯片中融入Hound,提供涵蓋冰箱和(hé)無人(rén)機等各種領域的(de)服務。
Mohajer稱,自公司在12月(yuè)中旬發布Houndify之後,就有成千上萬的(de)公司找上門,希望與Hound建立合作關系。而公司也(yě)希望,在不久的(de)未來(lái),人(rén)類完全會生活在一個(gè)語音(yīn)控制的(de)智能世界中。