汽車AI語音交互 ?正在讓機器交互更接近真人交互

2020-05-01 18:09 來源：A5專欄我來投稿撤稿糾錯

　阿里云優(yōu)惠券先領券再下單

文|胡楊胡皓

來源|智能相對論（ID：aixdlun）

- 今天天氣怎么樣？

- 今日是晴天，氣溫17到22度，東北風3到4級。

- 那周五呢？

- 周五距今天還有2天。

“重復喚醒，答非所問，這不是人工智能，是‘人工智障智障’。”這是大部分智能網(wǎng)聯(lián)汽車用戶對語音交互的抱怨。

現(xiàn)在，情況有了改善。當用戶詢問車機“明天出門需要帶傘么?”，車機就會播報明天的天氣情況，如果需要再查詢其他時間或者城市的天氣，那么用戶不用重新喚醒，也不需要說出完整表達，只需要說“那大后天呢？”、“那杭州呢？”。在用戶和車機在自然連續(xù)對話的過程中，語義理解服務會記住會話的歷史，并結合歷史處理用戶的請求，通過這種方式，用戶的多次連續(xù)交互就可以形成一個會話流，與用戶的交互也更加自然。

自然連續(xù)對話，是車載語音交互從“人工智障”邁向“人工智能”的重要一步。不過斑馬網(wǎng)絡最近推出的斑馬智行VENUS系統(tǒng)，打破了對用戶說話規(guī)則的要求，用戶可以按照自身的說話習慣來進行交流，交互過程更加人性化。這會不會是一個跨越？

從科幻到現(xiàn)實，語音交互一直在進化

提到智能語音交互，普羅大眾對于技術刷屏的記憶停留在2018年的Google開發(fā)者大會“Google I/O”開幕式上。當Google Assistant以驚人的流利會話，打電話和店家溝通，預約理發(fā)店、餐廳，并用一句俏皮的“嗯哼”作為回應時，觀眾給予了熱烈的掌聲。這是技術愿景美好、激勵人心的一面。

有趣的是，同年2月的美國第五十二屆超級碗的天價廣告上，亞馬遜賣力黑了自家的智能音箱和智能助手——Alexa。喚醒失誤、識別不準、響應困難等等用戶槽點，被廣告創(chuàng)意表現(xiàn)得淋漓盡致。這是技術的現(xiàn)實。

但不論是基于場景的未來暢想，還是對當下缺陷的大膽自嘲，兩個科技巨頭都將業(yè)務重心的一角，押注在了語音交互賽道上。

亞馬遜首席技術官Werner Vogels斷言：未來，人和數(shù)字世界對的交互，一定是以“人”為核心，而不是機器驅動；我們終將構建出更人性化的交互，讓人機互動更加融合。

在“以人為核心”、“更加融合”的人機交互中，語音交互（簡稱VUI）是核心。VUI允許更自由、高效的人機交互，其本質上比任何其他形式的用戶界面都更“人性化”。斯坦福大學教授，Wired for Speech的合著者，克利福德·納斯寫道：“語音是人類交流的基本手段…….所有文化主要通過語音來說服，告知和建立關系。”

VUI允許用戶使用語音作為媒介與機器進行交互。從《2011太空漫游》中的HAL到《星球大戰(zhàn)》中的C-3PO，人們在科幻電影里暢想著能夠與機器自由溝通。事實上，早在1952年，貝爾實驗室的工程師就開發(fā)出了Audrey（奧黛麗）：它可以識別數(shù)字0-9的發(fā)音。盡管奧黛麗能夠以超過90%的精度識別語音輸入，但其體積大，成本高昂，未曾步入大規(guī)模商業(yè)化的發(fā)展通道。

自此，人類開啟了長達半個多世紀的語音交互探索。1962年，IBM推出了第一臺真正意義上的是語音識別機器。工程師William Dersch開發(fā)出的Shoebox可以收聽操作員說出的數(shù)字和命令。例如“5+3+8+6+4-9，總和”，機器將打印出正確答案：17。

1970年，隱馬爾可夫模型（HMM）為語音識別的發(fā)展插上了算法的翅膀，讓語音識別從文字匹配進化到了可預測的高度。20世紀80年代，Covox,Dragon Systems,Speechworks相繼成立，推動了語音識別的商用化進程。

90年代，語音識別技術迎來了大規(guī)模商用和普及。1995年，Dragon發(fā)布了單詞聽寫級的語音識別軟件。這是人類歷史上首個面向廣大消費者的語音識別產品。僅一年之后，Charles Schawab（嘉信理財）和Nuance（紐昂斯）聯(lián)合推出了一套“語音股票經(jīng)紀人”系統(tǒng)，可同時響應360個客戶的股票詢價電話。1997年，如今隸屬Nuance旗下的聲龍系統(tǒng)（Dragon system）推出了“NaturallySpeaking”軟件，這是歷史上第一個可用的“連續(xù)語音”聽寫軟件。它標志著單詞級不停頓語音交互的開始。

最近的20年，Google，Apple，Amazon先后推出了大眾耳熟能詳?shù)闹悄苷Z音助手，并通過智能手機、智能音箱等產品，來到普羅大眾身邊。據(jù)Juniper Research統(tǒng)計，截至2019年2月，全球使用中的語音助手達32.5億；預計到2023年，該數(shù)字將達到80億。

語音交互技術上的高山一：自然連續(xù)對話

隨著軟硬件的快速迭代，如今的ASR（語音識別）技術已近成熟，未來智能語音交互的核心競爭力在于在復雜場景下準確理解用戶的意圖，并為其提供差異化服務。更加智能的自然連續(xù)對話能力，將讓語音交互系統(tǒng)更具人類的親和力特質和邏輯思維能力，能帶給用戶更具情景化、更有溫度的用車體驗和服務潛力。

“智能相對論”認為，自然連續(xù)對話是一個系統(tǒng)的工程，涉及到從車機端的聲學前端處理、語音喚醒、語音識別、語義理解、對話管理、自然語言生成、語音合成等核心交互技術。斑馬智行VENUS的AI語音得益于阿里達摩院的重磅加持以及科大訊飛、思必馳等合作伙伴的大力支持，極大提升了語音能力。斑馬基于AliOS系統(tǒng)，可以更好地將語音核心技術能力與系統(tǒng)能力相結合，更大程度地發(fā)揮出語音核心技術的優(yōu)勢，將多種引擎的協(xié)作發(fā)揮到極致，達到“1+1>2”的效果。

語音交互技術上的高山二：個性化，即聲音克隆

如果說自然連續(xù)對話為更自由的交互和差異化服務提供可能，那語音定制化則將個性化、情感化的語音交互率先落地。

2017年9月，一家名為Lyrebird的加拿大初創(chuàng)公司在推特上發(fā)布了一段10秒的錄音。錄音是內容AI模仿美國總統(tǒng)特朗普的話語。在此之前，Google旗下的DeepMind曾經(jīng)公布了一個用AI合成人聲的研究成果：WaveNet，達到以假亂真的地步。Adobe也發(fā)布過一款名為Project VoCo的原型軟件，在傾聽20分鐘音頻樣本之后可以進行模仿。而Lyrebird將音頻采樣的輸入時間縮短到了60秒。

如今，國內智能網(wǎng)聯(lián)行業(yè)也首次迎來了語音定制——“聲音克隆”產品。斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包，一鍵發(fā)送至車機便可全局使用，無論是導航引導、天氣查詢，還是預訂餐廳，和你對話的都是你最想聽的聲音。

聲音是車載AI語音交互功能的“靈魂”，基于“聲音克隆”技術，斑馬智行VENUS系統(tǒng)將為用戶提供“千人千聲”的定制化服務，用戶可以“克隆”親人和愛人的聲音，讓陪伴更長久，讓駕駛更舒心。

據(jù)介紹，斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包，一鍵發(fā)送至車機便可全局使用，無論是導航引導、天氣查詢，還是預訂餐廳，和你對話的都是你最想聽的聲音。斑馬網(wǎng)絡AI語音相關負責人表示，斑馬智行VENUS系統(tǒng)能在錄制“傾聽”中“掌握”每個人說話時的字母、音位、單詞和語句的發(fā)音特點，通過深度學習技術推理并模仿聲音中的語音音色、語調，“說”出全新的語句。

攀登技術高山，如何讓機器交互能夠更接近真人交互依然在等待更好答案

語音是人類最舒適，最直觀的交流方式之一。如今的智能語音交互產品，變得越來越像人一樣聰明且富有感情。它可以準確理解信息輸入、高效處理并提供理想的信息輸出。“智能相對論”認為，在人工智能和5G迅速發(fā)展的背景下，語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”，連接全新的產業(yè)生態(tài)，包括各類服務、應用、硬件等。

在各類應用場景中，除了智能家居，汽車產品對于語音交互的需求顯而易見。不論是點擊、滑動等觸摸交互方式，在車載環(huán)境下都存在安全隱患且并不高效，語音交互是天然適應車載環(huán)境的交互方式。不過想要設計、開發(fā)、應用一套成熟的車載語音交互系統(tǒng)，要翻越重重高峰：行車噪音干擾如何處理、方言口音如何適配、自然的表達如何更好支持、系統(tǒng)的誤觸發(fā)如何控制在可用范圍。

而隨著用戶對汽車智能化要求的越來越高，更自然的交互成為語音交互的發(fā)展方向。如何讓機器交互能夠更接近真人交互？多模態(tài)融合理解、自然全雙工對話、自然語義理解成為了新的需要攀登的高峰。

斑馬智行的系統(tǒng)底層——AliOS，在傳統(tǒng)觸控、按鍵交互模式的基礎上，將語音交互能力、視覺交互能力以及場景信息在系統(tǒng)層進行融合互通，更大程度得發(fā)揮了各個交互能力的優(yōu)勢，使得多模態(tài)融合理解、融合交互以及更自然的全雙工對話、擁有更多信號輸入的自然語義理解成為可能。同時在各種交互能力融合后對上層應用進行開放，使得最終呈現(xiàn)給用戶的交互更自然。

語音交互帶來的產業(yè)機遇方興未艾。如果說，未來的主流交互方式存在多樣的可能性，那更高率、更自然、更接近于人本能的方向一定是人機交互的未來。

此內容為【智能相對論】原創(chuàng)，

僅代表個人觀點，未經(jīng)授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

部分圖片來自網(wǎng)絡，且未核實版權歸屬，不作為商業(yè)用途，如有侵犯，請作者與我們聯(lián)系。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術; ai智能

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊

標簽：

ai技術
用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質

這幾個月來，以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后，AI仿佛已經(jīng)沉寂了很久，ChatGPT的橫空出世就如同一束耀眼的光芒，讓AI這個名詞重回C位。過去在AI1.0時代，主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

標簽：

ai技術
新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

文：互聯(lián)網(wǎng)江湖作者：志剛2023年的IoT需要一個新故事。6月29日，涂鴉智能在開發(fā)者大會上，發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0，希望通過一個平臺+四大開發(fā)服務，建立起IoT生態(tài)。對于這場發(fā)布會，市場的態(tài)度是積極的。美東時間6月29日收盤，涂鴉智能美股股價上漲5.6%，來到1.87美元/股。近日股價穩(wěn)定

標簽：

ai技術
大模型難掩AI制藥的悲傷：越過山丘，無人等候

美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外，以20億賣給美團，再度引發(fā)市場對大模型的熱議。

標簽：

ai技術
拾起王慧文的AI夢，美團沖向“光年之外”？

2020年底，王慧文在朋友圈寫下這句話時，外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是，一個曾經(jīng)多次創(chuàng)業(yè)，正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

標簽：

ai技術

未來5年，中國AI的“大洗牌”和“內循環(huán)”

我覺得我們AI的目標是：從芯片設計到軟件生態(tài)，全鏈路自主開發(fā)，建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年，英偉達造車、國產開車26年國產芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表，大多數(shù)AI大模型會以軟件彌補硬件不足，所以訓練和推理分開，訓練就
H20芯片開賣即叫停，英偉達如何解圍？

文/道哥在深陷“后門”風波、接受網(wǎng)信辦問詢之后，英偉達的“特供版”H20芯片，又有了新消息。近日，美國科技媒體《TheInformation》援引知情人士消息稱，英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內存的三星電子、以及承擔后端處理的富士康發(fā)出指令，要求暫停所有與H20AI

標簽：

英偉達
真正的「國產英偉達」來了

文/二風來源/節(jié)點財經(jīng)一場關于“中國芯”的IPO審議，正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告，上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導體自主化浪潮中最受矚目的“考生”之一，包括其創(chuàng)始人顯赫的英偉達背景、高達80億元人民幣的募資雄心，以及在國產GPU領域取

標簽：

英偉達
AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

標簽：

騰訊

阿里巴巴

快手
數(shù)據(jù)庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數(shù)據(jù)庫服務器

技術的進步永無止境，繼創(chuàng)下TPC-C性能&性價比雙冠之后，阿里云PolarDB云原生數(shù)據(jù)庫再度實現(xiàn)關鍵突破。9月24日杭州云棲大會上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技術的PolarDB數(shù)據(jù)庫專用服務器。在原有RDMA網(wǎng)絡的基礎上，Polar
為AI時代云服務器量身定制阿里云操作系統(tǒng)Alinux 4重磅發(fā)布

2025年9月24日，在杭州舉辦的云棲大會上，阿里云正式發(fā)布全新一代服務器操作系統(tǒng)AlibabaCloudLinux4（簡稱Alinux4）。Alinux4基于Linux6.6內核打造，是首個全面遵循龍蜥社區(qū)“開源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開源社區(qū)生態(tài)，更針對阿里云最新9代ECS

阿里云重磅發(fā)布AI安全護欄五項安全能力護航AI安全

9月24日，杭州云棲大會技術主論壇上，阿里云重磅發(fā)布AI安全護欄，提供五項核心安全能力，護航AI安全。一方面為客戶提供融入AIAgent開發(fā)全鏈路的原生安全防護，另一方面持續(xù)用AI賦能安全產品智能化升級，打造Agentic-SOC安全運營，提升安全威脅檢測和響應效率。在過去的一年，AIAgent正在
魔搭社區(qū)國際版上線，并發(fā)布科學智能專區(qū)與AIGC創(chuàng)作引擎

9月24日，魔搭社區(qū)舉辦了“全球協(xié)作?科學突破?創(chuàng)意無限”的專題論壇，并發(fā)布魔搭社區(qū)國際版、科學智能專區(qū)與AIGC創(chuàng)作引擎FlowBench，旨在連接全球開發(fā)者、加速科研范式創(chuàng)新、賦能創(chuàng)意表達。自2022年11月初成立至今，魔搭社區(qū)已成長為中國最大AI開源社區(qū)，其模型數(shù)量已突破10萬，服務了全球20
七連發(fā)！阿里多款重磅發(fā)布亮相云棲大會

9月24日，2025云棲大會現(xiàn)場，阿里云CTO周靖人接連發(fā)布了七款大模型技術產品。七款技術產品覆蓋語言、語音、視覺、多模態(tài)、代碼等模型領域，在模型智能水平、Agent工具調用以及Coding能力、深度推理、多模態(tài)等方面均實現(xiàn)突破。在大語言模型中，阿里通義旗艦模型Qwen3-Max全新亮相，性能超過G
阿里云擴建全球基礎設施，將新增巴西、法國和荷蘭數(shù)據(jù)中心

9月24日，阿里云在云棲大會上宣布新一輪全球基礎設施擴建計劃：將在巴西、法國和荷蘭首次設立云計算地域節(jié)點（region），并將擴建墨西哥、日本、韓國、馬來西亞和迪拜的數(shù)據(jù)中心，以便更好服務全球客戶日益增長的AI和云計算需求。目前，阿里云在全球29個地區(qū)運營91個可用區(qū)，是中國最大、亞太第一的云服務商

加載更多

99re6这里有精品热视频,久久综合九色欧美综合狠狠,国产精品久久久久久无毒不卡,av免费无插件在线观看,欧美放荡办公室videos

汽車AI語音交互 ?正在讓機器交互更接近真人交互

相關文章

匯聚中國AI頂尖力量云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

用友大易：邁入AI招聘2.0時代，讓人力資源回歸本質

新發(fā)布的PaaS2.0，能否助力涂鴉智能再起飛？

大模型難掩AI制藥的悲傷：越過山丘，無人等候

拾起王慧文的AI夢，美團沖向“光年之外”？

未來5年，中國AI的“大洗牌”和“內循環(huán)”

H20芯片開賣即叫停，英偉達如何解圍？

真正的「國產英偉達」來了

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

數(shù)據(jù)庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數(shù)據(jù)庫服務器

為AI時代云服務器量身定制阿里云操作系統(tǒng)Alinux 4重磅發(fā)布

阿里云重磅發(fā)布AI安全護欄五項安全能力護航AI安全

魔搭社區(qū)國際版上線，并發(fā)布科學智能專區(qū)與AIGC創(chuàng)作引擎

七連發(fā)！阿里多款重磅發(fā)布亮相云棲大會

阿里云擴建全球基礎設施，將新增巴西、法國和荷蘭數(shù)據(jù)中心

熱門排行

編輯推薦