新用戶登錄后自動創(chuàng)建賬號
登錄近日,“2018全球人工智能產(chǎn)品應(yīng)用博覽會”在蘇州國際博覽中心舉辦,來自10個國家200多家企業(yè)和人工智能機構(gòu)展示1000多種全球最新的人工智能產(chǎn)品,100多位專家、學(xué)者主導(dǎo)25場關(guān)于人工智能細(xì)分應(yīng)用的分論壇。
“上海交通大學(xué)蘇州人工智能研究院分論壇”上,分音塔科技CEO關(guān)磊現(xiàn)場分享了人工智能在翻譯機場景的應(yīng)用。
清華大學(xué)團隊分音塔科技自主研發(fā)的準(zhǔn)兒翻譯機,是全球首款帶屏的人工智能翻譯機,也是中國首款人工智能口語翻譯機,并且是中國首家攻克日語離線語音識別技術(shù),目前同品類中支持語言和口音數(shù)量遙遙領(lǐng)先的翻譯機。
在分享中,關(guān)磊談到了分音塔團隊的研發(fā)歷程與細(xì)節(jié),為人工智能同行提供了一份實戰(zhàn)性的借鑒。
不一樣的C端產(chǎn)品
分音塔科技專注于AI和C端結(jié)合的產(chǎn)品,是中國人工智能翻譯的創(chuàng)建者,2016年發(fā)明了中國第一款人工智能翻譯機,目前在行業(yè)占有主流位置。
翻譯機作為C端產(chǎn)品,其實和傳統(tǒng)C端產(chǎn)品的差別很大。比如機器人、智能音響這些傳統(tǒng)的C端產(chǎn)品,本質(zhì)是人機交互,使用場景是家庭里面,場景比較單一。但是翻譯機的本質(zhì)是人和人交互,它是翻譯溝通的媒介,用戶說的語言、使用的場景和人機交互的場景都不太一樣。
所以分音塔在做準(zhǔn)兒翻譯機的時候,遇到的問題復(fù)雜得多。比如用戶使用不在中國,使用的場景在全世界,可能在美國、日本、塞班、馬爾代夫,也可能在餐廳、酒店、酒吧、街頭,用戶使用場景極其復(fù)雜。
去年準(zhǔn)兒翻譯機上市以后,研發(fā)團隊就發(fā)現(xiàn)市場需求比想象的更廣泛,商旅用戶、旅行用戶甚至公安局出入境這些都是用戶。這就是做C端產(chǎn)品和B端產(chǎn)品不一樣的地方。
從旅游市場切入
當(dāng)前AI比較熱門,但是技術(shù)只有解決用戶在實際場景的需求才更有價值,在應(yīng)用上選擇什么領(lǐng)域非常重要。
分音塔當(dāng)時做翻譯機,選定了出境游市場。第一,中國人出境去年達到了1.29億人次,而且還在快速的增長,市場很大;第二,中國經(jīng)濟十幾年的發(fā)展,人們的消費隨之升級,出境游也從大眾化的跟團旅游發(fā)展到深度游,80、90后更愿意背著包自由行走,追求深度體驗。這些都會使人們出境游時,語言溝通不暢這一痛點,需求解決更為迫切。
聚焦出境游應(yīng)用,也避免了通用型的翻譯語言在個性化的應(yīng)用場景中“失真”,翻譯準(zhǔn)確率也會更高。
譯得準(zhǔn),從語義識別著手
人工智能翻譯技術(shù)涉及的技術(shù)很多,主要技術(shù)有語音識別、語義識別、機器翻譯、語音合成等。語音識別解決聽得到、聽得清的問題,語義識別則是解決聽得懂的問題。
同一種語系中,語義識別相對容易,比如拉丁語系很多單詞都差不多,翻譯準(zhǔn)確率就高。但不同的語系,由于文化習(xí)性差異大,語義識別難度就大。東方語系本來就語義復(fù)雜,比如漢語中的一句話,放不同的場景都能表達不同的意思。
分音塔做翻譯機,是中國人在外國使用,所以必須解決東西方語系下的語義識別問題。沒有現(xiàn)成的語言模型,自己從零開始做語料庫。國外很多地方都譯不準(zhǔn),很多專有名詞要根據(jù)國外的場景優(yōu)化,只能建自己的語料庫。比如和日本人聊到料理,日本當(dāng)?shù)氐牡孛?、菜名都需要重新做語料。
人類的語言表達很復(fù)雜,比如口頭禪,還有表達時該停頓的時候沒有停頓,都要通過語義識別來斷句。
LBS(基于位置的服務(wù))是輔助語義識別的有效途徑。比如檢測到用戶在日本,那么后臺會根據(jù)用戶所在的地方進行一些精準(zhǔn)的匹配,比如日本的專業(yè)名詞,同音詞的理解和翻譯上。
當(dāng)然,人工智能翻譯機最難的機器翻譯,也是分音塔科技最核心的技術(shù)優(yōu)勢。
直面實際應(yīng)用
語音識別其實在實地使用中面臨很大的挑戰(zhàn)。
某友商曾號稱自己的產(chǎn)品語音識別準(zhǔn)確率達96.7%,但測后發(fā)現(xiàn)還不到91%。原來該友商的檢測條件有三個:第一密閉安靜的環(huán)境,第二國家普通話二級水平,第三常用的語言。如果在實際應(yīng)用場景,這三個條件也許就變成了噪音、方言口音、非常用語。
分音塔研發(fā)團隊從降噪抓起。
在特別嘈雜的場景,差距30公分語音識別效率會大幅度下降。傳統(tǒng)音響考慮的是3到5米范圍內(nèi)的降噪,最后分音塔團隊逼自己開發(fā)適合0.5米到1.5的降噪技術(shù),使用起來效果非常好。
中國口音博大精深,外國也一樣。分音塔做出第一代翻譯機后,發(fā)現(xiàn)外國人也有口音,英語有美式、英式、加拿大、南非等很多口音,美式英語的口音識別很差。后來又改進,從最早上線支持四種語音,到目前支持39種語言、52種口音,成為支持語言、口音最多的翻譯機。它可以根據(jù)LBS場景來實時選擇當(dāng)?shù)厮枰目谝?,從而提升語音識別準(zhǔn)確率。
配屏是準(zhǔn)兒翻譯機的行業(yè)首創(chuàng)。人和人溝通,7%的信息傳遞是通過語言,38%是通過語調(diào)和語速,55%是通過表情和動作。為了增強人機交互,分音塔團隊堅定給準(zhǔn)兒翻譯機加了一塊屏,由此通過視覺來彌補聽覺的不足。
用戶在使用中還會面臨網(wǎng)絡(luò)環(huán)境的問題,比如中國、韓國、日本有全世界最好的網(wǎng)絡(luò),但到歐洲城郊幾乎就沒網(wǎng),加拿大、澳大利亞玩也這樣。這逼著分音塔團隊開發(fā)一些離線語音識別技術(shù)。目前,分音塔團隊與清華大學(xué)語音和語言技術(shù)研究中心聯(lián)手攻克了中、日、英三種語言的離線語音識別技術(shù),其中日語離線語音識別技術(shù)是國內(nèi)零突破。