機(jī)器翻譯(簡(jiǎn)稱(chēng)“機(jī)譯”)一直是科技領(lǐng)域的一大難題。目前基于統(tǒng)計(jì)機(jī)譯方法的在線工具如谷歌翻譯、必應(yīng)翻譯、臉譜翻譯、寶貝魚(yú)翻譯、巴比倫翻譯等,其翻譯結(jié)果勉強(qiáng)可用,但離完美還相去甚遠(yuǎn)。
為提高在線翻譯質(zhì)量,美國(guó)谷歌(Google)公司的三名工程師最近提出一種嶄新的機(jī)譯方法:將語(yǔ)言翻譯變成向量空間數(shù)學(xué)問(wèn)題,利用數(shù)據(jù)挖掘技術(shù)建模一種語(yǔ)言的結(jié)構(gòu),然后與另一種語(yǔ)言的結(jié)構(gòu)進(jìn)行對(duì)比,從而擴(kuò)充和完善現(xiàn)有的雙語(yǔ)語(yǔ)料庫(kù)。該研究成果的論文預(yù)印本于9月17日在著名網(wǎng)站arXiv.org公開(kāi)后,引起了學(xué)術(shù)界的廣泛關(guān)注。
新的方法依賴(lài)于一個(gè)概念,即每一種語(yǔ)言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數(shù)語(yǔ)言中都有描述相同動(dòng)物的單詞,如“狗”、“貓”和“?!保@些單詞很可能以相同的方式在句子中使用,如“貓是一種比狗小的動(dòng)物”。
數(shù)字也一樣;上圖顯示了在英語(yǔ)和西班牙語(yǔ)中數(shù)字(一至五)的向量表示法以及它們是如何相似的。
語(yǔ)言中單詞之間的關(guān)系集合被稱(chēng)為“語(yǔ)言空間”(language space),可類(lèi)比為一個(gè)點(diǎn)到另一個(gè)點(diǎn)的向量集合,能以數(shù)學(xué)的方式進(jìn)行處理,例如“國(guó)王”減去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。
在向量空間中,許多語(yǔ)言都有共通之處,可以利用向量空間線性變換將一種語(yǔ)言翻譯成另一種語(yǔ)言。工程師們說(shuō),“盡管它很簡(jiǎn)單,我們的方法出奇有效;在翻譯英語(yǔ)和西班牙語(yǔ)之間的單詞和短語(yǔ)時(shí),準(zhǔn)確率可以達(dá)到幾乎90%?!?
中國(guó)數(shù)學(xué)家和語(yǔ)言學(xué)家周海中認(rèn)為,這種基于線性代數(shù)的機(jī)譯方法很有新意也有實(shí)效。不過(guò),他對(duì)不同語(yǔ)系的自然語(yǔ)言(如英語(yǔ)和漢語(yǔ))在線翻譯是否也有那么高的準(zhǔn)確率表示懷疑。他強(qiáng)調(diào):不管用什么方法來(lái)提高機(jī)譯質(zhì)量,首先要解決的是自然語(yǔ)言的本身問(wèn)題,尤其是語(yǔ)義表達(dá)和語(yǔ)用功能,而不是計(jì)算機(jī)編程問(wèn)題或數(shù)學(xué)建模問(wèn)題。“在人類(lèi)尚未明了大腦是如何進(jìn)行自然語(yǔ)言的模糊識(shí)別和邏輯判斷的情況下,機(jī)譯質(zhì)量要想達(dá)到‘信、達(dá)、雅’的程度是不可能的?!敝芎V姓f(shuō)。