【編者按】谷歌于9月27日發(fā)布了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),宣布將 GNMT 投入到了非常困難的中英翻譯中,據(jù)稱其準(zhǔn)確度已"接近人工筆譯"! 有人稱它為"翻譯界的重大突破",還有人擔(dān)憂"翻譯要下崗"。
谷歌于前天(9月27日)發(fā)布了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),并于昨天(9月28日)在谷歌 Research Blog 發(fā)布文章對(duì)該研究進(jìn)行了介紹,還宣布將 GNMT 投入到了非常困難的中英翻譯中,據(jù)稱其準(zhǔn)確度已"接近人工筆譯"! 有人稱它為"翻譯界的重大突破",還有人擔(dān)憂"翻譯要下崗"。翻譯公司排名
谷歌發(fā)布的論文和博客到底講的什么?
我們綜合了論文內(nèi)容和Techcrunch的一篇入門級(jí)技術(shù)文章,將神經(jīng)機(jī)器翻譯的難題與Google的解決方案及目標(biāo)達(dá)成結(jié)果整理如下:
神經(jīng)機(jī)器翻譯一直以來面對(duì)的難題有兩個(gè),一是訓(xùn)練和翻譯過程代價(jià)巨大,數(shù)據(jù)和模型的超大規(guī)模經(jīng)常讓傳統(tǒng)訓(xùn)練無法順利進(jìn)行。二是神經(jīng)機(jī)器翻譯系統(tǒng)在生僻字處理過程中沒有形成一個(gè)健全的解決方案。
Google神經(jīng)機(jī)器翻譯(GNMT)針對(duì)這些問題提出了自己的解決辦法,新的注意機(jī)制(Attention Mechanism)將解碼層的低端和編碼層的開端連接在一起,提高平行計(jì)算以減少訓(xùn)練時(shí)長(zhǎng)。
對(duì)于生僻字的處理,Google選擇進(jìn)行"個(gè)個(gè)擊破"戰(zhàn)術(shù),我們可以把Google神經(jīng)機(jī)器翻譯的過程比作人在看到一幅畫時(shí)大腦的處理過程:面對(duì)一幅美術(shù)作品,我們會(huì)看到整個(gè)畫面,也會(huì)注意到畫里的小素材。這也是Google對(duì)罕見詞翻譯時(shí)的處理方式。神經(jīng)機(jī)器翻譯會(huì)把罕見詞分為單字進(jìn)行拆解并放在上下文中進(jìn)行考量。這種生僻字解決辦法增加了翻譯的準(zhǔn)確率和可讀性。論文結(jié)論是,Google的神經(jīng)機(jī)器翻譯比起其前期的基于短語的翻譯系統(tǒng)將翻譯錯(cuò)誤平均降低了60%。
真的這么牛嗎?我們不妨來實(shí)際一下谷歌神經(jīng)機(jī)器翻譯的整篇翻譯能力。如下,我們列舉了Google研究博客發(fā)表的技術(shù)性較強(qiáng)的關(guān)于神經(jīng)機(jī)器翻譯的正文,與Google神經(jīng)機(jī)器翻譯所做的英譯中文本,還有人工筆譯結(jié)果(源自機(jī)器之心公眾號(hào)),大家來對(duì)照看看:
英文原文:Ten years ago, we announced the launch of Google Translate, together with the use of Phrase-Based Machine Translation as the key algorithm behind this service. Since then, rapid advances in machine intelligence have improved our speech recognition and image recognition capabilities, but improving machine translation remains a challenging goal.
谷歌機(jī)翻:十年前,我們宣布推出谷歌的翻譯,與使用短語基于機(jī)器翻譯的,因?yàn)樵摲?wù)背后的關(guān)鍵算法在一起。此后,機(jī)器智能的快速發(fā)展,提高了我們的語音識(shí)別和圖像識(shí)別能力,而且提高了機(jī)器翻譯仍然是一個(gè)具有挑戰(zhàn)性的目標(biāo)。
人工筆譯:十年前,我們發(fā)布了 Google Translate(谷歌翻譯),這項(xiàng)服務(wù)背后的核心算法是基于短語的機(jī)器翻譯(PBMT:Phrase-Based Machine Translation)。自那時(shí)起,機(jī)器智能的快速發(fā)展已經(jīng)給我們的語音識(shí)別和圖像識(shí)別能力帶來了巨大的提升,但改進(jìn)機(jī)器翻譯仍然是一個(gè)高難度的目標(biāo)。
英文原文:Today we announce the Google Neural Machine Translation system (GNMT), which utilizes state-of-the-art training techniques to achieve the largest improvements to date for machine translation quality. Our full research results are described in a new technical report we are releasing today: "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation" [1].
谷歌機(jī)翻:今天我們宣布谷歌神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),它利用國家的最先進(jìn)的訓(xùn)練技術(shù),以實(shí)現(xiàn)最新機(jī)器翻譯的質(zhì)量最大的改進(jìn)。我們充分的調(diào)研結(jié)果在我們今天推出一項(xiàng)新的技術(shù)報(bào)告中描述:"谷歌的神經(jīng)機(jī)器翻譯系統(tǒng):彌合人類與機(jī)器翻譯差距"[1]。
人工筆譯:今天,我們宣布發(fā)布谷歌神經(jīng)機(jī)器翻譯(GNMT:Google Neural Machine Translation)系統(tǒng),該系統(tǒng)使用了當(dāng)前最先進(jìn)的訓(xùn)練技術(shù),能夠?qū)崿F(xiàn)到目前為止機(jī)器翻譯質(zhì)量的最大提升。我們的全部研究結(jié)果詳情請(qǐng)參閱我們的論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。
英文原文:A few years ago we started using Recurrent Neural Networks (RNNs) to directly learn the mapping between an input sequence (e.g. a sentence in one language) to an output sequence (that same sentence in another language) [2]. Whereas Phrase-Based Machine Translation (PBMT) breaks an input sentence into words and phrases to be translated largely independently, Neural Machine Translation (NMT) considers the entire input sentence as a unit for translation.The advantage of this approach is that it requires fewer engineering design choices than previous Phrase-Based translation systems. When it first came out, NMT showed equivalent accuracy with existing Phrase-Based translation systems on modest-sized public benchmark data sets.
谷歌機(jī)翻:幾年前,我們開始使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),直接學(xué)習(xí)輸入序列(例如,在一種語言的句子),以輸出序列(另一種語言,同一個(gè)句子)之間的映射關(guān)系[2]。而短語基于機(jī)器翻譯(PBMT)打破了整句輸入到單詞和短語,在很大程度上獨(dú)立翻譯,神經(jīng)機(jī)器翻譯(NMT)認(rèn)為,整個(gè)輸入句子作為這種方法的優(yōu)點(diǎn)translation.The一個(gè)單位,它需要較少的工程設(shè)計(jì)的選擇比以前的短語為基礎(chǔ)的翻譯系統(tǒng)。當(dāng)它第一次出來,NMT表現(xiàn)出與上中等規(guī)模的公共基準(zhǔn)數(shù)據(jù)集現(xiàn)有的短語為基礎(chǔ)的翻譯系統(tǒng)精度相當(dāng)。
人工筆譯:幾年前,我們開始使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN:Recurrent Neural Networks)來直接學(xué)習(xí)一個(gè)輸入序列(如一種語言的一個(gè)句子)到一個(gè)輸出序列(另一種語言的同一個(gè)句子)的映射。其中基于短語的機(jī)器學(xué)習(xí)(PBMT)將輸入句子分解成詞和短語,然后在很大程度上對(duì)它們進(jìn)行獨(dú)立的翻譯,而神經(jīng)機(jī)器翻譯(NMT)則將輸入的整個(gè)句子視作翻譯的基本單元。這種方法的優(yōu)點(diǎn)是:相比于之前的基于短語的翻譯系統(tǒng),這種方法所需的工程設(shè)計(jì)更少。當(dāng)其首次被提出時(shí),NMT 在中等規(guī)模的公共基準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確度,就達(dá)到了可與基于短語的翻譯系統(tǒng)媲美的程度。
英文原文:Since then, researchers have proposed many techniques to improve NMT, including work on handling rare words by mimicking an external alignment model [3], using attention to align input words and output words [4] and breaking words into smaller units to cope with rare words [5,6]. Despite these improvements, NMT wasn't fast or accurate enough to be used in a production system, such as Google Translate. Our new paper [1] describes how we overcame the many challenges to make NMT work on very large data sets and built a system that is sufficiently fast and accurate enough to provide better translations for Google's users and services.
谷歌機(jī)翻:自那時(shí)以來,研究者提出了許多技術(shù)來提高NMT,包括通過模仿外部對(duì)準(zhǔn)模型[3]處理罕見詞語工作,使用注意對(duì)準(zhǔn)輸入字和[4]輸出字和分?jǐn)嘧謩澐殖尚挝?,以?yīng)付稀有詞語[5,6]。盡管有這些改進(jìn),NMT是不是快或不夠準(zhǔn)確在生產(chǎn)系統(tǒng)中使用,如谷歌翻譯。我們的新文獻(xiàn)[1]介紹了我們克服了許多挑戰(zhàn)做出非常大的數(shù)據(jù)集NMT工作,建立了一個(gè)系統(tǒng),是足夠快,足夠精確,為谷歌的用戶和服務(wù)更好的翻譯。
人工筆譯:自那以后,研究者已經(jīng)提出了很多改進(jìn) NMT 的技術(shù),其中包括模擬外部對(duì)準(zhǔn)模型(external alignment model)來處理罕見詞,使用注意(attention)來對(duì)準(zhǔn)輸入詞和輸出詞 ,以及將詞分解成更小的單元應(yīng)對(duì)罕見詞。盡管有這些進(jìn)步,但 NMT 的速度和準(zhǔn)確度還沒能達(dá)到成為 Google Translate 這樣的生產(chǎn)系統(tǒng)的要求。我們的新論文描述了怎樣克服讓 NMT 在非常大型的數(shù)據(jù)集上工作的許多挑戰(zhàn)、如何打造一個(gè)在速度和準(zhǔn)確度上都足夠能為谷歌 用戶和服務(wù)帶來更好的翻譯體驗(yàn)的系統(tǒng)。
英文原文:Data from side-by-side evaluations, where human raters compare the quality of translations for a given source sentence. Scores range from 0 to 6, with 0 meaning "completely nonsense translation", and 6 meaning "perfect translation."
谷歌機(jī)翻:從并排側(cè)評(píng)估,其中人工評(píng)級(jí)比較的翻譯給定的源句子的質(zhì)量數(shù)據(jù)。分?jǐn)?shù)范圍從0到6,0表示"完全胡說八道翻譯",和6個(gè)意思是"完美的翻譯。"
人工筆譯:來自對(duì)比評(píng)估的數(shù)據(jù),其中人類評(píng)估者對(duì)給定源句子的翻譯質(zhì)量進(jìn)行比較評(píng)分。得分范圍是 0 到 6,其中 0 表示"完全沒有意義的翻譯",6 表示"完美的翻譯"。
英文原文:The following visualization shows the progression of GNMT as it translates a Chinese sentence to English. First, the network encodes the Chinese words as a list of vectors, where each vector represents the meaning of all words read so far ("Encoder"). Once the entire sentence is read, the decoder begins, generating the English sentence one word at a time ("Decoder"). To generate the translated word at each step, the decoder pays attention to a weighted distribution over the encoded Chinese vectors most relevant to generate the English word ("Attention"; the blue link transparency represents how much the decoder pays attention to an encoded word).
谷歌機(jī)翻:下面的可視化顯示GNMT的進(jìn)展,因?yàn)樗g一個(gè)句子中國英語。首先,該網(wǎng)絡(luò)編碼中國字作為載體的列表,其中,每個(gè)向量表示到目前為止讀到的所有詞語的含義("編碼器")。一旦整個(gè)句子被讀出,解碼器開始,在時(shí)間("譯碼器")生成的英語句子一個(gè)字。在每一步產(chǎn)生的譯詞,解碼器注重在最相關(guān)的生成英文單詞編碼中國向量的加權(quán)分布("注意";藍(lán)色鏈接透明度表示解碼器多少注重編碼字)。
人工筆譯:該網(wǎng)絡(luò)將該漢語句子的詞編碼成一個(gè)向量列表,其中每個(gè)向量都表征了到目前為止所有被讀取到的詞的含義(編碼器(Encoder))。一旦讀取完整個(gè)句子,解碼器就開始工作--一次生成英語句子的一個(gè)詞(解碼器(Decoder))。為了在每一步都生成翻譯正確的詞,解碼器重點(diǎn)注意了與生成英語詞最相關(guān)的編碼的漢語向量的權(quán)重分布(「注意(Attention)),藍(lán)色鏈接的透明度表示解碼器對(duì)一個(gè)被編碼的詞的注意程度)。
英文原文:Using human-rated side-by-side comparison as a metric, the GNMT system produces translations that are vastly improved compared to the previous phrase-based production system. GNMT reduces translation errors by more than 55%-85% on several major language pairs measured on sampled sentences from Wikipedia and news websites with the help of bilingual human raters.
谷歌機(jī)翻:使用人類的額定側(cè)方比較作為度量,則GNMT系統(tǒng)產(chǎn)生被相比以前的基于短語的生產(chǎn)體系大大提高了翻譯。 GNMT對(duì)維基百科采樣句子和新聞網(wǎng)站雙語人工評(píng)級(jí)的幫助下測(cè)得的幾種主要語言對(duì)超過55%-85%,減少了翻譯錯(cuò)誤。
人工筆譯:使用人類評(píng)估的并排比較作為一項(xiàng)標(biāo)準(zhǔn),GNMT 系統(tǒng)得出的翻譯相比于之前基于短語的生產(chǎn)系統(tǒng)有了極大提升。在雙語人類評(píng)估者的幫助下,我們?cè)趤碜跃S基百科和新聞網(wǎng)站的樣本句子上測(cè)定發(fā)現(xiàn):GNMT 在多個(gè)主要語言對(duì)的翻譯中將翻譯誤差降低了 55%-85% 甚至更多。
英文原文:An example of a translation produced by our system for an input sentence sampled from a news site. Go here for more examples of translations for input sentences sampled randomly from news sites and books.
谷歌機(jī)翻:通過我們的系統(tǒng),用于從新聞網(wǎng)站采樣的輸入句子生成的翻譯的一個(gè)例子。去這里的翻譯從新聞網(wǎng)站和書籍,隨機(jī)采樣的輸入句子的例子。
人工筆譯:上圖是我們的系統(tǒng)在一個(gè)新聞網(wǎng)站上選取句子之后,進(jìn)行翻譯的范例。點(diǎn)擊此處獲取更多從新聞網(wǎng)站和書籍中隨機(jī)抽取的例句翻譯樣本。
英文原文:In addition to releasing this research paper today, we are announcing the launch of GNMT in production on a notoriously difficult language pair: Chinese to English. The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English-about 18 million translations per day. The production deployment of GNMT was made possible by use of our publicly available machine learning toolkit TensorFlow and our Tensor Processing Units (TPUs), which provide sufficient computational power to deploy these powerful GNMT models while meeting the stringent latency requirements of the Google Translate product. Translating from Chinese to English is one of the more than 10,000 language pairs supported by Google Translate, and we will be working to roll out GNMT to many more of these over the coming months.
谷歌機(jī)翻:除了今天發(fā)布這個(gè)研究論文,我們宣布在生產(chǎn)中推出GNMT的一個(gè)非常困難的語言對(duì):中國人英語。谷歌翻譯的移動(dòng)和現(xiàn)在的Web應(yīng)用程序所使用的GNMT機(jī)器翻譯從中國到每天英語約1800萬翻譯的100%。 GNMT的生產(chǎn)部署是通過使用我們的公開可用的機(jī)器學(xué)習(xí)工具包TensorFlow和我們的張量處理單元(熱塑性聚氨酯),提供足夠的計(jì)算能力來部署這些功能強(qiáng)大的GNMT模式,同時(shí)滿足谷歌的嚴(yán)格延遲要求翻譯的產(chǎn)品成為可能。從中國翻譯成英語是由谷歌翻譯支持10000多個(gè)語言對(duì)之一,我們將努力在未來幾個(gè)月內(nèi)推出GNMT到更多的這些。
人工筆譯:今天除了發(fā)布這份研究論文之外,我們還宣布將 GNMT 投入到了一個(gè)非常困難的語言(漢語-英語)的翻譯的生產(chǎn)中。現(xiàn)在,移動(dòng)版和網(wǎng)頁版的 Google Translate 的漢英翻譯已經(jīng)在 100% 使用 GNMT 機(jī)器翻譯了--每天大約 1800 萬條翻譯。GNMT 的生產(chǎn)部署是使用我們公開開放的機(jī)器學(xué)習(xí)工具套件 TensorFlow 和我們的張量處理單元(TPU:Tensor Processing Units),它們?yōu)椴渴疬@些強(qiáng)大的 GNMT 模型提供了足夠的計(jì)算算力,同時(shí)也滿足了 Google Translate 產(chǎn)品的嚴(yán)格的延遲要求。漢語到英語的翻譯是 Google Translate 所支持的超過 10000 種語言對(duì)中的一種,在未來幾個(gè)月,我們還將繼續(xù)將我們的 GNMT 擴(kuò)展到遠(yuǎn)遠(yuǎn)更多的語言對(duì)上。
英文原文:Machine translation is by no means solved. GNMT can still make significant errors that a human translator would never make, like dropping words and mistranslating proper names or rare terms, and translating sentences in isolation rather than considering the context of the paragraph or page. There is still a lot of work we can do to serve our users better. However, GNMT represents a significant milestone. We would like to celebrate it with the many researchers and engineers-both within Google and the wider community-who have contributed to this direction of research in the past few years.
谷歌機(jī)翻:機(jī)器翻譯是沒有解決的辦法。 GNMT仍然可以顯著的錯(cuò)誤,翻譯人員會(huì)落空,就像在隔離下探文字和mistranslating專有名稱或稀有條款,翻譯句子而不是考慮的段落或頁面的上下文。還有很多我們可以做服務(wù)我們的用戶提供更好的工作。不過,GNMT代表顯著的里程碑。我們?cè)概c在谷歌的許多研究人員和工程師和慶祝它更廣泛的社會(huì),誰在過去幾年的研究這個(gè)方向作出了貢獻(xiàn)。
人工筆譯:機(jī)器翻譯還遠(yuǎn)未得到完全解決。GNMT 仍然會(huì)做出一些人類翻譯者永遠(yuǎn)不出做出的重大錯(cuò)誤,例如漏詞和錯(cuò)誤翻譯專有名詞或罕見術(shù)語,以及將句子單獨(dú)進(jìn)行翻譯而不考慮其段落或頁面的上下文。為了給我們的用戶帶來更好的服務(wù),我們還有更多的工作要做。
但是,GNMT 代表著一個(gè)重大的里程碑。我們希望與過去幾年在這個(gè)研究方向上有所貢獻(xiàn)的許多研究者和工程師一起慶祝它--不管是來自谷歌還是更廣泛的社區(qū)。
英文原文:
Acknowledgements:
We thank members of the Google Brain team and the Google Translate team for the help with the project. We thank Nikhil Thorat and the Big Picture team for the visualization.
谷歌機(jī)翻:
致謝:
我們感謝谷歌大腦小組成員和谷歌翻譯團(tuán)隊(duì)與項(xiàng)目的幫助。我們感謝尼基爾Thorat和大圖片隊(duì)伍,為可視化。
人工筆譯:
致謝:
我們對(duì)Google Brain和Google Translation團(tuán)隊(duì)對(duì)此項(xiàng)目給予的幫助表示由衷的感謝。并感謝Nikhil Thorat和Big Picture團(tuán)隊(duì)的視覺呈現(xiàn)。
【參考文獻(xiàn)略】
全文結(jié)束。怎么樣,對(duì)比下來,感覺谷歌機(jī)器翻譯是否已"接近人工筆譯"了呢?還會(huì)擔(dān)憂"翻譯要下崗"嗎?
|