第11部分 (第2/4頁)
使勁兒提示您:看後求收藏(奇妙書庫www.qmshu.tw),接著再看更方便。
修飾也會成為一個不難解決的問題。翌年,IBM的科學家和喬治敦大學的語言學家推出了一臺能夠進行俄英翻譯的機器,並且開啟了機器翻譯領域中的一個傳統:對翻譯質量的過高期待和轉換結果控制的力不從心。在一個只有250個單詞詞彙表的基礎上編寫的軟體,竟然負載了處理政治、法律、數學、化學、冶金學、交通和軍事等專業內容的期待。但是,新聞界卻被要求相信這一切。
6年之後,IBM公司的Mark I型計算機正在進行原文翻譯,這次又是從俄文到英文——反映出冷戰中期語言翻譯上的當務之急——據說達到了每分鐘800個單詞的速度,當時的人工翻譯速度是一個工作日只有2600個單詞。可譯出來的文章卻不是隻需稍加修飾那麼簡單——一個關於U…2飛行員弗朗西斯·加利·鮑威爾(Francis Gary Powers)的段落的開頭是這樣的:“它30年/費。據它/它的所稱,它是較老的空軍中尉美國。”但是人們仍然對此持樂觀態度,而作為“字對字”比對之補充的“句法規則”似乎被完全忽略了。國家標準局成立了一個“機器翻譯小組”來研究如何增加對語義和句子結構的理解,以解決所謂“水下山羊”問題(指的是由機器翻譯的俄語工程學論文經常將hydraulic ram'液壓油缸'譯成了“水下山羊”這一現象)。
應用語言學研究改進了機器翻譯的質量。1968年,專業翻譯公司Systran在巴黎創辦,它將成為為其他公司提供機器翻譯服務的先行者。這家公司由語言學家來解釋複雜的語法。一門語言,又一門語言,公司不斷增加能夠實現雙語互譯的語言的數量,到2005年,已經實現了40對語言之間的互譯。當谷歌打算提供用原文以外的其他語言顯示的Web頁面供使用者瀏覽時,它便求助於Systran公司為其後臺的機器翻譯提供技術支援,使谷歌的網頁可以根據使用者的具體要求進行動態顯示。當然,各語種之間的翻譯水平並不平衡,在最好的情況下,它也只能轉達原始檔中的梗概。符合語言習慣的段落仍舊難以表述。但這個缺陷似乎是機器翻譯與生俱來的:任何演算法也不能代替人工翻譯。。 最好的txt下載網
獨步天下的谷歌演算法(11)
但是,Systran建立在規則基礎上的技術只是機器翻譯的一種形式。另外一種不同的方法——IBM的研究者在20世紀90年代展示出其前景的——被稱為統計機器翻譯。它代表了告別以規則為基礎的方法而轉向人工智慧研究的大趨勢。它不是建立在人工擬定的語言規則基礎上,而是建立在由軟體自己開發的翻譯模式基礎上。由於軟體接收了數以百萬計的由人工完成的譯文組成的檔案——例如在加拿大議會用英語發表的演講及其官方法語譯文。這個軟體注重尋找句型、對比詞彙和短語,從A語言的第一段第一句以及它在B語言的相對應的句子開始。僅僅對照一組檔案,推匯出來的結論當然少得可憐。而一旦對照的檔案達到數百萬組,那麼一種語言中的句型和短語在目標語言中具體用什麼方式表達,就可以根據統計材料推匯出來。統計機器翻譯是谷歌研究人員在2003年初才開始研究的方法。
谷歌採用聯合國的多語種檔案作為訓練材料,向它的演算法輸入了2000億個單詞並讓這個軟體算出了每一對語言之間配對的句型。這個結果是顯而易見的。谷歌的說英語的程式設計師雖然不具備閱讀漢語或###語的能力,也根本不懂漢語或###語的語音、語義或語法,但他們卻設計出了一個能夠自學的演算法,它可以提供準確的、有時甚至是相當流利的譯文。在2005年的一次會議上,谷歌第一次公開地討論了它所進行的工作。為了證明統計機器翻譯能夠處理足夠大量的翻譯文字資料,特意用###語報紙上的一段新聞提要的兩種英文譯本進行了演示。第一種譯文由以規則為基礎的Systran軟體提供,它將那段###文顯示為“阿爾卑斯山白色的新出場的磁帶註冊為咖啡批准拉登”;第二個來自谷歌剛剛問世的程式,它顯示了一段完全不同的譯文:“白宮證實有新的本·拉登磁帶存在。”
谷歌的翻譯演算法在記者招待會這類有人監控的場合表現似乎令人印象深刻,證明它在獨立的測試中也站得住腳。的確,它的表現非常之好。2005年,谷歌第一次參加由國家標準與技術研究所主辦的機器翻譯軟體年度競賽,這個賽事吸引了來自大學、公司、政府實驗室和商業軟體製造業的研究人員。谷歌在有11個入選者參加的阿(###語)譯英比賽中名列第一(IBM名列第三,Syst