第11部分 (第4/4頁)
使勁兒提示您:看後求收藏(奇妙書庫www.qmshu.tw),接著再看更方便。
的工程師弗朗茨·奧奇(Franz Och)說:“在自然程式領域有一種著名的說法,‘更多的資料就是更好的資料’。”為什麼谷歌一直使用那些從Web網頁中搜集的2×1012詞彙量的文字?原因就在於:寫作質量無從擔保,但絕對海量的額外資料對翻譯演算法質量的改進卻是實實在在的。
獨步天下的谷歌演算法(13)
谷歌在機器翻譯方面的成就還不能被說成是獲得了足以養活自己的收益。谷歌在服務領域的拓展中所遇到的最複雜的問題就是,許多拓展專案對公司毫無貢獻,至少沒有直接貢獻。儘管如此,機器翻譯仍是一個恰當的專案。谷歌並沒有急於將它的機器翻譯能力投入商業###應用。它的機器翻譯團隊還只是谷歌實驗室的一部分,而且其主要精力都放在研究上。在實驗的基礎上,團隊在2007年為使用谷歌搜尋引擎的使用者提供了三種語言——###語、漢語、俄語——的英語翻譯服務。
隨著谷歌的翻譯工作不斷取得進展,它的翻譯結果也遠不止於經過了潤色和符合語言習慣。當《華爾街日報》的雙語(英語、###語)記者薩馬德·阿里(Sarmad Ali)於2007年12月在試用谷歌、Systran和另外兩個競爭者的阿-英線上翻譯服務時,他為這幾家公司的翻譯結果中的語法錯誤和語義錯誤列了一張表,按照錯誤的程度排列順序,從“值得斟酌”到“荒唐可笑”都有。
那一年的早些時候,谷歌的奧奇在一個公開的場合談及機器翻譯的結果時,談到了谷歌最好的一面:這個組織致力於不斷開拓資訊傳播的廣度,看不出它對自己的商業利益的關心。他說,如果聽眾中有人打算親手�