第11部分 (第3/4頁)
使勁兒提示您:看後求收藏(奇妙書庫www.qmshu.tw),接著再看更方便。
ran名列第七),在有16個參賽者的漢譯英比賽中也名列第一(IBM名列第六,Systran名列第十二)。這對一個新手來說是個不錯的成績。
在這次比賽中,基本的測量手段是將機器製作的譯文同被視為“黃金標準”的人類翻譯家提供的參考譯文進行比照。從0到1的得分情況表明機器翻譯與人工翻譯的吻合度——1表示完全吻合。分數是一個最直接的計算問題,它由評估軟體自動完成,減少了人工評判的主觀###。同樣的軟體也曾被用在比賽之外。研究人員可以對演算法進行微調,將測試檔案輸進去,馬上就可以看到,在翻譯質量可測量的改進中,結果是否發生了變化。
谷歌不僅利用雙語平行文字建立了一種翻譯模式,它還用軟體創造了單語種的“語言模式”,對由翻譯模式製作的任何譯文進行潤色,使之更加流暢。“演算法”在大量具備專業水準的文獻中尋找句型,進而教會自己識別哪些是地道的英語表達方式。恰巧,谷歌已經在它的伺服器中使用了一個這種型別的文集——由“谷歌新聞”所檢索的報道。即使“谷歌新聞”的使用者總是被導向新聞機構的Web網頁,但谷歌仍將貯存的新聞副本饋送給它自己的演算法。人們偶然發現,這個經專業手法潤色的文字寶庫——截至2007年4月已經收集了5億字——是個使用起來極其方便的訓練用文集,絕對適合於教會機器流暢地使用英語。。 最好的txt下載網
獨步天下的谷歌演算法(12)
如果你所從事的是將全世界的資訊組織起來的職業,那麼,在某個領域學到的東西總會在另一個領域裡得到實際應用。如果說谷歌的統計機器翻譯專案得益於谷歌旗下其他部門的工作,那麼它也以各種方式回報了這些部門的恩惠。研發單一語言的統計技術模型轉過來為研發任一語言的發音監測軟體提供了便利(這個軟體的監測範圍包括了哪怕是新近出現的名人姓名的發音),它無需經過人工編輯之手,也無需藉助詞典,只要給“演算法”輸入足夠分量的公開發表的文章,就絕對可以讓它掌握正確的發音。能使它做到這一步的技術保障就是對出現頻率的統計分析。
谷歌使用的搜尋程式也得到了由研發團隊使用的計算部件的極大幫助。由該領域的許多學術研究者使用的一套資料(由語言資料聯盟Linguistic Data Consortium提供)有52億個單詞。但谷歌可以處理大得多的集合,如僅僅從它所索引的網頁中抽取出來的單詞就達到了2×1012個。“我們沒有更好的演算法,”谷歌的彼得·諾維奇說,“我們只是有更多的資料。”
為了給單句找到最好的譯文,谷歌的演算法搜尋了上百萬可能的短語組合。硬碟不適合作為保留資料隨時備查的中介,只有隨機存取記憶體(RAM,random access memory)才最合適。隨機存取記憶體存量巨大是非常必要的——谷歌供人隨時查考的正是這巨大的存量。統計機器翻譯很適合於分佈在數千臺機器中進行,而谷歌的資料中心(雖然最初是為了其他目的而建)的裝置就能承受這種計算上的負荷。
有了可以處理任何規模的計算問題的計算基礎設施,谷歌的研究者便擁有了一個可以傲視群雄的巨大優勢。他們的程式執行之快,在2005年國家標準和技術研究所舉行的機器翻譯競賽中已經得到了體現;在2006年的競賽中,他們又佔據了領先地位。在參加阿-英翻譯的22個競賽者中,谷歌的整體成績排名第一;在參加漢-英翻譯的24個競賽者中,谷歌名列第二(被南加州大學著名的資訊科學研究所險勝)。
Systran的主席兼CEO季米特里斯·沙巴塔卡基斯(Dimitris Sabatakakis)不能理解為何統計機器翻譯的結果總是超過他的規則基礎技術。2005年競賽結束後,他替以規則為基礎的方法作了些辯護,並建議沒有僱用以漢語為母語的人員的谷歌不要再玩弄類似花招。就Systran而言,“如果我們沒有中國人,我們的系統就可能出現嚴重的錯誤”。他不理解,如果沒有母語為漢語的人對譯文反覆檢驗,谷歌為何能在2005年把Systran徹底打敗。但他沒有立即報名再次參加比賽:Systran從2006年的競賽中消失了。2007年沒有舉行比賽。所以尚不清楚Systran是否已經決定永遠不再與統計機器翻譯直接較量。
谷歌沒有聲稱擁有最複雜的翻譯演算法,但它的確擁有一些其他的機器翻譯團隊所不具備的東西:體量最大的訓練資料。2007年,負責機器翻譯研究