第12部分 (第1/4頁)
使勁兒提示您:看後求收藏(奇妙書庫www.qmshu.tw),接著再看更方便。
那一年的早些時候,谷歌的奧奇在一個公開的場合談及機器翻譯的結果時,談到了谷歌最好的一面:這個組織致力於不斷開拓資訊傳播的廣度,看不出它對自己的商業利益的關心。他說,如果聽眾中有人打算親手建設一個機器翻譯的演算法,谷歌很願意提供幫助。谷歌同非營利###的賓夕法尼亞大學的語言資料聯盟(Linguistic Data Consortium)合作,一開始就以運費的名義提供了一套包含必要的基礎訓練資料的DVD,這套資料列舉了各種詞語組合——其長度(技術術語表示為precounted n…grams)從1個詞到5個詞不等——的使用頻率,它們的基礎就是谷歌的爬行器從Web中搜集來的上萬億個詞彙量的英語文獻。
統計機器翻譯依靠平行文字向“演算法”輸入資訊——奧奇說,至少要輸入1億字左右的平行資料,才能建立一個能夠產生理###可以接受的結果的翻譯系統。對於平行文字的這種依賴,限制了適用於機器翻譯的語言配對的數量。目前,還沒有足夠的雙語文字可賴以建立一個(比如說)直接從希臘語翻譯為泰語的系統,所以在這樣一個過渡時期,橋樑###語言——如英語——就必不可少。機器翻譯最終能否將任何語言的文字直接翻譯成任一其他語言?採用基於理解語言學和建立中介###源語言等方法有無必要?這些問題都還沒有明確的答案。迄今為止,人們看到的是,似乎只要有了足夠大量的資料,不可能的任務也會變為可能。
谷歌程式的速度令人震驚,人們也有理由對它持樂觀的期待。它的統計機器翻譯所提供的服務從2007年春天的3種源語言增加到了13種,然後是23種,這都是在不到一年的時間內取得的。公司不僅能提供從非英語到英語的翻譯,而且能在這23種源語言中的任兩個語言之間實現互譯。截至2008年5月,這些語言是:###文、保加利亞文、中文(包括簡體中文和繁體中文)、克羅埃西亞文、捷克文、丹麥文、英文、芬蘭文、法文、德文、希臘文、印地文、義大利文、韓文、日文、挪威文、波蘭文、羅馬尼亞文、俄文、西班牙文、瑞典文和葡萄牙文。
機器翻譯專案證明了谷歌是如何被“更多的資料是更好的資料”這一信條所驅動的。在資訊產業,完全###——無論是就一個資訊目錄的完整###而言還是就包括的目錄的窮盡###而言,都是至為關鍵的因素,因為資料達到前所未有地多,只會使演算法的智慧化水平變得前所未有地高,這反過來又鞏固了谷歌的領先地位,把對手更遠地甩在身後。
谷歌以免費電話為基礎的資訊服務,1…800…GOOG…411就是一個很好的例證。這項服務運用聲音識別軟體來提供本地企業的電話號碼諮詢。這項服務不收費,也不夾帶廣告。谷歌的瑪麗莎·梅耶爾在2007年10月的一次談話中承認,她也懷疑谷歌是不是會變成一個公益###機構。但她並不擔心,因為谷歌是利用這項服務蒐集音素,而不是賺取利潤。她說:“我們必須建成一個可用於各種不同事物(包括影片搜尋在內)的更大的從話語到文字的模型。”谷歌的話語識別專家曾對她說:“如果你們###們去建立一個真正強有力的話語模型,我們就需要很多的音素……人們怎樣交談、怎樣說事兒。有了這些,我們最終就可以訓練軟體來掌握並應用它們。”還是那句話:“更多的資料是更好的資料。”
谷歌知道,演算法的結果不是沒有瑕疵,但公司將演算法的缺陷視為資料量不夠大而導致的侷限,是其內部工作有待完善而出現的微調,絕不會將它當作自動化程式固有的問題。公司已經決定向演算法輸入更多的資訊,這些資訊必須以前所未有的力量進一步搜尋才能得到。它已經可以充滿自信地宣佈,已經擁有了所能找到的一切圖書,擁有了它的使用者可能點選的一切影片,擁有了能夠覆蓋天空和大地的各類地圖。
在這些額外新增到谷歌資訊庫的東西中,有一些對它可能顯得無關緊要,因為它的核心興趣是網路搜尋及相關廣告;有些可能會被證明屬於浪費###的實驗,有些可能會被證明為廣受歡迎卻最終無法得到回報的服務。它們或許會——或許不會——反過來對谷歌的前途產生重大影響。每一項都有自己的故事,但主題卻是共同的:谷歌對新的資訊種類的熱切追求沒有減退也沒有動搖;即使在它的公眾形象被它的行動所引起的爭論所損害的時候,也一如既往。
當每一個展開的故事都受到仔細檢查時,谷歌這塊巨石的光滑表面就會消退,隨時調整決定的更加複雜的面目就會浮現。私