京文提示您:看後求收藏(奇妙書庫www.qmshu.tw),接著再看更方便。
同口音的識別和環境噪音的排除是語音識別倆個難題,要解決這些問題需要大量的第一手語音資料片段來建立一個海量的語音特徵知識庫,或者是開發出像克里這般高度智慧的超級電腦。
克里根據杜克下載的理論資料,結合各種語音片段分析,不斷對語音識別基礎演算法進行了更新,並且生成不同的語音識別模擬器——這是主要考慮到地球現在主流電腦的運算水平比起克里來說實在太低階。
以模擬iphone4s的50%運算能力為最低基準,克里模擬出不同效能情況下該語音識別演算法的準確率和反應時間,原始版本從最初基準效能下5秒內能夠達到90%的識別準確率——當然這個成績已經遠超現在地球上所有語音識別軟體水準。
要知道這個90%準確率是用數千段不同語境的不同口音中英文語音資訊進行模擬識別檢驗,也就是說基本上考慮了各種口音及噪音的過濾處理。
這個成績已經比現在只會聽英文的蘋果Siri要強多了,畢竟Siri現在能夠識別的也是比較標準的英文發音。不信你拿印度口音和新加坡口音的英語錄音片段試試看Siri能夠識別出多少來。
如果是在一臺模擬效能接近雙核2G以上主頻電腦上,這個指標的識別水平將會提升到2秒以內達到97%以上準確率,反應時間同識別準確率其實有些衝突,因為要識別更加準確必須要原始版本的語音語料庫基礎資料來源更加豐富。
聲音取樣越廣泛識別準確率越高,而語音樣本庫越龐大,用於搜尋匹配的時間就會越久導致反應時間的延長,因此語音樣本的抽樣壓縮和語音搜尋匹配演算法一直是克里最佳化的倆個重點。
克里一直在不停地模擬改進提�