著錄項信息
專利名稱 | 用于自動機器翻譯系統(tǒng)中的方法 |
申請?zhí)?/td> | CN200410062835.6 | 申請日期 | 2004-06-21 |
法律狀態(tài) | 權利終止 | 申報國家 | 中國 |
公開/公告日 | 2005-02-02 | 公開/公告號 | CN1573741 |
優(yōu)先權 | 暫無 | 優(yōu)先權號 | 暫無 |
主分類號 | G06F17/28 | IPC分類號 | G;0;6;F;1;7;/;2;8查看分類表>
|
申請人 | 微軟公司 | 申請人地址 | 美國華盛頓州
變更
專利地址、主體等相關變化,請及時變更,防止失效 |
權利人 | 微軟技術許可有限責任公司 | 當前權利人 | 微軟技術許可有限責任公司 |
發(fā)明人 | S·D·里查德森;R·F·拉史德 |
代理機構(gòu) | 上海專利商標事務所有限公司 | 代理人 | 陳斌 |
摘要
揭示一種計算機實現(xiàn)的方法,用于給自動機器翻譯系統(tǒng)提供信息以改進翻譯的準確度。該方法包括接收一源文本集。從自動翻譯系統(tǒng)接收到相應于源文本集的嘗試性翻譯。糾正輸入也被接收到,它被配置以實行在嘗試性翻譯中的至少一個錯誤的糾正。最后,信息將被提供給自動機器翻譯系統(tǒng)以減少由自動機器翻譯系統(tǒng)在后續(xù)的翻譯中產(chǎn)生重復錯誤的可能性。
1.一種用于對自動機器翻譯系統(tǒng)提供信息以改進翻譯的準確度的計算機實現(xiàn)的方法,該方法包括:
接收源文本集合;
從該自動機器翻譯系統(tǒng)接收一個對應于源文本集合的嘗試性翻譯;
接收一個糾正輸入,它被配置成實行在嘗試性翻譯中的至少一個錯誤的糾正;以及
提供將被吸納到與該自動機器翻譯系統(tǒng)相關聯(lián)的對應的邏輯形式的數(shù)據(jù)庫中的信息,以便減少錯誤在由該自動機器翻譯系統(tǒng)生成的后繼翻譯中重復出現(xiàn)的可能性。
2.如權利要求1所述的方法,其中提供信息包括提供該糾正輸入。
3.如權利要求1所述的方法,進一步包括通過網(wǎng)絡傳送將要被吸納到與不同的自動機器翻譯系統(tǒng)相關聯(lián)的知識源中的更新信息,該更新信息被配置成能減少在后繼的翻譯中由自動機器翻譯系統(tǒng)生成重復性錯誤的可能性。
4.如權利要求1所述的方法,其中接收一個糾正輸入包括接收至少一個來自人工翻譯者的糾正指令。
5.如權利要求1所述的方法,其中接收一個嘗試性翻譯包括接收對應于源文本的一部分的嘗試性翻譯,機器翻譯系統(tǒng)并沒有為所述源文本的一部分提供適當?shù)姆g。
6.一種用于改進自動機器翻譯系統(tǒng)的性能的計算機實現(xiàn)的方法,該方法包括:
使用自動機器翻譯系統(tǒng)生成一個源文本集合的翻譯,其中所述源文本集合以第一自然語言表示,所述翻譯以除所述第一自然語言外的自然語言表示;
把所述源文本集合和所述翻譯的至少一部分傳送到可靠的修改源;
從所述可靠的修改源接收一個所述翻譯的至少一部分的錯誤指示;
提供將被吸納到與自動機器翻譯系統(tǒng)相關聯(lián)的解析信息的集合中的信息,使自動機器翻譯系統(tǒng)所生成的后繼翻譯可能發(fā)生的錯誤將比較少。
7.如權利要求6所述的方法,進一步包括:
生成一個表示有關翻譯的質(zhì)量測量的置信度量度;和
至少部分基于所述置信度量度,選擇被傳送到所述可靠的修改源的部分翻譯。
8.如權利要求6所述的方法,其中所述傳送包括從實現(xiàn)自動機器翻譯系統(tǒng)的客戶計算設備傳送到與該可靠修改源相關聯(lián)的服務器計算設備。
9.如權利要求6所述的方法,其中所述傳送包括從實現(xiàn)自動機器翻譯系統(tǒng)的服務器傳送到與該可靠修改源相關聯(lián)的服務器計算設備。
10.如權利要求6所述的方法,其特征在于,所述解析信息便于由解析器來分析信息段的集合。
11.如權利要求6所述的方法,其中提供信息包括提供基于該自動機器翻譯系統(tǒng)所出現(xiàn)的錯誤的雙語全集,并允許所述自動機器翻譯系統(tǒng)基于雙語全集訓練自身。
12.一種改進第一自定制自動機器翻譯器的性能的方法,該方法包括:
在第一計算設備上實現(xiàn)第一自定制自動機器翻譯器;
在第二計算設備上實現(xiàn)第二自定制自動機器翻譯器;
提供可靠的翻譯源;
允許在第一計算設備和第二計算設備之間通信;
在第二計算設備處接收源文本;
向第二計算設備提供由可靠的翻譯源產(chǎn)生的嘗試性翻譯的糾正版本,所述嘗試性翻譯是所述源文本的嘗試性翻譯,所述源文本以第一自然語言表示,所述嘗試性翻譯以除所述第一自然語言外的自然語言表示;
利用第二自定制自動機器翻譯器處理源文本和嘗試性翻譯的糾正版本以產(chǎn)生訓練信息,所述訓練信息使第一自定制自動機器翻譯器后繼以較大的準確度來翻譯類似于源文本的文本;
把訓練信息從第二計算設備傳送到第一計算設備;和
把該訓練信息吸納到第一自定制自動機器翻譯器中,以使得該第一自定制自動機器翻譯器后繼以較大的準確度來翻譯類似于源文本的文本。
技術領域\n本發(fā)明處理機器翻譯。特別地,本發(fā)明處理方法用于在從可靠源獲取糾正的翻譯的正常的工作流程中系統(tǒng)地改進用戶的自動機器翻譯系統(tǒng)的性能。\n發(fā)明背景\n作為由技術(如因特網(wǎng))所建立的國際性共同體增加的結(jié)果,機器翻譯,特別是利用計算機系統(tǒng)翻譯自然語言文本在近幾年來已達到更廣泛的應用。在某些場合,機器翻譯能夠自動地實現(xiàn)。然而,人工交互有時被集成到建立高質(zhì)量翻譯的過程中去。一般而言,依賴于人工資源的翻譯更為準確,但是時間及經(jīng)費上的效率低于全自動系統(tǒng)。對某些翻譯系統(tǒng),僅僅在翻譯的準確性極其重要時,才依賴于人工交互。通常每次要求特別準確的翻譯時,與人工交互相關聯(lián)的時間及費用將被投入。\n由全自動機器翻譯所產(chǎn)生的翻譯的質(zhì)量一般并不由于對這樣的系統(tǒng)的需求的增加而提高。一般認為,為了得到對于某一領域(或主題)的更高質(zhì)量自動翻譯,必須對機器翻譯系統(tǒng)進行有效的客戶化??蛻艋湫偷匕尤雽I(yè)名詞和所設定的領域中文本翻譯的規(guī)則。這種客戶化典型地由受訓練的計算機語言學家實現(xiàn),他們利用半自動工具加入詞匯項目到在線詞典之中,并且寫入語言導向規(guī)則,特別地以專門規(guī)則的書寫語言進行。這種類型的客戶化相對比較昂貴。\n總之,對于各種來源的顧客都有用的翻譯服務,提供不了價格優(yōu)惠、高質(zhì)量、客戶化的翻譯。例如,收縮膜包裝的或基于Web的翻譯系統(tǒng)當前對一般公眾均可使用。然而,這些翻譯很難,甚至不可能對特定領域或主題客戶化。商業(yè)級的翻譯系統(tǒng)也可供使用。這些系統(tǒng)能夠?qū)μ囟I域客戶化,然而,客戶化的過程是煩鎖的而且往往很昂貴。直接基于人工翻譯服務也可共使用(例如,基于Web和基于郵件定購的人工翻譯服務)。然而,人工翻譯往往要求對每個翻譯的文本支付費用,并且這種化費不會終止。\n發(fā)明概述\n本發(fā)明的實施例屬于一種計算機-實行的方法,用于為自動機器翻譯系統(tǒng)提供信息以改進翻譯的準確性。本方法包括接收源文本的集合。對從自動機器翻譯系統(tǒng)接收到的源文本集合進行嘗試性的翻譯。一個糾正輸入也被接收,它被配置成在嘗試性翻譯中實行至少一處錯誤的糾正。最后,向自動機器翻譯系統(tǒng)提供信息以降低該錯誤在由自動機器翻譯系統(tǒng)所產(chǎn)生的后續(xù)翻譯中再犯的可能性。\n例圖簡要說明\n圖1是一個示例環(huán)境的方框圖,本發(fā)明在其中被實施。\n圖2是另一個示例環(huán)境的方框圖,本發(fā)明在其中被實施。\n圖3是一個原理圖,表示一個根據(jù)本發(fā)明的自適應機器翻譯服務。\n圖4是一個流程圖表示在自適應機器翻譯服務的上下文中的置信度量度的使用。\n圖5A是一個本發(fā)明實施例的特定應用的方框圖。\n圖5B是另一個本發(fā)明實施例的特定應用的方框圖。\n圖6是一個機器翻譯構(gòu)架的方案圖,本發(fā)明按此被實施。\n圖7是一個流程圖表示一個實施例,其中用戶的翻譯系統(tǒng)被遠程地更新。\n圖8是一個流程圖表示一個實施例,其中用戶的翻譯系統(tǒng)被本地更新。\n圖9是另一個本發(fā)明實施例特定應用的方框圖。\n說明性實施例的詳細說明\nI.操作環(huán)境范例\n本發(fā)明的各種方面屬于在從可靠源獲取糾正的翻譯的正常的工作流程中封裝一個自適應機器翻譯。然而,在詳細討論本發(fā)明之前,先討論能實現(xiàn)本發(fā)明的示范實施例環(huán)境。\n圖1表示一個適合的計算系統(tǒng)環(huán)境例子100,本發(fā)明在其上實現(xiàn)。計算系統(tǒng)環(huán)境100是適合的計算環(huán)境的一個例子,而不試圖建議任何限制本發(fā)明使用或功能的范圍。計算環(huán)境100不能解釋為具有任何對于本示例操作環(huán)境100中表示的組件的單個或組合的依賴或需求。\n本發(fā)明以各種其它一般性目的或特定目的的計算系統(tǒng)環(huán)境或配置來操作。適合于本發(fā)明使用的著名的計算系統(tǒng)、環(huán)境、和/或配置的例子包括(但并非限制于此)個人計算機、服務器計算機、手持或膝上型設備、多處理器系統(tǒng)、基于微處理器系統(tǒng)、機頂盒裝置、可編程顧客電子產(chǎn)品、網(wǎng)絡PC、小型計算機、大型計算機、電話系統(tǒng)、包括任何上述系統(tǒng)或設備的分布式計算系統(tǒng),等等。\n本發(fā)明可以按一般的由計算機執(zhí)行的諸如程度模塊的計算機可執(zhí)行指令的上下文來描述。通常,程序模塊包括例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們完成特定的任務或者實現(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明被設計成在分布式計算環(huán)境中實施,其中任務由通過通信網(wǎng)絡被鏈接的遠程處理設備完成。在分布式技術環(huán)境中,程序模塊可以位于本地或遠程計算機貯存媒體中,包括主存儲器設備。由程序或模塊完成的任務將在以下借助于例圖加以描述。熟悉本領域的人員能夠以處理器可執(zhí)行指令來實現(xiàn)該描述及例圖,這些指可被寫在任何形式的計算機讀媒體上。\n參照圖1,實現(xiàn)本發(fā)明的一個實例系統(tǒng)包括一個以計算機110形式表示的通用目的計算設備。計算機110的組件可以包括(但不限制于此)處理組件120、系統(tǒng)存儲器130、和系統(tǒng)總線121,它把各種系統(tǒng)組件包括系統(tǒng)存儲器耦合到處理組件120。系統(tǒng)總線121可以是包括存儲器總線或存儲器控制器的若干種總線結(jié)構(gòu)類型中的一種外設總線、和使用各種總線結(jié)構(gòu)之一的本地總線,作為例子(并非限制),這樣的結(jié)構(gòu)包括“工業(yè)標準結(jié)構(gòu)”(ISA)總線、“微通道結(jié)構(gòu)”(MCA)總線,增強型ISA(EISA)總線、“視頻電子標準協(xié)會“(VESA)本地總線,和”外圍組件互連”(PCI)總線也稱之為Mezzanine總線。\n計算機110典型地包括多種計算機可讀介質(zhì)。計算機可讀介質(zhì)能夠是任何能被計算機110存取的可供利用的介質(zhì),并且包括易失的和非易失介質(zhì),可移動和不可移動介質(zhì)。作為例子(并非限制)計算機可讀介質(zhì)可以由計算機貯存介質(zhì)和通信介質(zhì)組成。計算機貯存介質(zhì)包括易失和非易失二種、可移動和不可移動介質(zhì)按任何方法或技術實現(xiàn)信息的貯存,例如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。計算機貯存介質(zhì)包括(但非限制)RAM、ROM、EEPROM、閃存或其它存儲技術、CD-ROM、數(shù)字通用盤(DVD)或者其它光盤貯存器、盒式磁帶、磁帶、磁盤存儲器或者其它磁存儲設備,或者能夠用來保存所希望的信息并能由計算機110存取的介質(zhì)。\n通信介質(zhì)典型地具體包括計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它在被調(diào)制的數(shù)據(jù)信號(例如載波或其它傳輸機制)中的數(shù)據(jù)并包括任何信息傳遞介質(zhì)。術語“調(diào)制的數(shù)據(jù)信號”意指一種信號,它具有一個或者多個其特征作為對信號中信息編碼的方式被設置或者改變。作為例子(并非限制)通信介質(zhì)包括有線介質(zhì)諸如有線網(wǎng)絡或直接-線路連接、和無線介質(zhì)諸如聲頻、RF、紅外和其它無線介質(zhì)。以上任何的組合也被包括在計算機可讀介質(zhì)范圍之內(nèi)。\n系統(tǒng)存儲器130包括易失的和/或非易失的計算機貯存介質(zhì),例如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS),包含基本的例行程序,典型地存貯在ROM131中幫助在計算機110的單元之間傳輸信息(例如在啟動期間)。RAM132典型地包含數(shù)據(jù)和/或程序模塊,它們直接地可由處理組件120存取和/或不久就被操作。作為例子(并非限制),圖1表示操作系統(tǒng)134,應用程序135,其它程序模塊136,和程序數(shù)據(jù)137。\n計算機110還可以包括其它可移動的/不可移動的、易失的/非易失的計算機貯存介質(zhì)。僅作為例子,圖1表示一個硬盤驅(qū)動器141,它對不可移動的、非易失的磁介質(zhì)進行讀和寫;一個磁盤驅(qū)動器151,它對可移動的、非易失的磁盤152讀和寫;以及光盤驅(qū)動器155,它對可移動的、非易失的光盤156(例如CDROM或其它光介質(zhì))讀和寫。其它的可以被用于示例性操作環(huán)境中的可移動的/不可移動的、易失的/非易失的計算機貯存介質(zhì)包括(但非限制)盒式磁帶、閃存卡、數(shù)字通用盤、數(shù)字視頻磁帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通過一個不可移動的存儲器接口(例如接口140)典型地被連接到系統(tǒng)總線121,以及磁盤驅(qū)動器151和光盤驅(qū)動器155典型地由可移動存儲器接口(例如接口150)連接到系統(tǒng)總線121。\n以上所討論和在圖1中表示的驅(qū)動器和與它們相關聯(lián)的計算機貯存介質(zhì)為計算機110提供貯存的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)。例如,在圖1中硬盤驅(qū)動器141表示作為存儲操作系統(tǒng)144、應用程序145、其它程序模塊146、和程序數(shù)據(jù)147。注意這些組件可以和操作系統(tǒng)134、應用程序135、其它程序模塊136、和其它程序137是相同的也可以是不同的。操作系統(tǒng)144、應用程序145、其它程序模塊146,,和程序數(shù)據(jù)147在此給以不同的數(shù)字表示它們至少是不同的復制品。\n用戶可通過輸入設備例如鍵盤162、話筒163、和一個指點設備161,如鼠標、軌跡球或觸摸板來輸入命令和信息到計算機110。其它的輸入設備(未指出)可以包括游戲桿、游戲板、衛(wèi)星圓盤天線、掃描儀等等。這些和其它的輸入設備往往通過用戶輸入接口160連接到處理組件120,該接口160被耦合到系統(tǒng)總線,也可以由其它接口和總線結(jié)構(gòu)例如并行端口、游戲端口、或通用串行總線(USB)連接。監(jiān)示器191或其它類型的顯示設備也通過一個接口例如視頻接口190連接到系統(tǒng)總結(jié)121。除了監(jiān)示器以外,計算機還可能包括其它的外部設備,例如揚聲器197和打印機196,它們可能通過一個輸出外圍接口195連接。\n計算機110在使用邏輯連接到一個或多個遠程計算機(例如遠程計算機180)的網(wǎng)絡環(huán)境中被操作。該遠程計算機180可以是個人計算機、手持設備、服務器、路由器、網(wǎng)絡PC、對等設備或其它公共網(wǎng)絡結(jié)點,并且典型地包括許多或所有上述關于計算機110所描述的單元。在圖1中描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但可能還包括其它網(wǎng)絡,這種網(wǎng)絡環(huán)境在辦公室、企業(yè)范圍計算網(wǎng)絡、內(nèi)連網(wǎng)和因特網(wǎng)中是很普遍的。\n當用于LAN網(wǎng)絡環(huán)境中時,計算機110通過網(wǎng)絡接口或適配器170被連接到LAN171。當用于WAN網(wǎng)絡環(huán)境中時,計算機110典型地包括一個調(diào)制解調(diào)器172或者其它用于建立通過WAN173(例如因特網(wǎng))通信的裝置。調(diào)制解調(diào)器172可以是內(nèi)置的也可以是外置的,它通過用戶輸入接口160或其它適當?shù)臋C制被連接到系統(tǒng)總線121。在網(wǎng)絡環(huán)境中,描述為相應于計算機110或它的部分的程序模塊可被貯存在遠程的存儲器設備中。作為例子(而并非限制),圖1中表示的遠程應用程序185駐留在遠程計算機180中??梢岳斫馑镜木W(wǎng)絡連接是示例并且其它在計算機之間建立通信鏈接的裝置也可以被利用。\n應注意到本發(fā)明能夠在例如考慮圖1所描述的計算機系統(tǒng)上實行。然而,本發(fā)明也能在服務器上、專用于消息處理的計算機、或者在分布式系統(tǒng)上實行,在其中本發(fā)明的不同部分在分布式計算系統(tǒng)的不同部分上實行。\n圖2是一個移動設備200的方框圖,它是另一個本發(fā)明可以在其它適當?shù)挠嬎悱h(huán)境中實現(xiàn)的示例。計算系統(tǒng)環(huán)境200只是另一個適當?shù)挠嬎悱h(huán)境的例子,并且并不試圖建議任何對本發(fā)明的使用或功能范圍的限制。計算環(huán)境200既不解釋為對任何所示組件的一個或組合具有任何依賴性或相關要求。\n移動設備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206、和一個通信接口208用于和遠程計算機或其它移動設備的通信。在一個實施例中,組件被耦合用于通過適當?shù)目偩€210相互通信。\n存儲器204由非易失電子存儲器,如帶有電池后備模塊的隨機存取存儲器(RAM)實現(xiàn),這樣存儲在存儲器204中的信息不會在移動設備200的常規(guī)電源關機時被丟失。存儲器204的一部分最好分配為可尋址的存儲器用于程序執(zhí)行,而存儲器204的其它部分最好用于貯存,例如模擬在磁盤上的存儲器。\n存儲器204包括操作系統(tǒng)212、應用程序214和對象倉庫216。在操作期間,操作系統(tǒng)212最好從存儲器204由處理器202執(zhí)行。在一個較佳實施例中,操作系統(tǒng)212是從微軟公司商業(yè)上可得到的CE商標的操作系統(tǒng)。操作系統(tǒng)212最好設計用于移動設備,而且實現(xiàn)數(shù)據(jù)庫的特征,從而由應用程序214通過一組已揭示的應用程序設計接口和方法來加以利用。在對象倉庫216中的對象由應用程序214和操作系統(tǒng)212維護,至少是部分地響應于對已揭示的應用程序設計接口和方法的調(diào)用。\n通信接口208表示許多設備和技術,它允許移動設備200發(fā)送和接收信息。設備包括有線和無線的調(diào)制解調(diào)器、衛(wèi)星接收機和廣播調(diào)諧器,只是提到的少數(shù)幾種。移動設備200也能直接地連接到計算機與其交換數(shù)據(jù)。此時,通信接口208可以是一個紅外收發(fā)器或者一個串行或并行通信連接,所有這些都能夠傳輸流信息。\n接入/輸出組件206包括多種輸入設備,例如觸摸敏感屏、按鈕、滾輪、和話筒以及多種輸出設備包括音頻發(fā)生器、振動設備、和顯示器。以上設備清單是作為例子而不需要全部都出現(xiàn)在移動設備200之上。另外,在本發(fā)明的范圍之內(nèi)其它的輸入/輸出設備也可以接連到或發(fā)現(xiàn)于移動設備200中。\nII.自適應機器翻譯服務綜述\n圖3是原理流程圖,表示在從一個可靠源獲取糾正的翻譯的正常流程之中的自適應機器翻譯。\n對于自動地通過各種機器學習技術,包括基于統(tǒng)計和實例技術的自動機器翻譯系統(tǒng)的客戶化的研究已經(jīng)完成。以這種技術,機器翻譯系統(tǒng)能夠根據(jù)已經(jīng)翻譯了的材料(通常看作是雙向文本或雙向語言全集)來學習相應的翻譯,其中包括一種(源)語言中的句子和相應的另一種語言中的翻譯(目標)句子。另外,這種MT系統(tǒng)能夠從“可比較的”全集學習附加的相應者或文本,它們并不是相互的精確的翻譯,但它們都描述在二個源及目標語言中的類似的概念和事件。它們可能進而用于單一語言全集以學習在目標語言中的流利的造句。根據(jù)本發(fā)明的一種通用的觀點,這些客戶化技術在傳統(tǒng)的文檔管理環(huán)境之中被利用具有優(yōu)勢。特別地,訓練自動翻譯系統(tǒng)的數(shù)據(jù)是在系統(tǒng)用戶產(chǎn)生文檔的一般性過程中產(chǎn)生,獲得相應的翻譯并糾正翻譯。訓練數(shù)據(jù)允許用戶的自動機器翻譯系統(tǒng)系統(tǒng)地客戶化。\n參照圖3,本發(fā)明的實施例屬于在一個文檔管理或工作流環(huán)境中自適應機器翻譯系統(tǒng)的打包,其中用戶遞交源文檔302給用戶計算機(或者與用戶關聯(lián)的服務器)上的自動翻譯程序進行翻譯。這個動作有塊330表示。源文檔302和自動生成的翻譯304被傳送到可靠的修改源(例如,人工翻譯者)用于瀏覽及糾正。這個行動由塊332表示。\n糾正后的翻譯306和原始源文檔302被處理以建立一個更新的集合和也許是準確的翻譯對應308。這個行動由塊334表示。根據(jù)一個實施例,對應308由自身客戶化機器翻譯系統(tǒng)生成,它與由用戶維護的自身客戶化機器翻譯系統(tǒng)并行運行。根據(jù)一個實施例,更新的翻譯對應308被放入更新的數(shù)據(jù)庫(或者,如果一個統(tǒng)計機器翻譯系統(tǒng)正被使用,它們被反映在統(tǒng)計參數(shù)的更新表中),它和糾正的、翻譯的文檔一起被發(fā)送回給客戶。該更新吸納到用戶的自動機器翻譯系統(tǒng)。下一次用戶試圖翻譯類似的文字材料310,基于用以前的糾正文檔返回的更新,系統(tǒng)自動地產(chǎn)生更高質(zhì)量的翻譯312。這個行動由塊336表示。應該指出,這種訓練,以及所有類似的在此描述的訓練示例性地有利于后繼的語言對的二個方向上的翻譯(例如,西班牙語-英語和英語-西班牙語)。\n必須指出很多不同類型的訓練數(shù)據(jù)能夠基于糾正翻譯306和源文檔302產(chǎn)生。很多不同類型的訓練數(shù)據(jù)能夠被利用來適應于用戶的自動翻譯系統(tǒng)。更新的翻譯對應在本發(fā)明的范圍內(nèi)只是一個例子。任何知識源的更新都在本范圍之中。任何基于統(tǒng)計或?qū)嵗母掠柧毘绦蛞苍诒痉秶畠?nèi)。特定的例子將在下面詳細討論。\n當用戶請求各種文檔的自動翻譯并且發(fā)送結(jié)果輸出作為可靠的后編輯(例如,糾正和修改),用戶自動翻譯系統(tǒng)逐步地適應自身以便能翻譯類似文檔時更加有效。所需的昂貴的客戶化被省去,而且用戶能后續(xù)地享用高質(zhì)量的自動翻譯。用戶自動翻譯系統(tǒng)的適應性及客戶化例證性地發(fā)生在“幕后”如同用戶進行正常的獲取高質(zhì)量翻譯程序一樣。\n根據(jù)一個實施例,自動生成翻譯304包括一個自動生成置信度量度,它指示整個翻譯和/或它的部分的質(zhì)量。置信度量度是例證性地基于用戶帶有輸出的反映統(tǒng)計。這個置信度量度的生成和使用在美國專利申請?zhí)?0/309,950中描述,標題為“用于機器翻譯的機器學習置信度量度的系統(tǒng)和方法”,發(fā)表于2002年12月4日,它被指定給了與本申請同樣的實體。并且在此對它全部結(jié)合引用。\n圖4是一個流程圖表示置信度量度如何結(jié)合到所述自定制機器翻譯系統(tǒng)。根據(jù)圖402,用戶獲取源文檔的自動翻譯。文檔包括指明的置信度量度信息,它屬于文檔的整個的和/或一個或多個獨立的部分。根據(jù)塊404,用戶選擇具有低置信度等級的后編輯的一個或多個部分。這些部分被傳送到一個可靠的修改源(例如,人工翻譯者)以便糾正。糾正了的部分與原始的源文檔一起處理以建立一個更新的集合和看來正確的翻譯對應物。根據(jù)一個實施例,處理由自定制機器翻譯系統(tǒng)實現(xiàn),它與用戶維持的自定制機器翻譯系統(tǒng)并行運行。\n根據(jù)塊406,更新了的翻譯對應物和糾正的翻譯部分(或者糾正的翻譯的文檔的全部)一起被發(fā)送回給用戶。根據(jù)塊408,更新被吸納到用戶的自動機器翻譯系統(tǒng)。下一次用戶試圖翻譯類似文字材料時,他們的自動機器翻譯系統(tǒng)將產(chǎn)生一個更高質(zhì)量的翻譯。\nIII.特定應用\n圖5A和5B是以上描述的適應性機器翻譯系統(tǒng)的實施例的特定應用的方框圖。特定應用僅僅是例子而不打算建議任何對本發(fā)明使用或功能性范圍的限制。特定應用并不解釋為具有對應于所示組件的任何一個或組合的任何依賴或要求。\n圖5A是計算環(huán)境500的方框圖,用戶502操作計算設備504允許通過計算機網(wǎng)絡(例如,因特網(wǎng))與可靠的修改源506交互。源506是在計算設備上的實現(xiàn)的示例性地翻譯服務并通過網(wǎng)絡505提供給計算設備504和它的用戶502。\n計算設備504以及在其上實現(xiàn)修改源506的計算設備能夠是各種已知計算設備中的任何種,包括但不局限于在圖1和圖2中相應描述的那些中的任何種類。在計算設備504和修改源506之間通過網(wǎng)絡505的通信能夠利用各種已知的網(wǎng)絡通信方法中的任何一種完成,包括但不局限于在圖1和圖2中相應描述的那些中的任何種類。根據(jù)一個實施例,計算設備504是一個客戶無線移動設備,配置成通過無線網(wǎng)絡與服務器實現(xiàn)的修改源506通信。根據(jù)另一個實施例,計算設備504是客戶個人計算機,配置成通過因特網(wǎng)與服務器實現(xiàn)的修改源506通信。這些只是在本發(fā)明范圍內(nèi)的很多特定實施例中的二個。\n計算設備504包括自動翻譯系統(tǒng)508。用戶502示例性地遞交一個文本樣本給系統(tǒng)508用以產(chǎn)生相應的自動翻譯。假定用戶502并不滿意由翻譯系統(tǒng)508所生成的翻譯的一個或多個部分(例如,用戶不滿意所指出的低置信度量度),那么該自動翻譯與源文檔的復制一起被遞交給修改源506。自動翻譯在源506處被糾正。根據(jù)一個實施例,人工翻譯器糾正該自動翻譯。根據(jù)另一個實施例,可靠的自動系統(tǒng)完成該糾正。經(jīng)糾正的翻譯被返回給計算設備504以轉(zhuǎn)遞給用戶502。\n訓練發(fā)生器512用于處理自動翻譯、糾正的翻譯、和/或源文檔以生成訓練數(shù)據(jù)的集合,它被用于適應自動翻譯系統(tǒng)408。訓練發(fā)生器512是一個存儲在修改源506上的組件,或者存儲在計算設備504上的組件,或者存儲在分離的但可存取的獨立位置中(例如,存儲在獨立的可存取的服務器之中)。當訓練生成器512用修改源506存儲時,生成的訓練信息示例性地和相關聯(lián)的糾正翻譯一起被傳輸給自動翻譯系統(tǒng)508。當訓練發(fā)生器512以計算設備504存儲時,那么信息被直接被實現(xiàn)進入系統(tǒng)508。帶有修改源506的存儲訓練發(fā)生器512降低了強加于計算設備504上的存儲和處理的要求。而且,這種配置允許訓練發(fā)生器512從集中化的位置來管理和操作。\n根據(jù)一個實施例,為方便自動翻譯系統(tǒng)508的自適應,訓練發(fā)生器512駐留于可靠的修改源506和計算設備508二者之上。一對訓練發(fā)生器512示例性地相同或相當類似。一對訓練發(fā)生器512示例性地關聯(lián)于自定制機器翻譯系統(tǒng)(這樣的系統(tǒng)將在相關的圖6中詳細描述)。在用修改源506完成后編輯之后,所生成的糾正的翻譯與原始的源文本一起示例性地由在修改源506上實行的自定制機器翻譯系統(tǒng)進行“訓練”階段處理。在訓練階段,正確的翻譯對應物被學習。對應物被放入一個更新的數(shù)據(jù)庫之中(或者,如果使用統(tǒng)計系統(tǒng),它們反映在一個統(tǒng)計參數(shù)的更新表之中),它被發(fā)送到在計算設備504上實現(xiàn)的機器的版本中。然后,該更新被自動地吸收進用戶計算機上的自定義系統(tǒng)的版本(或者,如下文所述,吸收進保留在服務器上的版本)。下一次當用戶要嘗試翻譯類似文本材料時,基于隨同先前糾正過的文檔而返回的更新,他/她的翻譯系統(tǒng)自動產(chǎn)生高質(zhì)量的翻譯。\n根據(jù)一個實施例,可靠的修改源506關聯(lián)于在網(wǎng)絡505上操作的服務器。訓練發(fā)生器512維持在同樣的服務上并操作。對用戶502提供的關聯(lián)的修改源506的翻譯和訓練信息是示例性地(雖然并不必須)基于付費地提供(例如,基于按時或預約付費)。\n圖5B是計算環(huán)境520的方框圖。在圖5B中的單元與圖5A中的單元相同或類似,并利用同樣的或類似的引用號碼來標記。在圖5B中,一個或多個用戶502與可連接到服務器524的一個或多個計算設備522相交互。示例性地與用戶502相關聯(lián)的自動翻譯系統(tǒng)508在服務器524上被存儲與維護。服務器524可連接到網(wǎng)絡505。用戶502操作計算設備522使得能夠與可靠的修改源506交互,該源506也可連接到網(wǎng)絡505。修改源506是示例性地通過網(wǎng)絡505經(jīng)計算設備504對用戶提供翻譯服務。\n系統(tǒng)520按系統(tǒng)500同樣的方式操作,然而自動翻譯系統(tǒng)508能夠潛在地由多個計算設備所訪問,以為一個或多個獨立的用戶502完成自動翻譯。相應地,翻譯系統(tǒng)508能夠以由多個用戶遞交的文檔相關聯(lián)的訓練信息來自適應和更新。翻譯系統(tǒng)508的翻譯準確性將進化到適應多個用戶502。當多個用戶具有共同的連接可能導致他們在單一主題的領域或范圍中生成和翻譯文檔時,這將是特別合乎需要(例如,他們?yōu)橥瑯拥墓驹谕瑯拥男袠I(yè)中工作,等等)。IV.采用自動客戶化的機器翻譯系統(tǒng)的特定應用\n至止,自動機器翻譯系統(tǒng)已被一般性地描述。系統(tǒng)508的精確的詳細論述對于本發(fā)明并不是關鍵性的。進一步,關于翻譯系統(tǒng)508如何吸納所描述的訓練數(shù)據(jù)的確切的方案并沒有被提供。本發(fā)明并不局限于任何一種特定類型的訓練數(shù)據(jù),也不局限于任何一種吸納數(shù)據(jù)的方法。然而,特定的自動翻譯系統(tǒng)和相應的用于吸納訓練數(shù)據(jù)的方案將相應于圖6來描述。\n已經(jīng)知道,在某些自動翻譯系統(tǒng)中可采用自動翻譯技術用于定制系統(tǒng)來提供先前未知的詞匯的翻譯(即,提供特殊領域的翻譯)。本發(fā)明的實施例可以很方便地應用到此類翻譯系統(tǒng)的環(huán)境中。這種系統(tǒng)在題為“Scaleable?machinetranslation?system”,于2001年7月5日提交的美國專利申請09/899,755中有描述,該申請已轉(zhuǎn)讓給本發(fā)明的申請人,其全部內(nèi)容通過引用包括于此。所引用的參考文獻中的系統(tǒng)的某些部分參照圖6加以描述。\n在討論與圖6相關聯(lián)的自動翻譯系統(tǒng)之前,簡要地討論邏輯形式可能是很有幫助的。完整的和詳細的邏輯形式以及用于生成它們的系統(tǒng)和方法的討論能夠在Heidorn等人的美國專利號5,966,686中找到,提交于1999年10月12日,標題是“從語法樹計算語義邏輯形式的方法和系統(tǒng)”.然而,簡而言之,邏輯形式由對輸入文本實行形態(tài)學上的和語法的分析而生成,以產(chǎn)生傳統(tǒng)的以文法關系來增強的詞法結(jié)構(gòu)分析。語法分析經(jīng)歷進一步的處理,,以導出邏輯形式,它是數(shù)據(jù)的結(jié)構(gòu),描述在文字輸入中內(nèi)容的詞之間被標簽的從屬性。邏輯形式能夠被規(guī)范成一定的語法替換,(例,主動的/被動的)和解決距離句子內(nèi)部的指代和長距離的從屬性。邏輯形式可以被表示為圖表,它幫助直觀地理解邏輯形式中的單元。然而,正如本領域熟悉的技術人員所理解的,當存儲在計算機可讀取的介質(zhì)中時,邏輯形式可能并不容易像表示為圖表那樣被理解,而寧愿表示為一從屬樹。\n邏輯關系由二個被定向關系類型結(jié)合在一起的詞組成,例如:\nLogicalSubject,Logical?Object,\nIndirect?Object;\nLogical?Nominative,Logical?Complement,LogicalAgent;\nCoAgent,Beneficiary;\nModifier,Attribute,SentenceModifier;\nPrepositional?Relationship;\nSynonym,Equivalence,Apposition;\nHypernym,Classifier,SubClass;\nMeans,Purpose;\nOperator,Modal,Aspect,DegreeModifier,Intensifier;\nFocus,Topic;\nDuration,Time;\nLocation,Property,Material,Manner,Measure,Color,\nSize;\nCharacteristic,Part;\nCoordinate;\nUser,Possessor;\nSource,Goal,Cause,Result;and\nDomain.\n邏輯形式是一種連接的邏輯關系的數(shù)據(jù)結(jié)構(gòu),表示單個文字輸入,例如句子或它的部分。邏輯形式最小地由一個邏輯關系組成并且刻畫了結(jié)構(gòu)上的關系(例如,語法和語義關系),特別是在輸入字符串中重要的詞之間的增廣關系和/或附屬關系。\n從語法分析而建立的邏輯格式的特定的代碼是跨越各種源和目的語言(機器翻譯系統(tǒng)在其上操作)被示例性地共享。這種共享的構(gòu)造極大地簡化從不同的語言對準邏輯形式段的任務,這是因為二種語言在表面上明顯不同的結(jié)構(gòu)往往拼合成類似的或同樣的邏輯形式的表示。\n注意到這個背景,圖6是一個相應于本發(fā)明的一個方面的機器翻譯系統(tǒng)600的一個結(jié)構(gòu)。系統(tǒng)600是一個數(shù)據(jù)-驅(qū)動機器翻譯系統(tǒng),它組合了基于規(guī)則和帶有基于實例轉(zhuǎn)換的統(tǒng)計技術。系統(tǒng)能學習以數(shù)據(jù)直接翻譯的詞匯和短語的知識。系統(tǒng)600的訓練模式的中心特點是一個自動邏輯形式的對準過程,它基于實例從句子對準的雙語全集建立系統(tǒng)的翻譯。\n機器翻譯系統(tǒng)600被配置成自動地學習如何從雙語的相應文本進行翻譯。系統(tǒng)能夠用于對特定的文本通過處理它的句子和它們相應的人工翻譯來客戶化,而得到類似于該文本的材料的更高質(zhì)量的后繼翻譯。機器翻譯系統(tǒng)600還被配置成方便地提供內(nèi)建的自信度得分,它指出整個和/或其部分的翻譯質(zhì)量。\n系統(tǒng)600包括解析組件604和606、統(tǒng)計性字關聯(lián)學習組件608、邏輯形式對準組件610、基于詞匯知識的構(gòu)建組件612、雙語詞典614、詞典合并組件616、轉(zhuǎn)換映射數(shù)據(jù)庫618和更新的雙語詞典620。在訓練和翻譯運行的期間,系統(tǒng)600利用分析組件622、匹配組件624、轉(zhuǎn)換組件626和/或生成組件628。根據(jù)一個實施例、解析組件604和分析組件622是同樣的組件,或者至少是相互相同的。\n雙語全集被用來訓練系統(tǒng)。該雙語全集包括對準好的翻譯的句子(例,在源或目標語言如英語中的句子,按1對1與它們的在另一個源或目標語言如西班牙語中人工建立的翻譯相對應)。應指出在雙語全集中該翻譯的“句子”并不局限于實際的完整的句子而可以替代為句子段的集合。訓練期間,句子從對準好的雙語全集提供給系統(tǒng)600作為源句子630(要被翻譯的句子),和作為目標句子632(該源句子的翻譯)。解析組件604和606從對準了的雙語全集解析句子以產(chǎn)生源的邏輯形式634和目標的邏輯形式636。\n在解析期間,句子中的詞被轉(zhuǎn)換成規(guī)范詞的形式(詞目)并能提供給統(tǒng)計的詞關聯(lián)學習組件608。單個詞或多個詞的關聯(lián)都由學習組件608迭代地假設和打分直到獲得每一個的可靠集為止。統(tǒng)計詞關聯(lián)學習組件608輸出學習的單詞翻譯對638和多詞對640。\n多詞對640被提供給詞典合并組件616,它被用來加入附加的條目到雙語詞典614以構(gòu)成更新的雙語詞典620。新的條目表示了多詞對640。\n單詞對638與源邏輯形式634和目標邏輯形式636一起被提供給邏輯形式對準組件610。簡而言之,組件610首先分別地在源和目標的邏輯形式634和636結(jié)點之間建立試驗性的對應關系。這是利用從雙語詞匯(例,雙語詞典)614中的翻譯對完成,614能夠用從統(tǒng)計詞相關學習組件608來的單詞或多詞翻譯對638、640擴充。在建立了可能的對應關系后,對準組件610根據(jù)詞匯和結(jié)構(gòu)的考慮來對準邏輯形式結(jié)點并建立詞和/或邏輯形式轉(zhuǎn)換映射642。\n基本上,對準組件610利用雙語詞典信息614和單詞,多詞對638、640提取邏輯形式之間的鏈接。轉(zhuǎn)換映射可選擇地基于頻度來過濾,它們在源和目標邏輯形式634和636中以此頻度被發(fā)現(xiàn)并且提供給詞匯知識基的構(gòu)建組件612。\n雖然過濾是任選項,在一個例子中,如果轉(zhuǎn)換映射并沒有在訓練數(shù)據(jù)中看到至少二次,它就不被用來構(gòu)建轉(zhuǎn)換映射數(shù)據(jù)庫618,雖然任何其它希望的頻度也可以同樣用來作為過濾。還應指出其它的過濾技術也同樣可以被使用,而不只是用出現(xiàn)的頻度,轉(zhuǎn)換映射可以基于它們是否由輸入句子的完整短語來構(gòu)成和基于建立轉(zhuǎn)換映射的邏輯形式是否是完全地對準好。\n組件612構(gòu)建轉(zhuǎn)換映射數(shù)據(jù)庫618,它包含在一種語言中詞和/或邏輯形式對第二種語言中的詞和/或邏輯形式的基礎性鏈接。以所建立的轉(zhuǎn)換映射數(shù)據(jù)庫618,系統(tǒng)600現(xiàn)在配置用于運行時間的翻譯。在翻譯運行時間期間,將要被翻譯的源句子650提供給分析組件622。分析組件622接收源句子650并且基于源句子的輸入建立源邏輯形式652。\n源邏輯形式652被提供給匹配組件624。匹配組件624試圖把源邏輯形式652與轉(zhuǎn)換映射數(shù)據(jù)庫618中的邏輯形式匹配以獲取鏈接的邏輯形式654。多個轉(zhuǎn)換映射可能匹配源邏輯形式652的一部分。匹配組件624在數(shù)據(jù)庫618中搜索匹配轉(zhuǎn)換映射的最佳集合,它具有匹配的詞條、語言元件和其它特征信息。最佳匹配集合是基于預定的量度來發(fā)現(xiàn)。例如,具有較大的(更為特定的)邏輯形式的轉(zhuǎn)換映射可能示例性地比具有較小的(更為一般的)邏輯形式的轉(zhuǎn)換映射更為有利。在具有同樣大小的邏輯形式的映射之中,匹配組件624可能示例性地要求更高頻度的映射。映射還可能匹配源邏輯形式652的覆蓋部分,以表示她們并不以任何方式相互矛盾。一個映射集合如果它們比可替換集合能覆蓋更多的輸入語句則總體來說可能示例性地更受歡迎。\n在匹配轉(zhuǎn)換映射被找到之后,匹配組件624建立源邏輯形式652的結(jié)點對相應的從轉(zhuǎn)換映射接收到的目標詞或邏輯形式段的復制品的鏈接,以生成鏈接的邏輯形式654。對多詞映射的鏈接由相應段的根結(jié)點鏈接,然后鏈接一個星號到另一個參與多詞映射的源結(jié)點。在相應的這種映射的獨立源和目標結(jié)點之間的子鏈接也可能示例性地在轉(zhuǎn)換期間被建立供使用。轉(zhuǎn)換組件626從匹配組件624接收鏈接的邏輯形式654并建立目標邏輯形式656,它將構(gòu)建目標翻譯的基。這是由實行鏈接的邏輯形式654的自頂向下遍歷而完成的,在其中上由鏈接所指向的目標邏輯形式段在源邏輯形式6520的結(jié)點被組合在一起。當把目標邏輯形式段組合在一起用于可能復雜的多詞映射時,由匹配組件624在獨立結(jié)點之間建立的子鏈接集合被用來確定用于修改的糾正附加點,等等。如果需要則默認的附加點被利用。\n在沒有可使用的轉(zhuǎn)換匹配被找到的情況下,源邏輯形式652中的結(jié)點和它們的關系簡單地被復制到目標邏輯形式656之中。默認的單詞翻譯仍然對這些結(jié)點在轉(zhuǎn)換映射數(shù)據(jù)庫618中被發(fā)現(xiàn)并插入到目標邏輯結(jié)構(gòu)656之中。然而,如果沒有任何發(fā)現(xiàn),翻譯可以示例性地從更新的雙語詞典620中獲得,該詞典在對準期間被使用。\n生成組件628是示例性地基于規(guī)則,應用獨立性生成組件從目標邏輯形式656映射到目標字符串(或者輸出目標句子)658。生成組件628可能示例性地不具有關于輸入邏輯形式的源語言的信息,并且專門地用由轉(zhuǎn)換組件626傳遞給它的信息工作。生成組件628也示例性地使用這個信息與單語(例,對目標語言)詞典相關聯(lián)以產(chǎn)生目標句子658。一個通用的生成組件628已足以用于每種語言。\n這樣可以看到系統(tǒng)600從各種語言解析信息為共享的、公共的邏輯形式,以使邏輯形式能夠在不同的語言之中被匹配。系統(tǒng)還能夠在構(gòu)建轉(zhuǎn)換映射數(shù)據(jù)庫以處理帶噪聲數(shù)據(jù)輸入中利用簡單的過濾技術。因此,系統(tǒng)600能夠使用大量句子對來進行自動訓練。\n把注意力轉(zhuǎn)回到在圖3、4、5A和5B中描述的適應性自動翻譯系統(tǒng)中來,被描述的系統(tǒng)600能夠示例性地作為用戶的自適應自動翻譯系統(tǒng)來實現(xiàn)(即,翻譯系統(tǒng)508)。根據(jù)一個實施例,至少是由系統(tǒng)600產(chǎn)生的翻譯的一部分被示例性地發(fā)送到可靠的修改源(即如,源506)用于糾正(即,用戶選擇帶有低置信度量度的各部分用于修改)。訓練信息基于作出的糾正而生成(訓練信息由訓練發(fā)生器512生成)。系統(tǒng)600接收和處理訓練數(shù)據(jù)。根據(jù)一個實施例,系統(tǒng)600處理相應于作出糾正的雙語全集。翻譯系統(tǒng)600的用戶對于類似的文本將后續(xù)地獲得更高質(zhì)量的翻譯。\n根據(jù)一個實施例,為了有利于用戶的自動翻譯系統(tǒng)的自適應,系統(tǒng)600駐留在可靠的修改源和用戶的計算設備(或者相關的服務器)二者之中。系統(tǒng)600的一對示例性地相互并行運行。在修改源的后編輯被完成之后,所生成的糾正的翻譯和原始的源文本一起示例性地由在修改源上實行的系統(tǒng)600的版本的“訓練”階段進行處理。在訓練階段期間,糾正的翻譯對應物被學習。對應物然后放入更新的數(shù)據(jù)庫,它被發(fā)送到在用戶計算設備(或關聯(lián)的服務器)上實行的系統(tǒng)600的版本之中。該更新能夠帶有糾正的翻譯或者獨立地被發(fā)送。更新自動地被吸納到用戶的系統(tǒng)600的版本中。下一次用戶試圖翻譯類似的文字材料時,用戶的系統(tǒng)600基于帶有原先糾正的文檔的被返回的更新自動地產(chǎn)生更高質(zhì)量翻譯。\n基于訓練信息的系統(tǒng)600的更新能夠以各種方式的任何一種完成,并且沒有特別的方式對于本發(fā)明是關鍵的。提供給系統(tǒng)600的訓練數(shù)據(jù)可以是以適用于完成自適應的各種不同的形式。正如所述,在一個實施例中,訓練數(shù)據(jù)是一個雙語全集(即,在圖6中的句子對630和632)。根據(jù)另一個實施例,訓練生成器(即,在圖5A和5B中的生成器)為系統(tǒng)600生成和提供帶有對解析器604和/或解析器606的更新,它基于已作出的糾正(即,更新命令,在以后XY應被處理為X,等等)。根據(jù)另一個實施例,訓練生成器生成一個基于由翻譯系統(tǒng)600維護的對單個詞對所作的改變的更新。根據(jù)另一個實施例,訓練生成一個基于所作的糾正的轉(zhuǎn)換映射數(shù)據(jù)庫的更新。在另一個實施例中,訓練生成器直接地或間接地基于已作出的糾正重構(gòu)轉(zhuǎn)換映射數(shù)據(jù)庫。任何知識源的更新都在本發(fā)明的范圍之內(nèi)。\nMindNet是一個通用術語用于行業(yè)中描述一種結(jié)構(gòu),例如與翻譯系統(tǒng)600相關聯(lián)的邏輯形式的語言結(jié)構(gòu)數(shù)據(jù)庫(即,轉(zhuǎn)換映射數(shù)據(jù)庫618)。術語MindNet是由雷德默華盛頓的微軟公司造出的。根據(jù)本發(fā)明的一個實施例,基于依據(jù)可靠的修改源所作的糾正利用訓練信息以適應系統(tǒng)600涉及了MindNet的操作(即,更新)。更新的過程可以在用戶系統(tǒng)上(或與該用戶相關聯(lián)的服務器上)發(fā)生也可以與修改源相關聯(lián)的遠程的系統(tǒng)上發(fā)生。\n圖7是一個流程圖說明本發(fā)明的一個實施例,其中MindNet被更新。根據(jù)塊702,用戶的MindNet和翻譯及原始文本一起被發(fā)送(即,從客戶機器)到可靠的修改源(即,在服務器上實行的)。在對翻譯作了必要的糾正之后(塊704),MindNet被重構(gòu)以反映該糾正(塊706)。然后,重構(gòu)的Mindnet和糾正的翻譯材料一起被發(fā)送給用戶(即,返回給客戶機器)(塊708)。根據(jù)塊710,重構(gòu)的Mindnet結(jié)合到用戶的自動翻譯系統(tǒng)之中。更新的Mindnet被用于后續(xù)的翻譯。應該指出所述用戶翻譯系統(tǒng)的遠程更新能夠以與Mindnet不同的數(shù)據(jù)結(jié)構(gòu)相關聯(lián)而完成。\n圖8是一個流程圖表示另一個實施例,其中Mindnet的更新沒有脫離用戶的機器(或者沒有脫離用戶關聯(lián)的服務器)。根據(jù)塊802,可靠的修改源從用戶接收翻譯材料和相應的原始文本(塊802)。必要的糾正被進行(塊802)并且相應的Mindnet的附錄也被遵守(塊804)。根據(jù)塊806帶著糾正的翻譯客戶接收被裝載和遵守的附錄到它們的Mindnet中去(塊808)。根據(jù)由塊810表示的實施例。用戶的Mindnet沒有被更新直到預定數(shù)量附錄被收集到為止。應指出,所述用戶的翻譯系統(tǒng)的本地更新能夠以與Mindnet不同的數(shù)據(jù)結(jié)構(gòu)相關聯(lián)而實現(xiàn)。\n根據(jù)一個實施例,多個附錄被串在一起或被收集在服務器上,也就是,在其中作出可靠糾正的服務器。當預定數(shù)量的附錄被收集到時,用戶發(fā)送他/她的Mindnet給服務器以被重構(gòu)和返回。其它更新用戶Mindnet的方案都在本發(fā)明的范圍之內(nèi)。\n根據(jù)本發(fā)明的另一個方面,所述適應性機器翻譯處理能夠在用戶和可靠修改源是同一個的那種系統(tǒng)中實現(xiàn)。圖3的處理流程是與本實施例相容。換句話說,圖3流程覆蓋本發(fā)明的實施例,其中自適應機器翻譯系統(tǒng)被包裝在一個文檔管理或工作流環(huán)境之中,這里示例性的可靠修改源的用戶至少遞交源文檔的一個部分,從而在他或她自身的計算機上(或者在與用戶關聯(lián)的服務器上)進行翻譯。這樣的實施例將參照圖3進行描述。\n源文檔302的至少一個部分的遞交由塊330表示。用戶是與源文檔302相關的語言的示例性的可靠翻譯人員。源文檔302信息,以及相應的自動生成的翻譯304,被展現(xiàn)給用戶/糾正器以便瀏覽及糾正。這個動作由塊332表示。\n糾正的翻譯306和原始的源文檔302被處理以建立一個更新的和認為是準確翻譯的對應物308。這個動作由塊334表示。根據(jù)一個實施例,更新的翻譯對應物308被安置在更新數(shù)據(jù)庫之中(或者,如果使用統(tǒng)計機器翻譯系統(tǒng),它將被反映在統(tǒng)計參數(shù)的更新表之中)。更新被吸納到用戶的自動機器翻譯系統(tǒng)之中。下一次用戶試圖翻譯類似的文字性材料310時,系統(tǒng)自動產(chǎn)生一個基于更新的更高質(zhì)量的翻譯312,這個更新是基于先前糾正的文檔而產(chǎn)生的。這個動作由塊336表示。應該指出訓練有益于后續(xù)的語言對的二個方向上的翻譯(也就是西班牙語-到-英語-到-西班牙語)。\n應該強調(diào)很多不同類型的訓練數(shù)據(jù)能夠基于糾正翻譯306和源文檔302生成。很多不同類型的訓練數(shù)據(jù)能夠被用來修改用戶的自動翻譯系統(tǒng)。更新的翻譯對應物只是本發(fā)明范圍內(nèi)的一個例子。任何知識源的更新是在此范圍之內(nèi)。任何統(tǒng)計的或基于范例的訓練器也是在此范圍之內(nèi)。特定的例子相對于其它實施例在以上被描述。\n根據(jù)本發(fā)明的另一方面,所述自適應機器翻譯處理能被用來關聯(lián)于由作為可靠翻譯源的用戶操作的專門的翻譯軟件。對于人工翻譯者(即,專業(yè)翻譯人員、業(yè)余翻譯人員、等等)都知道設法采用專門的翻譯軟件以減少所要求的翻譯工作量。對于人工翻譯人員通常都采用配備有必要的知識的專門的軟件以準確地不用軟件翻譯。軟件被用來簡單地減少為翻譯指定文檔所需的擊鍵次數(shù)。\n某些專用翻譯軟件的實現(xiàn)被配置成把將被翻譯的句子(或者句子組)(即,從被翻譯文檔中取出的句子或句子組)與先前翻譯了的句子(或句子組)的數(shù)據(jù)庫相比較。如果發(fā)現(xiàn)匹配,那么匹配的翻譯能夠被自動地找回。在這種情況下,用戶將節(jié)省某些手工翻譯的負擔。\n對于目標句子沒有有效的精確匹配的場合下,某些專用翻譯軟件的實現(xiàn)被配置成檢索一個“模糊匹配”,它是一個類似的但不相同的句子。用戶能夠拒絕該模糊匹配并從大意上(scratch)翻譯句子,或者修改模糊匹配成為正確的形式。在多數(shù)情況下,修改模糊匹配比打字翻譯句子有較少的工作(即,較少擊鍵)。\n某些專用翻譯軟件的實現(xiàn)被配置成與自動翻譯系統(tǒng)相合作,以提供對特定的要翻譯的句子的自動機器翻譯,例如(但不局限于)不存在精確的或模糊翻譯的源文本句子。用戶可以拒絕機器翻譯并從大意上翻譯句子,或者能夠修改機器翻譯成為正確的形式。在多數(shù)情況下,修改機器翻譯比打字翻譯有較少的工作(即,較少擊鍵)。\n根據(jù)本發(fā)明的一個方面,事實上所述專用翻譯軟件的用戶是一個可靠的翻譯源。相應地,當用戶糾正模糊或機器翻譯時,相應的糾正信息能夠被用來訓練或更新與該軟件關聯(lián)的機器翻譯系統(tǒng)。以這種方式,翻譯系統(tǒng)的效率和準確性將被改進用于后續(xù)的翻譯。機器翻譯系統(tǒng)的訓練和更新能夠以類似于在此或其它處描述的任何方法實現(xiàn)。\n圖9是一個包括專用翻譯軟件的本發(fā)明實施例的應用的方框圖。所示的應用僅僅是一個例子,并不打算對本發(fā)明的使用或功能性給出任何限制。本特定的應用并不被解釋為具有相關于所示組件之一或組合中的任何一個的依賴或要求。\n參照圖9,用戶/糾正器902與具有專用翻譯系統(tǒng)910(即專用翻譯軟件)的計算設備交互,一個自動翻譯系統(tǒng)912和一個訓練生成器912(即上述的同樣或類似的訓練生成器512)在其上實現(xiàn)。計算設備904能夠是各種已知計算設備中的任何一種,包括但不局限于在圖1和圖2中相關描述的那些中的任何一個。根據(jù)一個實施例,計算設備904是一個個人計算機。\n用戶902是一個翻譯人員(即專業(yè)的或業(yè)余的翻譯人員),它依賴于系統(tǒng)910消除關聯(lián)于翻譯源文檔的某些工作。專用翻譯系統(tǒng)910是一個配置成協(xié)助用戶902進行源文檔翻譯的專用翻譯系統(tǒng)。用戶902示例性地至少遞交源文檔的一部分給系統(tǒng)910以協(xié)助生成相應的翻譯。自動翻譯系統(tǒng)912被配置來提供一個自動導出的所提供文本的機器翻譯。專用翻譯系統(tǒng)910被配置成從翻譯系統(tǒng)912借助分析尋查和接收源文檔文本的自動翻譯(即,當系統(tǒng)910不可能產(chǎn)生一個精確的或模糊的翻譯匹配的情況下,系統(tǒng)910依賴于系統(tǒng)912)。\n應該指出任何與專用翻譯軟件910相關聯(lián)的先前翻譯了的句子的數(shù)據(jù)庫能夠基于由系統(tǒng)912產(chǎn)生的自動翻譯而被更新(即,該自動翻譯成為潛在地精確或模糊匹配)。還應指出機器翻譯能夠提供“按需要”工作(即,按用戶的請求)。換而言之,機器翻譯能夠在預處理步驟期間被生成并且和其它先前翻譯了的句子一起存儲(即,與其它潛在的精確的或模糊匹配一起存儲)。先前翻譯句子的數(shù)據(jù)庫可能在預處理步驟期間與沒有精確的或模糊匹配的句子一起更新。因此匹配的翻譯能夠“按需要”或提前提供(并且然后與其它先前翻譯的句子一起存儲在數(shù)據(jù)庫中)。\n假定用戶902不滿意由翻譯系統(tǒng)912生成的翻譯的一個或多個部分(即,用戶不滿意所指出的預信度量度),那么該自動翻譯被示例性地展示給用戶902以糾正(即,用戶902假設是一個可靠的修改源)。糾正了的翻譯922示例性地從糾正過程中得到結(jié)果。訓練生成器914被用來處理自動翻譯、該糾正的翻譯、和/或源文檔以生成訓練數(shù)據(jù)集合,它能被用來修改自動翻譯系統(tǒng)912。訓練生成器914是一個存儲在計算設備904中的組件,或者在分開的但可以訪問的獨立的計算位置中(即,存儲在獨立的和可訪問的服務器上)。當訓練生成器914被存儲在分開的計算位置中時,生成的訓練信息被示例性地傳輸回到自動翻譯系統(tǒng)912。當訓練生成器914是存儲在計算設備904中時,那么信息被直接實現(xiàn)進入系統(tǒng)912。以計算設備904存儲訓練發(fā)生器914減少了存儲量和處理的要求。在自動翻譯系統(tǒng)912和訓練發(fā)生器914之間的訓練關系示例性地與前述對應于自動翻譯系統(tǒng)508和訓練發(fā)生器512的任何實施例相類似。\n根據(jù)一個實施例,不止一個用戶902能夠與計算組件904及專用翻譯系統(tǒng)910交互以共同地產(chǎn)生更高質(zhì)量的翻譯。根據(jù)另一個實施例,用戶902能夠直接(如所示)或通過網(wǎng)絡訪問計算設備904。根據(jù)另一個實施例,由生成器914生成的訓練或更新材料(附帶地用于更新系統(tǒng)912)也能夠通過計算機網(wǎng)絡傳輸以更新至少一個附帶的自動機器翻譯系統(tǒng)。例如,訓練或更新材料能夠被直接傳輸給單個附加的自動機器翻譯系統(tǒng)去吸納。換言之,然而,該材料能夠被傳輸給中央服務器并后續(xù)地發(fā)布給多個與大的組織機構(gòu)關聯(lián)(即,公司)的機器翻譯系統(tǒng)去吸納。\n雖然本發(fā)明已參照特定的實施例加以描述,本領域熟悉的技術人員將認識到形式和細節(jié)可以作出改變而沒有脫離本發(fā)明的精神和范圍。
法律信息
- 2019-06-04
未繳年費專利權終止
IPC(主分類): G06F 17/28
專利號: ZL 200410062835.6
申請日: 2004.06.21
授權公告日: 2010.09.29
- 2015-05-20
專利權的轉(zhuǎn)移
登記生效日: 2015.05.06
專利權人由微軟公司變更為微軟技術許可有限責任公司
地址由美國華盛頓州變更為美國華盛頓州
- 2010-09-29
- 2006-07-12
- 2005-02-02
引用專利(該專利引用了哪些專利)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 |
1
| | 暫無 |
1982-12-06
| | |
2
| | 暫無 |
1995-10-02
| | |
3
| | 暫無 |
1995-02-16
| | |
4
| | 暫無 |
1992-08-31
| | |
被引用專利(該專利被哪些專利引用)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有被任何外部專利所引用! |