著錄項信息
專利名稱 | 帶方言背景的漢語語音識別方法 |
申請?zhí)?/td> | CN02155605.9 | 申請日期 | 2002-12-13 |
法律狀態(tài) | 暫無 | 申報國家 | 中國 |
公開/公告日 | 2003-04-23 | 公開/公告號 | CN1412741 |
優(yōu)先權 | 暫無 | 優(yōu)先權號 | 暫無 |
主分類號 | 暫無 | IPC分類號 | 暫無查看分類表>
|
申請人 | 鄭方 | 申請人地址 | 北京市海淀區(qū)清華科技園學研大廈B座1005室
變更
專利地址、主體等相關變化,請及時變更,防止失效 |
權利人 | 北京得意音通技術有限責任公司 | 當前權利人 | 北京得意音通技術有限責任公司 |
發(fā)明人 | 鄭方 |
代理機構 | 北京清亦華知識產(chǎn)權代理事務所 | 代理人 | 廖元秋 |
摘要
本發(fā)明屬于計算機人工智能及模式識別技術領域,涉及帶方言背景的漢語語音識別方法。本發(fā)明包括:根據(jù)特定方言的特點,構建從普通話讀音到方言讀音的音節(jié)映射表;根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹。本發(fā)明可節(jié)省大量的錄制數(shù)據(jù)庫的工作量;不同方言背景的普通話語音識別器與標準普通話的語音識別器共用相同的聲學模型和語言模型;變換方言背景時,只需要變換音節(jié)映射表即可,因而使用和維護方便;語音識別器既可以識別標準普通話,又可以識別帶有各種程度的方言背景的普通話,因而可以很大程度地提高漢語普通話語音識別器的性能。
1、一種帶方言背景的漢語語音識別方法,包括一個漢語標準普通話的語音識別器; 其特征在于,該方法包括以下步驟:
1)根據(jù)特定方言的特點,構建從普通話讀音到方言讀音的音節(jié)映射表;
2)根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;
3)用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹;
所說的步驟1)構建音節(jié)映射表的方法,具體包括以下步驟:
(1)根據(jù)語言知識總結相關方言的音節(jié)映射規(guī)律;
(2)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在聲母,則注冊聲母映射 對{I*(x)}→{I*(y)},式中表示含有聲母x的音節(jié)其聲母會映射成y;
(3)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在韻母,則注冊韻母映射 對{*F(x)}→{*F(y)},式中表示含有韻母x的音節(jié)其韻母會映射成y;
(4)對于任何一個詞相關的音節(jié)映射,則注冊音節(jié)映射對{W(x1,…,xn)}→ {W(y1,…,yn)},式中表示在詞W的上下文環(huán)境下,詞W的音節(jié)串由(x1,…,xn)映射成 (y1,…,yn),其中,沒有發(fā)生音節(jié)映射的音節(jié),或僅發(fā)生詞無關的音節(jié)映射的音節(jié),相 應的yi用“*”標出;
所說的步驟2)擴展搜索樹的方法,具體包括以下步驟:
(1)根據(jù)每一個詞相關的音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},向詞表中加 入一個新詞W,其中該詞的漢字串不變,用以表示該詞的標識碼不變,該詞的音節(jié)串 (y1,…,yn)中用“*”標出的拼音從原詞相應的音節(jié)復制過來,對每一個這樣的詞,有一 個新的讀音;
(2)按已有的搜索樹的創(chuàng)建方法,為加入了新詞后的詞表建立新的搜索樹;
(3)對每一個詞無關的音節(jié)映射{I*(x)}→{I*(y)}或{*F(x)}→{*F(y)},檢查搜索 樹中所有非葉子節(jié)點對應的有向弧,如果該有向弧中所標的聲母或韻母是x,則將該有 向弧擴展出一個與之并列的同向有向弧,并標以y;
所說的步驟3)的用擴展了的搜索樹替換已有語音識別器中的搜索樹方法為,在搜 索樹擴展完成后,不修改已有識別器中的聲學搜索算法和語言搜索算法,直接用已有的 語音識別器中去進行聲學搜索和語言搜索。
技術領域\n本發(fā)明屬于計算機人工智能及模式識別技術領域,特別涉及通過計算機識別人類語 音的方法。\n背景技術\n“大詞匯連續(xù)語音識別”(Large?Vocabulary?Continuous?Speech?Recognition,LVCSR, 簡稱“語音識別”),就是由計算機根據(jù)人的連續(xù)聲音信號中所蘊涵的語言信息,識別出 某段語音對應的是哪些文字的過程?!按笤~匯連續(xù)語音識別器”(Large?Vocabulary Continuous?Speech?Recognizer,簡稱“語音識別器”)指用于進行語音識別的設備或軟件。 語音識別是由聲音信號到文字的轉換過程,可以廣泛地應用于包括電信業(yè)、銀行業(yè)、財 經(jīng)金融業(yè)、旅游及運輸業(yè)、公用事業(yè)、娛樂業(yè)、公眾消費行為方面、企業(yè)經(jīng)營行為方面 等幾乎所有方面,應用的類型包括呼叫中心(Call?Center)語音服務、中文智能互動短信服 務、電腦/電子設備中的語音命令控制、教育、國家安全領域等等。\n語音識別器由兩個部分組成:一個是聲學模型(Acoustic?Model,AM),一個是語言模 型(Language?Model,LM)。\n聲學模型用于把聲音信號轉換為漢語聲韻母(或音節(jié))的網(wǎng)格,實現(xiàn)由信號到聲音符 號(用聲韻母或拼音表示)的轉換。目前最有效、最通用的實現(xiàn)聲學模型的方法是隱式馬 爾可夫模型(Hidden?Markov?Model,HMM)方法及由其派生出來的方法。聲學模型分為聲 學模型的訓練過程和聲學模型的識別過程兩個部分,如圖1所示。聲學模型的訓練過程 1(簡稱聲學訓練),包括聲學特征提取、聲學訓練和聲學模型庫的建立;它利用從大 量的說話人所說的話語中提取出來的聲學特征為每個聲學識別基元(也稱識別基元、基元 或語音識別基元)建立一個模型,對漢語的語音識別,識別基元通常為漢語音節(jié)、漢語聲 韻母或漢語音素等。聲學模型的識別過程2(簡稱聲學識別),包括聲學特征提取、聲 學搜索;它用模型庫中的模型與某段發(fā)音的聲學特征進行匹配比較,從而找到最可能的 匹配模型序列或網(wǎng)格,也就是聲學識別的結果;由于模型序列有很多種可能性,識別過 程需要盡可能有效地嘗試各種可能的模型序列組合,這相當于在模型序列空間中進行最 優(yōu)序列的搜索,因此聲學模型的識別過程也稱為聲學模型的搜索過程(簡稱聲學搜索)。 在語音識別的整個過程中,聲學搜索是第一階段,其輸出結果往往是語音識別基元的網(wǎng) 格的形式,它是下一階段的輸入,如圖2所示,圖中,灰色的圓圈中是實際所發(fā)音節(jié)的 拼音(實際發(fā)音為:我們是中國人),而其他圓圈中的拼音是聲學搜索輸出的其他可能 的候選。\n語言模型用以刻劃句子的上下文中相鄰詞之間的搭配概率關系。目前最常用的語言 模型是稱為Tri-gram(三元組)的語言模型,它給出了任意三個詞a、b和c之間的搭配概 率P(c|a,b)。語言模型部分也分為語言模型的訓練過程和語言模型的搜索過程兩個部分。 語言模型的訓練過程:當已經(jīng)有海量的漢語文本(稱為訓練文本)時,通過簡單的計數(shù)方 法,可以統(tǒng)計出任意三個詞之間的搭配次數(shù),從而估算出其搭配概率;語言模型的搜索 過程:在把聲學搜索的中間結果——語音識別基元網(wǎng)格——轉換為漢語句子過程中,語 言模型用以從眾多可能的候選中根據(jù)最大似然的原則挑選出最好的句子候選。這里最大 似然準則意味著最大概率。在搜索過程中,句子概率用下式計算:\n\n其中詞的三元組(wn-2,wn-1,wn)出現(xiàn)的概率,也就是P(wn|wn-2,wn-1),是從訓練文本中通過已 有語言模型訓練方法學習來的。\n在進行語言模型的搜索時,采用搜索樹約束其空間擴展的速度和程度,以保證搜索 的效率。搜索樹的例子如圖3所示,這是按聲母和韻母組織的。搜索樹中總共有三類節(jié) 點。根節(jié)點:用雙圓環(huán)表示,是一棵樹的起點,也是搜索過程的起點。中間節(jié)點:用黑 色圓點表示,在從中間節(jié)點的父節(jié)點指向該節(jié)點的有向弧上標出的是聲學基元,圖3中 表示的聲學基元是聲母、韻母;其中一個節(jié)點的父節(jié)點定義為用箭頭指向該節(jié)點的那個 節(jié)點,在搜索樹中,除根節(jié)點外任何一個節(jié)點的父節(jié)點都有且只有一個。葉子節(jié)點:用 白色圓點表示,在從葉子節(jié)點的父節(jié)點指向該節(jié)點的有向弧上標出的是漢語的詞,表示 該詞讀音的拼音串就是從根節(jié)點到該葉子節(jié)點所經(jīng)過的所有有向弧上標出的聲母和韻 母按順序組成的拼音串;由于指向葉子節(jié)點的有向弧是唯一的,因此,把該有向弧對應 的詞稱作該葉子節(jié)點所對應的詞。\n搜索樹中所有的葉子節(jié)點所對應的詞組成了語音識別器的整個詞表。大詞匯連續(xù)漢 語語音識別器的詞表一般含5~6萬漢語詞匯。語言模型的搜索過程,就是把聲學搜索 中間結果——語音識別基元網(wǎng)格(按聲韻母或按拼音組織)——與搜索樹(按聲韻母或按 拼音組織)進行匹配比較,利用語言模型概率計算公式,從而找到最大似然句子的過程。 在搜索過程中,如果識別基元網(wǎng)格的某條路徑與搜索樹的某個葉子節(jié)點所對應的有向弧 已經(jīng)匹配完成,則搜索樹會自動回復到根節(jié)點起點,除非此時識別基元網(wǎng)格中的那條路 徑已經(jīng)匹配到最后一個基元。\n大詞匯連續(xù)漢語語音識別器已經(jīng)取得了很大的進展,對標準普通話,識別器的準確 率可以達到95%以上。但是,漢語的方言問題是漢語語音識別面臨的主要問題。由于在 中國大部分人的普通話都帶有一定的方言背景,在這樣的情況下,大部分的語音識別器 的性能都會大大下降,甚至降至不能使用的地步。\n在中國,漢語有八大方言區(qū):\n(1)北方方言——以黃河流域為中心,東北和長江流域中部及西南各??;\n(2)吳方言——上海地區(qū)、江蘇東南部和浙江大部分;\n(3)湘方言——湖南省大部分地區(qū);\n(4)贛方言——江西省大部分地區(qū)和湖北東南角;\n(5)客家方言——廣東、廣西、福建、江西部分地區(qū);\n(6)閩北方言——福建北部和臺灣部分地區(qū);\n(7)閩南方言——福建南部、廣東潮汕、臺灣大部分、海南部分地區(qū);\n(8)粵方言——廣東中部及西南部、廣西東南部。\n這八大方言又可以進一步分為40多個子方言。各方言都有各自明顯的特點,使得 有方言背景的說話人的普通話與標準普通話存在一定的差別。\n目前很多識別器對方言背景對語音識別器性能造成的影響是用數(shù)據(jù)庫方法去消除 或減弱的,就是說,當已經(jīng)有一個對標準普通話進行識別的語音識別器,需要對帶某種 方言背景的普通話進行識別時,采用的方法為:收集大量與該方言有關的語音數(shù)據(jù)庫, 然后利用已有的聲學模型訓練方法去重新訓練聲學模型,或利用已有的說話人自適應方 法對聲學模型進行自適應。這種方法的缺點是:(1)收集帶方言背景的數(shù)據(jù)庫的工作量 非常巨大,對于漢語這么多的方言,數(shù)據(jù)庫的收集更是一件巨大的工程。(2)這種方法無 法兼顧標準普通話和帶發(fā)音背景普通話之間的共性,僅是通過數(shù)據(jù)驅(qū)動的方法去解決問 題,相當于完全重新構建一個語音識別器,給不同方言背景的語音識別器之間的資源共 享和兼容帶來困難。\n發(fā)明內(nèi)容\n本發(fā)明的目的是為克服現(xiàn)有語音識別技術對帶方言背景的普通話識別的不足之處, 提出一種新的帶方言背景的漢語語音識別方法,利用音節(jié)映射表和搜索樹擴展等一系列 方法,幾乎不用錄制帶方言背景的語音數(shù)據(jù)庫就可以很好地消除方言背景對漢語語音識 別器性能的影響。\n本發(fā)明提出一種帶方言背景的漢語語音識別方法,包括一個漢語標準普通話的語音 識別器;其特征在于,該方法包括以下步驟:\n1)根據(jù)特定方言的特點,構建從普通話讀音到方言讀音的音節(jié)映射表;\n2)根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;\n3)用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹;所說的步驟1)構建 音節(jié)映射表的方法,具體包括以下步驟:\n(1)根據(jù)語言知識總結相關方言的音節(jié)映射規(guī)律;\n(2)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在聲母,則注冊聲母映射 對{I*(x)}→{I*(y)},式中表示含有聲母x的音節(jié)其聲母會映射成y;\n(3)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在韻母,則注冊韻母映射 對{*F(x)}→{*F(y)},式中表示含有韻母x的音節(jié)其韻母會映射成y;\n(4)對于任何一個詞相關的音節(jié)映射,則注冊音節(jié)映射對{W(x1,…,xn)}→ {W(y1,…,yn)},式中表示在詞W的上下文環(huán)境下,詞W的音節(jié)串由(x1,…,xn)映射成 (y1,…,yn),其中,沒有發(fā)生音節(jié)映射的音節(jié),或僅發(fā)生詞無關的音節(jié)映射的音節(jié),相 應的yi用“*”標出;\n所說的步驟2)擴展搜索樹的方法,具體包括以下步驟:\n(1)根據(jù)每一個詞相關的音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},向詞表中加 入一個新詞W,其中該詞的漢字串不變,用以表示該詞的標識碼不變,該詞的音節(jié)串 (y1,…,yn)中用“*”標出的拼音從原詞相應的音節(jié)復制過來,對每一個這樣的詞,有一 個新的讀音;\n(2)按已有的搜索樹的創(chuàng)建方法,為加入了新詞后的詞表建立新的搜索樹;\n(3)對每一個詞無關的音節(jié)映射{I*(x)}→{I*(y)}或{*F(x)}→{*F(y)},檢查搜索 樹中所有非葉子節(jié)點對應的有向弧,如果該有向弧中所標的聲母或韻母是x,則將該有 向弧擴展出一個與之并列的同向有向弧,并標以y;\n所說的步驟3)的用擴展了的搜索樹替換已有語音識別器中的搜索樹方法為,在搜 索樹擴展完成后,不修改已有識別器中的聲學搜索算法和語言搜索算法,直接用已有的 語音識別器中去進行聲學搜索和語言搜索。\n經(jīng)過以上三個步驟的改造,漢語標準普通話的語音識別器就可以識別帶方言背景的 普通話。\n本發(fā)明的原理說明如下:\n帶方言背景的普通話與標準普通話之間存在很多共性,通過一定的語言知識,可以 讓它們很好結合起來,使得帶方言背景的普通話的語音識別器與標準普通話的語音識別 器共用在一個框架下。根據(jù)語言學知識,帶方言背景的普通話,其音節(jié)表與標準普通話 的音節(jié)表是類似的。但是由于方言背景的影響,帶方言背景的普通話的實際音節(jié)發(fā)音會 發(fā)生變化:如果所說的普通話比較標準,那么這種變化很??;相反,則可能保留很多方 言的發(fā)音特點??偨Y來說,這種變化分為幾種,兩者發(fā)音的映射關系如圖4所示(映射前 后的發(fā)音均用標準普通話的拼音、聲母或韻母表示):\n(1)詞無關(Word-Independent)的聲母和韻母變化,這種變化在任何詞中都可能發(fā)生, 并不受具體詞的影響。比如南方口音把聲母zh、ch、sh分別發(fā)成z、c、s;把韻母eng 和en、ing和in、或ang和an混淆等。\n(2)詞相關(Word-Dependent)的音節(jié)變化,這種變化因詞而異。比如,在四川話中, 拼音guo在“中國”中讀gui,而在“過去”中仍然讀guo。\n圖4中,帶箭頭的虛線表示詞無關的音節(jié)映射,由于只發(fā)生聲母或韻母的變化,圖 中僅把相關的聲母或韻母用黑體標出,該線段由標準普通話的發(fā)音指向所映射成的方言 中的發(fā)音。圖4中,帶箭頭的實線表示詞相關的音節(jié)映射,由該詞中發(fā)生映射音節(jié)的標 準普通話發(fā)音指向其在該方言中的發(fā)音;詞中沒有發(fā)生發(fā)音變化,或發(fā)生詞無關發(fā)音變 化的那些音節(jié),則不標出,相應的漢字用“[?]”標出。\n本發(fā)明具有以下特征:\n1)充分利用語言層面的知識和規(guī)律,變換方言背景時,不用采集大量用于自適應的 語音數(shù)據(jù)庫,因而可以節(jié)省大量的工作量;\n2)不同方言背景的普通話語音識別器與標準普通話的語音識別器共用相同的聲學 模型和語言模型;\n3)變換方言背景時,只需要變換音節(jié)映射表即可,支持音節(jié)映射表的聲學搜索算法 與語言搜索算法可以很好地解決方言背景對發(fā)音的影響,因而使用和維護方便;\n4)語音識別器既可以識別標準普通話,又可以識別帶有各種程度的方言背景的普通 話,因而可以很大程度地提高漢語普通話語音識別器的性能。\n附圖說明\n圖1是已有的語音識別之聲學模型訓練和搜索的總體框圖。\n圖2是已有語音識別中聲學搜索輸出的結果示例(拼音的網(wǎng)格)。\n圖3是按聲母和韻母組織的搜索樹示例。\n圖4是四川話發(fā)音變化的示例(用標準普通話的拼音表示音節(jié)映射關系)。\n圖5是音節(jié)映射表構建的流程圖。\n圖6是搜索樹擴展的流程圖。\n圖7是搜索樹中按詞無關的音節(jié)映射對對有向弧進行擴展的示例。\n具體實施方式\n本發(fā)明提出的帶方言背景的漢語語音識別方法結合實施例及附圖詳細說明如下:\n本發(fā)明提出一種帶方言背景的漢語語音識別方法,包括一個漢語標準普通話的語音 識別器;其特征在于,該方法包括以下步驟:\n1)根據(jù)特定方言的特點,構建從普通話讀音到方言讀音的音節(jié)映射表;\n2)根據(jù)音節(jié)映射表,擴展已有的標準普通話語音識別器中的搜索樹;\n3)用擴展了的搜索樹替換標準普通話語音識別器中的搜索樹。\n上述步驟1)構建音節(jié)映射表的方法實施例,如圖5所示,包括以下步驟:\n(1)根據(jù)語言知識總結相關方言的音節(jié)映射規(guī)律;\n(2)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在聲母,則注冊聲母映射 對{I*(x)}→{I*(y)},它表示含有聲母x的音節(jié)其聲母會映射成y,例如:{I*(zh)}→ {I*(z)},{I*(hu)}→{I*(w)}等;\n(3)對于任何一個詞無關的音節(jié)映射,如果映射是發(fā)生在韻母,則注冊韻母映射 對{*F(x)}→{*F(y)},它表示含有韻母x的音節(jié)其韻母會映射成y,例如:{*F(en)}→ {*F(eng)},{*F(eng)}→{*F(en)}等;\n(4)對于任何一個詞相關的音節(jié)映射,則注冊音節(jié)映射對{W(x1,…,xn)}→ {W(y1,…,yn)},它表示在詞W的上下文環(huán)境下,詞W的音節(jié)串由(x1,…,xn)映射成 (y1,…,yn),其中,沒有發(fā)生音節(jié)映射的音節(jié),或僅發(fā)生詞無關的音節(jié)映射的音節(jié),相 應的yi用“*”標出,例如:{中國(zhong,guo)}→{中國(*,gui)},表示在“中國”這個 詞中,音節(jié)guo發(fā)生詞相關音節(jié)映射成為gui,而僅發(fā)生詞無關音節(jié)映射的音節(jié)zhong, 在箭頭右端用“*”標出。\n上述步驟2)擴展搜索樹的方法實施例,如圖6所示,包括以下步驟:\n(1)根據(jù)每一個詞相關的音節(jié)映射對{W(x1,…,xn)}→{W(y1,…,yn)},向詞表中加 入一個新詞W,其中該詞的漢字串不變,用以表示該詞的標識碼(在已有語音識別器中每 一個詞有唯一的標識碼)不變,該詞的音節(jié)串(y1,…,yn)中用“*”標出的拼音從原詞相應 的音節(jié)復制過來,對每一個這樣的詞,該步驟使得它有個一個新的讀音;\n(2)按已有的搜索樹的創(chuàng)建方法,為加入了新詞后的詞表建立新的搜索樹;\n(3)對每一個詞無關的音節(jié)映射{I*(x)}→{I*(y)}或{*F(x)}→{*F(y)},檢查搜索 樹中所有非葉子節(jié)點對應的有向弧,如果該有向弧中所標的聲母或韻母是x,則將該有 向弧擴展出一個與之并列的同向有向弧,并標以y;如圖7所示,圖中粗線表示的有向 弧是根據(jù)大箭頭上面的音節(jié)映射對所擴展出來的有向弧。\n上述步驟3)的用擴展了的搜索樹替換已有語音識別器中的搜索樹方法實施例為, 在搜索樹擴展完成后,不用修改已有識別器中的聲學搜索算法和語言搜索算法,直接用 已有的語音識別器中去進行聲學搜索和語言搜索。
法律信息
- 2023-01-03
未繳年費專利權終止
IPC(主分類): G10L 15/00
專利號: ZL 02155605.9
申請日: 2002.12.13
授權公告日: 2004.11.24
- 2022-08-12
文件的公告送達
文件的公告送達失敗
收件人: 米青山
文件名稱: 專利權終止通知書
- 2013-05-01
專利權質(zhì)押合同登記的變更
登記號: 200501226
變更日: 2013.03.07
變更事項: 質(zhì)權人
變更前: 北京中關村科技擔保有限公司
變更后: 北京中關村科技融資擔保有限公司
- 2013-05-01
專利權質(zhì)押合同登記的生效
IPC(主分類): G10L 15/00
專利號: ZL 02155605.9
申請日: 2002.12.13
授權公告日: 2004.11.24
登記號: 200501226 解除日 2013.03.07
出質(zhì)人: 鄭方
質(zhì)權人: 北京中關村科技融資擔保有限公司
- 2013-04-10
專利權的轉移
登記生效日: 2013.03.19
專利權人由鄭方變更為北京得意音通技術有限責任公司
地址由100084 北京市海淀區(qū)清華園清華大學西14-4-202變更為100084 北京市海淀區(qū)清華科技園學研大廈B座1005室
- 2004-11-24
- 2003-07-09
- 2003-04-23
引用專利(該專利引用了哪些專利)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有引用任何外部專利數(shù)據(jù)! |
被引用專利(該專利被哪些專利引用)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有被任何外部專利所引用! |