售前電話
135-3656-7657
售前電話 : 135-3656-7657
隨著計算機運算速度越來越快,人工智能領(lǐng)域的研究獲得了飛速發(fā)展,而人工智能領(lǐng)域的最新研究成果向語音研究中的大量滲透,促使語音處理技術(shù)及語音合成的研究產(chǎn)生了一個突破性的飛躍。語音合成系統(tǒng)也越來越產(chǎn)品化,并具有巨大的市場前景。
合成語音是通過一個聲學(xué)模塊來具體實現(xiàn)的。早期的語音合成技術(shù)的研究,往往集中在語音合成算法本身,其研究的方法和手段與語音編碼有很多相似之處。其聲學(xué)模型的構(gòu)筑,,也多通過模擬人的口腔的聲道特性來產(chǎn)生。其中比較著名的有Klatt的共振峰(Formant)合成系統(tǒng),后來又產(chǎn)生了基于LPC、LSP和LMA等聲學(xué)參數(shù)的合成系統(tǒng)。這些方法用來建立聲學(xué)模型的過程為:首先錄制聲音,這些聲音涵蓋了人發(fā)音過程中所有可能出現(xiàn)的讀音;提取出這些聲音的聲學(xué)參數(shù),并整合成一個完整的音庫。在發(fā)音過程中,首先根據(jù)需要發(fā)的音,從音庫中選擇合適的聲學(xué)參數(shù),然后根據(jù)韻律模型中得到的韻律參數(shù),通過合成算法產(chǎn)生語音。
進入20世紀(jì)90年代以來,波形拼接(PSOLA)的算法,越來越被廣泛地應(yīng)用在語音合成系統(tǒng)中。國內(nèi)外的許多跨國公司和研究機構(gòu)均投入了大量的人力和物力從事語音技術(shù)的開發(fā),如L&H、IBM、Microsoft、Lucent、Motorola等。清華大學(xué)計算機系在漢語語音合成的研究和開發(fā)中,也突破性地運用了人工神經(jīng)網(wǎng)絡(luò)、決策樹、隱馬爾可夫模型等方法。這些方法的運用,徹底改變了漢語語音合成研究的研究重點,使?jié)h語語音合成的研究突破了早期重點對單純算法的研究,而變成一個系統(tǒng)工程的研究。目前我國語音合成的整體研究和開發(fā),邁上了一個全新的臺階,并處在了國際最先進的行列。
一、 SinoSonic語音合成系統(tǒng)
SinoSonic是清華大學(xué)計算機科學(xué)與技術(shù)系和北京炎黃新星網(wǎng)絡(luò)科技有限公司共同推出的漢語語音合成系統(tǒng)。
它采用目前世界最先進的數(shù)據(jù)驅(qū)動技術(shù),利用精心設(shè)計的語音語料庫對TTS系統(tǒng)進行訓(xùn)練,所得到的系統(tǒng)體現(xiàn)了連續(xù)、自然的語言特性,從而使系統(tǒng)發(fā)音自然、親切。整個系統(tǒng)的核心技術(shù)包括:基于神經(jīng)網(wǎng)絡(luò)的韻律模型、基于HMM的語音切分和選取模型、基于HMM的多語種文本分析和語義分析、漢語語料庫設(shè)計和標(biāo)注、語音分析工具的研制等。
該系統(tǒng)的構(gòu)成分為:用戶編程接口以及TTS內(nèi)核兩大部分,如圖1所示。其中,內(nèi)核部分又可以按照系統(tǒng)運作的不同過程分為多個子模塊,包含了訓(xùn)練模塊、文本分析模塊、韻律生成模塊、語音合成模塊以及與語料庫之間的通信協(xié)議等。同時,SinoSonic還考慮了不同類型用戶對TTS系統(tǒng)功能的需要,提供了豐富的編程接口。
該系統(tǒng)的工作過程如下:
用戶提供文本并調(diào)用TTS系統(tǒng)接口,文本首先被送入系統(tǒng)的文本分析模塊,文本分析模塊首先對用戶輸入的文本進行規(guī)格化處理,然后運用統(tǒng)計模型算法對其進行分詞、分短語、確定發(fā)音、分析標(biāo)點符號或特殊符號等處理,同時,還要確定文本發(fā)音的輕重模式。經(jīng)過文本分析后得到的參數(shù),被送入到系統(tǒng)的韻律生成模塊。在韻律模型中,首先通過統(tǒng)計模型的方法得到韻律中音節(jié)的音長和音強參數(shù),然后通過優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型來確定音節(jié)的基頻曲線,并得到音節(jié)停頓模式等信息。將這些信息和參數(shù)傳送到系統(tǒng)的聲學(xué)模塊,系統(tǒng)的聲學(xué)模塊再根據(jù)這些參數(shù),從音庫中選擇合適的語音單元,并采用PSOLA的方法生成最終的合成語音。
在整個系統(tǒng)工作的過程中,用戶可以隨時通過系統(tǒng)提供的接口,獲得系統(tǒng)的內(nèi)部狀態(tài),進行合成參數(shù)設(shè)置、隨時中斷或暫停系統(tǒng)等工作。
SinoSonic系統(tǒng)功能和指標(biāo)有:可讀字、詞、句子、文章及標(biāo)點、數(shù)字、運算符和英文字母,語音庫覆蓋國標(biāo)一、二級所有漢字;能輸出男聲或女聲;提供豐富的、合理的編程接口,方便用戶進行二次開發(fā); 語音輸出以句子為單位,按詞匯停頓,能自動決定多音字的正確讀音;可隨時改變聲音的幅度(Volume)、基頻(Pitch)、速度(Duration)、詞間或句間停頓;讀出時,可隨時“暫停”、“恢復(fù)”、“終止”語音。
二、語音合成系統(tǒng)性能指標(biāo)
語音合成系統(tǒng)的基本性能指標(biāo)包括:可懂度、清晰度、自然度、漢字轉(zhuǎn)拼音正確率(分詞正確率)。 考慮到實際應(yīng)用,還有系統(tǒng)的數(shù)字、姓氏、特殊符號等方面的處理能力、跨平臺處理能力以及語音合成的速度(指單位時間內(nèi),通過語音合成系統(tǒng)生成語音的音節(jié)數(shù),或語音合成同時支持的并發(fā)請求個數(shù))等。
SinoSonic除了滿足一般意義上的特性外,還有許多獨有的性能,如:
(1) 即時性: TTS技術(shù)實時完成文本到語音的轉(zhuǎn)換,它實現(xiàn)信息的即時傳送。
(2) 并發(fā)性: TTS技術(shù)與電信網(wǎng)絡(luò)結(jié)合,同時處理多個呼叫請求,它實現(xiàn)信息的并發(fā)傳送。
(3) 適應(yīng)性: TTS系統(tǒng)能在不同操作系統(tǒng)平臺下運行,支持Windows 9x、Windows 2000、Linux和Unix。
(4) 可靠性: 經(jīng)過長時間測試,SinoSonic系統(tǒng)性能穩(wěn)定可靠。
(5)靈活性:根據(jù)用戶特定需求,SinoSonic系統(tǒng)的輸入、輸出特性和用戶接口極易修改。
(6) 拓展性: 隨著應(yīng)用領(lǐng)域不斷擴展,用戶需求不斷提高,阿吖、SinoSonic也可不斷更新拓展。
三、語音合成系統(tǒng)的API 設(shè)計
語音合成系統(tǒng)的API,可以考慮不同層次的開發(fā)需要。目前國際上較為流行的方法是面向用戶應(yīng)提供不同層次的用戶接口,即High-Level API或Low-Level API。API分層設(shè)計的核心思想,是提供語音合成系統(tǒng)以不同層次的開發(fā)需要。 High-Level Speech API的目的是使用戶不需要進行太多的學(xué)習(xí),便能夠迅速、簡便地使用語音合成系統(tǒng)的大部分功能。API簡潔、明了、功能全面,且在不同的應(yīng)用平臺保持一致性,適用于一般意義上的語音合成系統(tǒng)應(yīng)用再開發(fā)。其提供的基本功能應(yīng)包括:
(1) 系統(tǒng)初始化;
(2) 系統(tǒng)卸載;
(3) 直接將文字轉(zhuǎn)換為語音,并用聲卡或其他聲音播放卡將聲音播放出;
(4) 提供播放、暫停和停止等基本播放功能;
(5) 修改語速、基頻和能量的功能;
(6) 韻律控制符的分析和應(yīng)用;
(7) 可視化功能接口。
Low-Level Speech API的目的是使用戶能夠進行全面、深入的底層開發(fā),其API接口復(fù)雜,功能小而細、復(fù)雜、規(guī)模大,可按不同功能集進行分類,且系統(tǒng)的幾個不同的組成模塊(如文本分析、韻律、聲學(xué)處理)均可以提供單獨的接口,能全面滿足語音合成系統(tǒng)現(xiàn)在和將來應(yīng)用開發(fā)的需要。其提供的基本功能應(yīng)包括:
(1) 系統(tǒng)各個子模塊的初始化;
(2) 系統(tǒng)各個子模塊的卸載;
(3) 文字分詞、轉(zhuǎn)拼音或詞性標(biāo)注功能;
(4) 用戶詞典維護接口;
(5) 合成語音特色(包括男、女聲等);
(6) 韻律控制符的分析和應(yīng)用;
(7) 語速、基頻和能量的控制功能;
(8) 聲音播放卡的控制功能;
(9) 語音合成的流控制功能、內(nèi)存管理功能及消息管理功能;
(10) 用戶自定義文本分析、韻律及合成算法引擎的接口(合成平臺開放性);
(11) 不同應(yīng)用平臺的特殊接口;
12) 不同語言的特殊接口;
13) 可視化接口;
14) 聲音同步接口;
15) 出錯信息解釋接口。
詳細基本功能集的定義可根據(jù)各單位自己的系統(tǒng)的情況而定,也可以制定統(tǒng)一的標(biāo)準(zhǔn)。接口的設(shè)計,還應(yīng)考慮語音合成產(chǎn)品除了在提供自身發(fā)音性能的同時,正向著網(wǎng)絡(luò)化、多語種、多合成引擎的方向發(fā)展。同時,接口還應(yīng)該可慮方便用戶自定義發(fā)音風(fēng)格、系統(tǒng)可訓(xùn)練的實際應(yīng)用需要。
四、新華音霸
新華音霸是清華大學(xué)、炎黃新星和新華世紀(jì)聯(lián)合推出的PC屏幕閱讀軟件。它可以朗讀計算機屏幕中任意出現(xiàn)的文字,增加了人機交互的友好性,同時它還采用了清華大學(xué)最新研制的虛擬頭像技術(shù),配合聲音進行同步播放,極大地提高了軟件的趣味性。
五、語音網(wǎng)關(guān)
運用語音合成技術(shù),而構(gòu)筑的語音網(wǎng)關(guān),在很大程度上改變了傳統(tǒng)IVR運作模式,為電信網(wǎng)統(tǒng)一消息平臺、呼叫中心(Call Center)注入了全新的活力。它可以為用戶實時提供,諸如E-mail、新聞、信息查詢等信息,并為用戶用清晰自然的語音朗讀出來。目前,清華大學(xué)和炎黃新星共同推出的語音網(wǎng)關(guān)技術(shù),在國內(nèi)具有相當(dāng)?shù)膬?yōu)勢,并在移動夢網(wǎng)、168平臺改造等重大項目中,得到了非常成功的應(yīng)用。
六、總 結(jié)
目前就語音合成系統(tǒng)的系統(tǒng)構(gòu)架來說,它正朝著多語種、網(wǎng)絡(luò)化和分布式運算的方向發(fā)展,其關(guān)鍵的技術(shù)牽涉的領(lǐng)域也越來越多。目前,國際上許多大的公司和科研機構(gòu),如Motorola、Lucent、IBM等均參與了一種新的XML的一個擴展子集VoiceXML的制定。VoiceXML的出現(xiàn),將會極大地改變?nèi)藱C交互的通信模式。在分布式運算結(jié)構(gòu)中,將會要求系統(tǒng)的設(shè)計更為模塊化,并且對模塊之間的并行和協(xié)調(diào)工作提出了更高的要求?,F(xiàn)有的語音合成系統(tǒng)研究水平,從一定程度上使系統(tǒng)走向了產(chǎn)品化,其音質(zhì)和發(fā)音效果也被普通人所接受。然而,從另一個角度來說,人的發(fā)音各有特色,發(fā)音的習(xí)慣也不盡相同。能完全像真人一樣體現(xiàn)人的說話語氣、概念,能體現(xiàn)不同的情感,并能模擬不同人發(fā)音特色的語音合成系統(tǒng)的出現(xiàn),還需要我們投入更大的精力去開拓。下一代的語音合成系統(tǒng)將不再稱為“文字到語音轉(zhuǎn)換系統(tǒng)”,而是會被稱做“概念到語音轉(zhuǎn)換系統(tǒng)(CTS系統(tǒng))”。