亞里士多德曾說,聲音是靈魂的鏡子。聲音是人類*的表達方式,它是我們身份的一部分。語調的抑揚頓挫可以流露出一個人的個性和情緒。
曾經只有人類才能說話。但是,時過境遷,在過去的20年里,合成語音發展神速,目前,合成語音已經成為數字技術和相關經濟產業的重頭戲了。合成語音是人機交互的基石,它賦予機器“形象”和“靈魂”,讓機器具有“個性”。在不遠的未來,從口袋里的手機開始,合成語音將變得無處不在,我們甚至可能無法區分合成語音和真人語音的差別。
語音不再是人類的獨享。機器合成的語音已經可以和真人的相媲美了。
競爭核心
數字技術*谷歌、蘋果、微軟和亞馬遜是合成語音領域的重量級選手,它們把大量資金投入了與合成語音相關的技術研發領域。我們的智能手機已經能夠聽懂語音指令,并用合成語音回應我們的問題了。
合成語音未來將會融入私人助理技術,也就是為我們服務,成為幫助我們控制家中聯網設備的人工智能。它們總是能隨時隨地傾聽我們的愿望、滿足我們的需求。像谷歌助理I/O、蘋果的Siri、微軟的小娜(Cortana)和亞馬遜的Alexa就是這樣的例子。
在*范圍內,有許多大學的實驗室都在研究這個課題,例如英國劍橋大學、愛丁堡大學、美國的卡耐基梅隆大學、日本的奈良先端科學技術大學院大學。在這些選手中,位于法國巴黎的聲學、音樂研究和協作學院(簡稱Ircam)憑借對技術創新和文化藝術的獨到融合,脫穎而出。這所學院的獨到之處是已經將合成語音應用到了娛樂和內容生產(如音樂、電影和電子游戲)的多個領域中。
雖然數字領域的*和一些實驗室一直對標準式合成語音的應用感到沾沾自喜,但是Ircam的研究人員卻另辟蹊徑,從80年代開始就致力于讓合成語音更具真人的特征:他們讓合成語音也具有聲紋、語氣、個性和表現力。
近10年里,Ircam的聲音分析和合成團隊也取得了重大突破。得益于該團隊的研究,合成語音變得不再呆板機械,變得更加自然、更富有表現力。而撐起這個質的飛躍的,是信號處理、機器學習和語言學的一系列進步。
目前的語音分析和合成算法已實現升級,它們能夠更加忠實地還原人的聲紋。另外,我們對語音的韻律,以及它和句法之間的關系有了更深入的了解,這讓合成語音變得更加自然。
后,新近引入的機器學習,以及計算能力的快速提升都對相應技術的飛速發展起到了決定性的作用。目前,在語音數據庫中,每個樣本都存儲著一個人數小時的錄音,而一個數據庫通常會儲存著數以千計的樣本,也就是數以千計的人聲。正是由于這些積累,現在的機器已經能夠像人一樣開口說話了。
現在,有許多制片廠都在使用Ircam研發的軟件。利用這些軟件,人們能夠定制語音的聲紋、語氣、身份和個性。比如,這些軟件能夠輕而易舉地將男人的聲音變成女人的,把年輕人的聲音變得老態龍鐘,或是將老人的聲音變得年輕。
用這類軟件也能把一個人的聲音變成另一個人的。我們的計算機和智能手機就能通過這個軟件合成生動自然、具有個性的語音,它們甚至能夠幫我們朗讀任何文本。
未來,我們還能讓無法開口說話的人也發出聲音,或者讓機器模仿一個人的聲音說外語。以后,我們就能像換發型一樣隨意變聲,或者和擁有嗓音的機器人自然流暢地交談。
這些科技進步無疑會成為科技和商業競爭的核心,還有倫理討論的焦點。而要實現這些進步,研究人員必須先理解人類語音的*性,并做到善加利用。
雕刻語音
每個人的語音身份由兩個要素構成:音色和韻律。要改變一個人的聲音,就要對這兩個要素進行建模,這樣才能復制或者改變一個人的語音。2010年,Ircam的研究人員就研發了一款名為IrcamTools TRAX的軟件,它就能實現這樣的功能。
這款軟件能夠對錄音或者話筒中的聲音信號進行數字處理。在調低或者調高音高后,聲音就會變得更低沉或更尖銳。它也能進行數字濾波,改變語音的音色。通過這款軟件,使用者能夠輕而易舉地讓聲音變性,或者把中年人的聲音變成少年或是老年人的。
實際上,由于具有不同的生理特征(身高、身材胖瘦),男性和女性發音器官也有差異,這會影響他們發出的聲音。男性的聲帶更長(17~25毫米),聲道也更長(平均17厘米)。這樣的生理特征使得男性的音高更低(70~160Hz),音色也更低沉。
女性的聲帶(12.5~17.5毫米)和聲道(平均14厘米)均更短。因此女性的音高更高(130~300Hz),音色更“尖銳”。另外,一個的人的聲音和身體一樣會隨著年齡的增加而變化。一個人的嗓音在青少年時更尖細,成年以后音色就會變得低沉,到了老年卻又會變得尖細。
通過這些基本原理,軟件可以調整聲音的音高和音色從而讓人產生錯覺,以為說話的人變了性別或是改變了年紀。想要復制老年人*的嗓音(比如顫音),就需要對數字處理做進一步的修飾。上了年紀的人的發音器官一般不太靈便:他們的聲帶松弛,因此說話時喘鳴聲更重,而且時常會失聲發出顫音。
讓人驚訝的是,這種軟件能夠創造出不是天然存在的聲音,比如它能讓獅子說人話。這種的秘訣在于將人的語音和獅子的吼叫聲混合在一起,用獅子的聲帶聲紋特征代替人的,同時保留人的共鳴腔聲效。處理后的音效簡直讓人目瞪口呆:我們可以清楚地聽到一個人在說話,但是他的聲音里卻帶著獅子的喘鳴和低吼聲。
電影和動畫行業的制片工程師經常使用這種方法來處理演員的聲音,或者為虛構角色配音?,F在,這些工程師的技術已經更進一步,能夠復制演員或者歷史人物的聲音了。在Ircam,經常有人請求我們用留存的聲音資料復活故人的聲音。
用別人的嗓子說話
韻律和音色可以用來區別不同人的特色。但是,當一個人模仿別人說話時,這兩個嗓音特征會起到什么樣的作用?當一個人(愛麗絲)模仿另一個人(伯納德)說話時,其實她主要模仿的是伯納德語音的韻律。
要想模仿別人的音色不是一件容易的事。因為人的聲道尺寸是由生理決定的,每個人都不同。所以,即使是才華橫溢的模仿高手,也無法地復制另一個人的音色,僅能大致模仿他說話的韻律。
想要真實地還原一個人的嗓音,就必須復制他的音色。首先,要用伯納德(被模仿者)的錄音建立一套“語音面具”,然后為愛麗絲(模仿者)的聲音戴上這種“語音面具”。
這樣看來,要復制一個人的嗓音,就必須先收集這個人的錄音,組成一個數據庫。這些數據會被切成音素,做進一步分析,然后組合出被復制者的聲學特征。具體來說,每個音素都有一個“語音面具”(一種聲音濾波器),它能夠調節聲音中不同頻率成分的強度比例。
在轉換聲音身份的時候,只需要將“語音面具”復制粘貼即可。針對愛麗絲的每個音素,系統都會在伯納德的聲音數據庫中挑選相應的音素濾波器,從而進行替換。
在愛麗絲的聲音數據庫中,相應的算法會挑選使轉換聽起來逼真的聲音濾波器序列。在經過一系列操作和處理后,愛麗絲的聲音就有了伯納德的音色。
這個技術面世后的應用就是在電影中再現瑪麗蓮·夢露(Marilyn Monroe,《瑪麗蓮》(Marilyn)的嗓音,隨后,又在多部電影中重現了多位歷史人物的對白。
比如要模仿喜劇演員路易·德菲內斯,演員就要模仿他的韻律按照劇本的人物臺詞表演,此時的聲音會被分段記錄下來。與此同時,研究人員還利用德菲內斯的歷史錄音建立起一個長達十分鐘的數據庫。
通過這個數據庫和剛才的一系列處理手段,研究人員就可以利用德菲內斯的聲音特征將演員的音色轉化成他的樣子。而德菲內斯發出的聲音就像是近才錄的,但其實,聲音的原材料都來自他在70年代拍的電影。
聲音拼圖
Ircam 的研究人員通過合成語音拓展了語音處理的邊界?,F在,用錄音改變一個人聲音的技術已經成熟,如何用合成語音來朗讀任意文本卻成了大的問題。
要考據合成語音的歷史,可以追溯到18世紀。那時已經出現了汽車和可以發音的機器了。進入20世紀后,電力的出現讓這些機器變得更先進、更,1939年由貝爾實驗室制造的VODER(語音操作演示器)就是其中一例。當計算機出現后,一切又變得自動化了。
目前,語音合成系統已經*實現了自動化,它們能夠讓數字聲音具有個性。語音合成在本質上依賴的是語音數據庫,如果要生成合成語音,只需要幾個小時的真人錄音就可以了。
語音合成和語音轉換不同,它不僅要轉換現有語音的特征,還要用基礎的語音元素完整地重塑語言,朗誦任何文本。目前大多數合成器的基本工作原理都是“基元選取”(unit selection),這非常類似于拼圖游戲。
每個基元是一段有特定韻律和音色的口語語料(包括音素、音節、詞語等)。語料數據庫就像拼圖的集合,要有盡量豐富的語料才能滿足合成語音時多變的需要。
在為一段文本合成語音時,要找到與文本對應的語料片段,從而進行組合。重組的過程就像跋山涉水一樣麻煩:算法要先從數據庫中挑選出大量的語料片段,但是語料本身有各自的聲學特征,無法直接簡單地拼湊到一起。要合成語音一段語音,就要盡量找到那些前后連貫的語料片段。
為了讓合成語音聽起來自然,既要保證音素之間配合得天衣無縫,還要保證文本本身易于被理解。另外,還要考慮到音素整體表現出的音樂感,也就是韻律。
語音還原的質量主要取決于數據庫的容量:每段口語語料的素材數量越多,音素間的連接就越流暢、韻律就越豐滿。后,成品還要經過算法做具部潤色,這樣才能讓語料之間的連接沒有明顯瑕疵,讓斷句更流暢。
2000年后,在語言學、信號處理和機器學習方面的進展,使合成語音韻律的建模能力有了驚人的進步。過去的合成語音僅僅勉強能聽,現在的合成語音聽起來不僅很自然,還很有表現力。
天然和人工之間的界限變得模糊了。在機器學習的幫助下,可以用上千種不同的語音創造出“平均”合成語音,當然,也可以用幾個不同人的語音制造出混合語音,或者將某人的口音、情緒和說話的風格移花接木到另一個人身上。
這些處理的原理與“基元選取”是類似的,但具體的操作有很大的差異。這類方法并不是采用真人錄制的口語語料直接合成語音,而是用一個統計模型來表示一個人的語音。這個統計模型是對語音的數學抽象,通過它可以復制和生成合成各種各樣的語音。
利用統計分布規律(正態分布的平均值和方差),就能為每一個音素在聲學空間(以音高、持續時間、音強和音色為參數的參數空間)中的分布建模。
選取的語音參數會隨著說話的進程變化而變化,為了給這個過程建模還需要用到關于時間序列的模型(如隱馬爾可夫模型)。在這類模型里,每個音素都會被分割成一系列“狀態”,比如開始、中間、結束,而每個狀態都有各自的統計分布。
通過聲學空間統計參數的組合、插值和自適應,這套系統可以對聲音的各項抽象特征進行計算。比如,我們能夠利用兩個真人語音的統計參數制造出混合語音,也可以將幾千個人的語音組合成平均語音。
這種技術進步使文本合成語音的效率發生了翻天覆地的變化:它不再依賴于真人語音,只需要幾分鐘長度的錄音就可以快速合成新的語音。
所以,即便這個人已經無法出聲,只要利用幾分鐘錄音資料就能再現他的聲音。而且,就算不會說外語,現在的技術已經能實現用本人的聲音合成外文語音。
雖然合成語音已經取得了令人矚目的成績,但是,還有進步的空間。在合成語音的過程中,始終需要人力輔助才能得到優良的合成效果。而現在,人工智能、人工神經網絡下的深度學習和大數據領域的變革,都為語音合成注入了新鮮的血液。
在人工神經網絡技術,或者說神經網絡中,學習的硬件設備或者虛擬設備是由一層一層的“神經元”構成的,每個“神經元”都有兩種可能的狀態。神經元之間相互連結,在學習的過程中算法會對“神經元”的特征進行調整。
在70年代,神經網絡被引入到了語音處理中,當時,人們認為這種結構能夠模擬大腦的工作方式,從而更好地完成機器學習。然而,神經網絡的發展一度受到理論、算法,以及當時十分有限的計算能力的限制。
近10年,理論進步和計算能力的飛速發展,讓神經網絡技術再次回到了舞臺。
一些為深度神經網絡(深度指的是包含多層神經元網絡)量身定制的新的學習算法也逐漸出現在人們的眼前。這些深度神經網絡的算法非常依賴大數據。
這些技術給了人們很大的想象空間。在未來,我們可能會創造出與真人語音沒有差異的數字語音,它甚至能用任何語言傳遞信息,我們還能根據需求給它賦予*的個性。
在未來我們可以隨心所欲地改變自己的嗓音,我們能與聲音無異于真人的智能機器順暢地進行日常交流。然而,這種機器到底是天使,還是惡魔呢?這種技術已經引起了一部分人的反感,也引出了這樣一個基本問題:在我們的社會中,合成語音以及人性化的機器究竟算什么?
用多人語音合成,或是用別人語音轉化而來的聲音究竟屬于誰?它屬于復制人嗎,還是改造人?或者應該屬于創造它的研究者和工程師?怎樣區分合成語音和真人語音的差異?
如果能仿造某人的語音,怎樣鑒定語音留言的真實性?合成語音的人格化和機器人的人形外貌一樣,也發人深思。如果機器的聲音太像真人,我們是否陷入了日本機器人學家森政弘提出的“kong bu谷”怪圈?
上一篇 : 1/2英寸自由場麥克風和壓力場麥克風都有哪些區別
下一篇 : 沒有了