NTT 情報通信用語集

TTS（テキストからの音声合成）

テキストを入力し音声を出力する技術。つまり，文字メディアを音声メディアに変換する。これには３つの基本技術が必要。

(1) テキスト解析技術

かな漢字混じり文を解析して，漢字に正しい読みがなをふる。また辞書を検索してアクセント型が正しく決定できないと単語の意味が違ってしまうこともある。

(2) イントネーションの設定

読みがなに対して，声の高さとか，音素（音声の最小単位）の長さとかを規則によって決定する。規則は，あらかじめ人間の発声した音声を分析して作成しておく。

(3) 音声信号処理

音素を接続して任意の音声を生成する。Sesignでは，音素として音素環境依存型素片を，約6,000個用意している。音素環境依存型素片とは「朝」と「雨」の同じ“あ”でもそれぞれ違うように，その前後にどのような音素が来るかによって変わってくる場合をそれぞれ規定したもので，これによって自然な合成音声が得られるようになっている。

先頭へ