へ 戻る   


パソコンにしゃべらせてみよう


以下の説明は 古い Windows OS の環境下のみで動作し、新しいOSには対応していないものもあります。
しかし、一部のアプリケーション、「おしゃべりテキスト」 などは新しい Windows OS でも正常に動作しました。
      
      
 音声合成について
 
1968年に始まったFM最長寿番組に「JAL提供FM番組」 JET STREAM という番組がありました。そして夜午前零時に始まりました。
オープニング、曲と曲の間、そしてエンディングで、BGMにのせて語られるナレーションがこの番組の雰囲気を
盛り上げていました
その番組を映像化したものを YouTube で見ることが できます。 (当時はJALのマークは赤い鶴のマークでした。)
         
JET STREAM  (3分7秒)
         
ジェットストリーム(夜間飛行)城 達也 (2分34秒)  
いまではほとんどお目にかかることがないカセットテープに毎晩放送を録音して楽しんだもので した。その後この番組はCD化やDVD化され発売されました。
この番組のなかで聞かれるナレーションは当時 城 達也 が担当しました。このナレーションを自分で作ってみたいと思い、いろいろと試してみました。
本来なら自分の声で語り録音すればよいのですが、自分の声に自信がないので、音声合成という技術を使ってみることにしまし た。

音声合成というのは、コンピュータ上で、書かれた文章を自動的に読み上げ、声を生成する技術で す。
この "音声合成" は "テキスト読み上げ" ともいわれます。
この音声合成技術を、Microsoft では 「Text-to-Speech」 略して TTS
 と呼んでいます。
そして音声合成技術の基本部分である 「Text-to-Speech ENGINE」 を 「フリー」 で提供しています。

私はMicrosoftではなくて当初、IBM 「Voice Type」 IBM 「Via Voice GOLD」にグレードアップして使っていました。
IBM 「Via Voice GOLD」MicrosoftENGINEを併用し、日本語はもちろ ん、英語、米語、ドイツ語、イタリア語、スペイン語、フランス語、ロシア語、オランダ語、ポルトガル語・・・・・など、ほとんどの言語を発声することがで きていたのが、
「Via Voice GOLD」  がさらにバージョンアップして、「Via Voice V.8」 になったあたりから、日本語しか発声することができなくなりました。
それでやむをえず、古いバージョンの「Via Voice GOLD」を使っていました。

ところが最近になって調べてみると、日本で制作され、しかも フリーソフトで使いやすいものがいくつか見受けられるようになりました。

例えば、
フリーソフトでは (アルファベット順)  

名称

作者
(敬称略させていただきました)

ソフト種類

対応言語など

SAPI (4/5)
AquesTalk
MSSP
eSpeak

Adobe Reader 8 読み上げ機能 Adobe systems Inc. 付属機能フリーソフト 日本語/多国語

4/5

akJ Speechtools akj オープンソース 日本語/英語

独自

ALTAIR 日本障害リハビリ
テーション協会
フリーソフト 日本語/多国語

4/5

AquesTalk 株式会社アクエスト フリーソフトミドルウエア 日本語のみ・サンプルアプリケーションあり

A

ClipReader
Kazusoft
フリーソフト 日本語/多国語 4/5
EasySpeech EasySpeech.jp フリーソフト 日本語/多国語

4

eSpeak (TTSAppで) eSpeak Sourceforge.net フリーソフト 日本語/多国語

4/5/A/e

ESPTAP 山野敏夫 フリーソフト エスペラント語/その他

4

Fire Fox 拡張機能
Fire Vox
Charles L. Chen 拡張機能フリーソフト 日本語/多国語

4/5

Fire Fox 拡張機能 Click,Speak Charles L. Chen 拡張機能フリーソフト 日本語/多国語
4/5
Free NaturalReader 9.0 NaturalSoft フリーソフト 日本語/多国語 高機能有料版もあり

5/e

GalateaTalk Source
Forge.jp
オープンソース 日本語

独自

Google Chrome拡張機能
Select and Speak
Chrome Web Store フリーソフト 日本語/多国語
4/5
Google Chrome拡張機能
SpeakIt!
Chrome Web Store
フリーソフト 日本語/多国語
4/5
Google翻訳
 (ブラウザのサイト上で対応)
Google フリーソフト 日本語/多国語(数十か国語)

e

MOSpeech Labor
Economics.org
フリーソフト 日本語/英語 クリップボード読上げのみ

5/e

NVDA(日本語版) 注 1:SR
Windows 7 64bit 版ではMSSP
の音声がすべて使えない。
NVDA
Japanese Users
フリーソフト 日本語

4/5/M

Opera Voice機能 Opera
Software
付属機能フリーソフト 英語のみ

独自

Parole SIGEYOSI フリーソフト 日本語/多国語

4

proEdit Tea & Eyes フリーソフト 日本語のみ(ProTALKER必要

4

ReadPlease 2003 ReadPlease Corporation フリーソフト 多国語(日本語不可)

4/5

reporter 村田組 フリーソフト 日本語/英語(MS Agent必 要)

5

SofTalk CNCC フリーソフト 日本語/多国語

A/e/M

SofTal WEB  CNCC フリーソフト 日本語のみ WEBサイト読上げ可

A/e/M

spcbght.bat 電脳太助 フリーソフト  日本語/多国語

M

SpchW Milord Club フリーソフト 日本語/多国語

4/e

SpeechApp FREE WING フリーソフト 日本語/多国語

 5/A/e

Text To Wav v6.1  Noah フリーソフト 日本語/多国語日英読み分け機能あり

4/5/e/M

Text-to-Speech Controller まろ 公開終了 日本語/英語など

独自

TTSAPP/SimpleTTS (DHTML) Microsoft フリーソフト 日本語/多国語

4/5/A/e

Windowsスクリーン・リーダー 注1:SR 音楽研究所 フリーソフト 日本語

4/5

おしゃべりテキスト V.2 くろだんご 転載自由フリーソフト 日本語/多国語

4/5/A

おしゃべりテキスト V.3 くろだんご 転載自由フリーソフト 日本語/多国語

4/5/A/e

おしゃべりプレイヤー マーチン フリーソフト 日本語/多国語

M

簡読★Text  SoftFarm.net フリーソフト 日本語/多国語 D&D/クリップボード読上

4

ドキュメントトーカーPlusV2.1
Free版
クリエートシステム開発株式会社 フリーソフト 日本語/英語 AquestTalk付属

A

        「ドキュメントトーカ Plus 2.1 Free版はフリーソフトでエンジンは AquesTalk が付属。
        日本語音声合成エンジンを導入すると相当高品位の読み上げが期待できます。
        「Win版 歌声合成 面白替え歌 Ver1.1」はフリーソフトで、歌を歌うことができます。
        「Win版 歌声合成 ミディで替え歌 Ver1.1」
はフリーソフトで、MIDIファイルより音階を取りだし、入力された歌詞を音声合成で歌うこと
        ができるもの。 ※注2
バイハート Tokunaga Yoshito(kobo) 転載禁止フリーソフト 日本語/多国語(MS Agent必要)

4

ボイトレ先生 楓ソフトウエア研究所 フリーソフト 日本語

4

棒読みちゃん みちあき フリーソフト 日本語

A/M

読み上げTool 西村誠一 フリーソフト 英語のみ?(WindowsXP?)

4

読み上げくん まぁさ フリーソフト 日本語/英語(MS Agent必 要)

4

楽SpeechS Free's フリーソフト 日本語/多国語

4

和太鼓 (MS WORD のみ対応) 情報支援のお道具箱 フリーソフト 日本語

M

注:上に挙げたソフトのなかには Microsoft Text-to-Speech の SAPI4・SAPI5対応の各種言語 Engine を使うことができる
   ものがあり、インストールした Engine により対応言語も変わります。
注: SAPI については下記
【SAPI 4 と SAPI 5 について】 を参照。
注: MSSPについては下記 【MMSSP について】 を参照。
注意:   MSSP はWindows Vista 以降の OS でのみ保証
 

        ※注1:SR   スクリーンリーダー。
        ※注2       音声合成で歌うことのできるソフトについては別ページ 「 PC に歌わせてみよう 」で詳しく解説 してあります。

 
有料ソフト
では

名称

         作者

サンプル

対応言語

SAPI 

AITalk 株式会社エーアイ 試してみる  日本語、英語、
 中国語、韓国語

独自

FineSpeech 株式会社アニモ
日本語

独自

FocusTalk Ver2.0 Skyfish Inc. 体験版 日本語

ProTALKER 97 IBM 営業活動終了 日本語

---

SMARTTALK  沖電気 販売終了 日本語

---

TextAloud NextUp.com Sample Voice 日本語/多国語

4/5

TextSpeech Pro  Digital Future Sample Voice 日本語/多国語

4/5

       上の2件、 TextAloud とTextSpeech Pro は数種類の SAPI4・SAPI5 対応の Speech Engineを使うことがで きます。
       これらの Speech Engine は SAPI4・ SAPI5 対応となっていますから上に書いた各ソフトでも使えるものと思われます。

       そのなかでも AT&T Natural Voices は 明瞭度、自然な発声などで最高品位。
       ただ残念なことに AT&T Natural Voices には日本語がありません。 1ボイス35.00ドル とかなり高価。

Voice Text HOYAサービス株式会社 サンプル音声  日本語、英語、
 中国語、韓国語 

独自

VOICEROID 入力文字読上げソフト) AH-Software しゃべらせてみよう 日本語

独自

子かたりべプレーヤー 電子かたりべ.com サンプル音声なし Voice Textか? 日本語

独自

       プレーヤーはフリーソフト。コンテンツは有料。
       プ レーヤーを登録しない場合一定期間を過ぎると
高品質音声合成サービスが利用できなくなり、Microsoft社の
       Text-to- Speech Engine か使えません。
       ここでいう高品質音声合成サービスは
今時の音声合成ソフトウエア によると、HOYAサービス株式会社 Voice Text を使用している模様。
各ソフトは音質など甲乙付けがたいようですが、Voice Text は極めて流暢な発音で不自然なところが少なくレベル が高いと思われる。
Voice Text については 
今時の音声合成ソフトウエア に詳細な報告が載っています。
AITalk、 FineSpeech はGUI画面を使って好みのアクセントやイントネーションを作り出せ、また特有のアクセントなど も変更することができ、機能的に充実しているものと思われますが、かなり高価。 
VOICEROD は感情表現もできるのは面白い。  

        ※注1:SR   スクリーンリーダー

有料ソフトで、もともとは音声認識ソフトですが、音声合成もできるものに
       SmartVoice NEC
       VIA VOICE IBM
       LaLa Voice 東芝




などがありましたが、いずれも生産を終了しています。
また、スクリーンリーダーと呼ばれる視覚障害者向けの画面を音声で読み上げるものがあります。
なお、障害者のための音声合成については まほろば さんのウエッブページをご覧ください。極めて詳細・丁寧な解説が掲載してあります。

 外国語のサンプルを聞いてみる


日本語で書いた文章を、オンライン翻訳サイトな どで翻訳させ、翻訳された文章を貼り付ければネ イティヴな外国語をしゃべるようになります。
こ こで、外国語をどのようにしゃべるか、サンプルをお聞きください。アンダーラインのところをクリックすると聞くことができます。
 英語  (男性)
 英語  (女性)
 英語  (ささやくこともできます)
 ドイツ語  (男性)
 フランス語  (女性)
 イタリア語  (男性)
 スペイン語  (男性)
 ロシア語  (男性)
 中国語  (男性)
 ロボット  (?)

各国語は "My PC can speak XXXXX fluently like this." という英文を翻訳サイトでオンライン翻 訳させた結果で、正しいかどうかは保証のかぎりではありません。また、こんなこともできます。

英語  (機長アナウンス)
ドイツ語  (Johan Wolfgang von Goethe 1749-1833) の詩 「野ばら」 を朗読します )

このほかの外国語も対応した各外国語の ENGINE をインストールすれば、ロ シア語、ポルトガル語、中国語、韓国語などもしゃべるようになります。

 SAPI 4 と SAPI 5 について


いままでの説明の中に SAPI 4 SAPI 5 という言葉がでてきましたが、SAPIは Microsoft の Speech Application Program Interface を略したもの。音声合成や音声認識などの音声処理に関する命令語、関数、手続きを定め た規約などの集合で、音声処理に関しては、プログラムからこの専用の処理機能を呼び出してそれに任せるというものです。の数字はバージョンを表しています。
詳しい解説が  Milord Clubにあります。

Microsoft Agent core components コアとなる部分( WindowsXP/2000/Meではインストール不要)
text-to-speech engine  各国語対応 音声合成エンジン (必要に応じて選択しインストール)
Microsoft Agent character エージェント キャラクタ (音声合成だけなら不要)
SAPI 4 runtime binaries SAPI 4 ランタイムサポート
Speech Recognition Engine 音声認識エンジン(英語のみ)  (音声合成だけなら不要)

     などをインストールすると構成されます。SAPI 5 に比べて音声合成で利用できる各国言語は
     日本語、英語、フランス語、ドイツ語、イタリア語、スペイン語、 ロシア語、ポルトガル語、ノールウェイ語、フィンランド語、ポルトガル語、韓国語、中国語など
     29か国語 に対応し、また音声の種類も男性、女性、老人、若者の声など非常に豊富です。

 MSSP (Microsoft Speech Platform) に ついて



2010年後半ごろから Microsoft が 新しい音声合成に関する規約を発表しました。それが MSSP(Microsoft Speech Platform ) です。
動作環境の OS としては Windows Vista 以降のみ対応となっています。
詳細は 無料の音声合成エンジン 「Microsoft Server Speech」
Microsoft Speech Platform の日本語音声合成エンジン  のページをご覧ください。
日本語や多数の言語が用意されています。ただし日本語は Haruka という女性の声のみが用意されて いて、男性の声はありません。
MSSP の導入の方法は簡単で
(1)  Microsoft Speech Platform - Server Runtime (Version 10.2)   にアクセスし、以下のファイルをダウンロードし、ダブルクリックしてインストールします。
     64bit ファイル  x64\SpeechPlatformRuntime.msi
     32bit ファイル  x86\SpeechPlatformRuntime.msi
どちらをインストールするかは諸説あり、@ MSSPを適用するアプリケーションによって決める A 環境OS によって決める B 両方ともインストールする などあり ます。
いろいろ試した結果 Windows 7 Proffessinal 64bit では、両方ともインストールしところ MSSP 対応アプリケーションはすべて MSSP を認識して正常に動作しました。 
(2)  Microsoft Speech Platform - Server Runtime Languages (Version 10.2)   にアクセスし、必要な言語ファイルをダウンロードし、ダブルクリックしてインストールしま す。
ファイル名 MSSpeech_TTS_cc-PP_NNNNNN.msi TTS が音声合成のファイルであることを、cc-PP が言語名を、NNNNNNが 人の名前を示しています。
     日本語なら  MSSpeech_TTS_ja -JP_Haruka.msi
     英語(英国)なら MSSpeech_TTS_en-GB_Hazel.msi  英語に は5種類があります
     ドイツ語なら MSSpeech_TTS_de-DE_Hedda.ms
     フランス語なら MSSpeech_TTS_fr-FR_Hortense.msi な ど

Microsoft Speech Platform に対応しているアプリケーションは、現時点では
     NVDA(Windows 7 64bit OS では未対応)、SofTalk、SofTalk WEB、 pcbght.bat、Text To Wav、おしゃべりプレイヤー、棒読みちゃん、和太鼓 
の8本に限られていますガ、今後対応アプリケーションが増えることが予想されます。
なお、MS WORD 2010 に適用すると、MSSP が WORD 上で読み上げができるようになります。

 おしゃべりテキストを使ってみる

音声合成のソフトはそれぞれに特徴があって用途により適切なものを選択すればよいでしょう。
なかでもお勧めは使いやすさでは 【おしゃべりテキスト】、 【ReadPlease】な どでしょう。
また MSSP にも対応している点では 【SofTalk】 がいいのではないでしょうか。
また、対応言語種類の数の多いこと、2つの言語を自動的に切り替え読み分ける機能がある 【Text To Wav】 などお勧めでしょう。

ここでは、使いやすく、Windows 7 にも対応している【おしゃべりテキスト」
を取り上げてみました。残念ながらいまのところ Microsoft Speech Platform には対応してい ません。
【お しゃべりテキスト】  のセットアップと使い方については、ソフトに同梱のヘルプファイルで非常に詳しく懇切丁寧に解説されています。
ここでは簡単に説明いたします。
  1. core componennts のダウンロードとインストール

    注:−この手順は WindowsXP、Windows2000、WindowsMe では必要ありません。次の手順に進んでください。

    【おしゃべりテキスト】 では Microsift からフリーソフトとしてリリースされている 「SAPI 4」 や 「Text-to-Speech Engine」 を利用しますので、あらかじめこれをインターネットからダウンロードして、インストールする必要があります。 
  2. まずイ ンターネット上で
     
    http://www.microsoft.com/msagent/downloads/user.aspx  (左記のリンクは現在閲覧できないので、目的のページはつぎの方法で閲覧できます。【リンク切れのページを閲覧】 参照
    に アクセスすると、「Microsoft Agent and localization support:」という項目がありますから Download the Microsoft Agent core components (395 KB exe) の行をクリックしてダウンロードし、ダウンロードしたファイルをダブルクリックしてインストールします。
  3. Text-to-speech engines のダウンロード(各国言語)とインストール
    同じページのなかに下の図のような [Text-to-speech engines:] という項目があります。
    図に示したように、 【Select a text-to-speech(TTS) engine】
     の右端にある▼矢印をクリックするとリストが表示されます。
    その中から 【Lernout & Hauspie(p):TTS3000 TTS engine - Japanese(3MB exe】の項目を選択します。
    【Download selected engine】をクリックするとダウンロードできます。
    他にも使ってみたい言語があれば同時にダウンロードしておくとよいでしょう。

    ダウンロードされたファイル ( Ihttsjp.exe )
    をダブルクリックして、実行させます。自動的にインストールされる途中で許諾を求められたら 「は い」 を選択します。インストール画面が消えるまで待ちます。

    なお、MS Agent などで利用することもあるので、
    「Lernout & Hauspie(R) TrueVoice TTS - American English engine (1MB exe)」
    も同じようにダウンロードしたファイル ( tv_enua.exe
    ) ダブルクリックしてインストールしておいてください。


  4.   SAPI4 runtime binaries のダウンロードとインストール

    つぎに「SAPI4 runtime」をインストールします。
    前述と同じページのなかに下記のような [SAPI4.0 runtime support:] という項目があります。

    【Download the Microsoft SAPI 4.0a runtime binaries (824KB exe)】 をクリックするとダウンロードが始まります。 

    ダウンロードされたファイル spchapi.exe ) をダブルクリックして、実行させると自動的にインストールされます。

  5. SAPI 5 の機能が必要ならば Microsoft Speech SDK 5.1 をダウンロードしインストールします。
  6. おしゃべりテキストのダウンロードとインス トール

  7. つぎにVector
    から (「おしゃべりテキスト」 OsyaTx302.zip) というファイルをダウンロードします。
    このファイルを解凍すると OsyaTx302 
    と いうフォルダーができます。このフォルダーを適当な位置におきます。

    なお、AquesTalk を組み込むと音声の種類が増えるのでヘルプファイルを参照し Plugin フォルダーを新規に作成し組み込んでください。

  8. このフォルダーの中にある  ( osyaberiText.exe )を起動させると下図のように表 示されます。
  9.               

  10. ここで SAPI 4 を使う場合は [SpeechAPIVersion4] にチェックをして、[設定]⇒[音声の選択」 をクリックます。
    SAPI 5 を使う場合は [SpeechAPIVersion5] にチェックをして、[設定]⇒[音声の選択」 をクリックます。

  11. AquestTalk を使う場合は [AquesTalk] にチェックをして、[設定]⇒[音声の選択」 をクリックます。
  12. 下図のような 「声選択」 の窓で使用したい音声を選択します。
    上記 (2) の手順で 
    Lernout & Hauspie(p):TTS3000 TTS engine - Japanese.exe のみインストールした ときは、Adult Male #1 Japanese (L&H) と Adult Female #1 Japanese (L&H) の2項目しかリスト に表示されません。

    各国語のText-to-Speech engine のインストールすれば、各国語に対応した男声、女声などが選択できます。  

    あるいはもっと簡単に 「音声エンジン」 のツールバーの SAPI 4、SAPI 5、AquesTalk のボタンをチェックしてから、すぐ右にある窓で使用する音声を選択することもできます。               

  13. 読み上げさせたいテキストを メニューの「ファイル」⇒「開く」か、あるいはメモ帳などで開い たテキストをコピーし、テキスト領域に貼り付ける。 テキスト領域では、メモ帳のように自由に編集できます。
  14. メニューの「再生」⇒「再生」か、F5キー、または 「コントロールパネル」の右向き矢印をク リックすると、読み上げが始まります。
  15. 読み上げる速度をかえることもできます。Speed ボタンの右側にあるスライダーで変更できます。
    さらに、声の音程を上げたり、下げたり、読み上げる速度をかえることもできます。
    そのようなときは メニューの「設定」⇒「一般設定」を選択すると、下図のようなコントロール窓が表示されますので、 声の高さ、速さなど変更できます。
    この[コントロール]の内容は選択した各言語engine によって違いますが、基本的には同じです。   
      

以上、《おしゃべりテキスト》 のインストールと使 い方を簡単にご紹介しました。
あとは付属のヘルプ・ファイルを参考に、音声 合成の面白さをお楽しみください。

そのほかのアプリケーションもソフト名をクリックすればそれぞれのホーム ページにアクセスできますから、ダウンロードしてトライしてみてください。 

 音声合成エンジンに関する参考事項

 まとめ

Speech Engine はフロントエンドとバックエンドから構成されていて、フロントエンドにアプリケーションから入力された文章を発音記号に変換した配列を出力し、バックエン ドはフロントエンドから出力された発音記号配列を音声波形に変換します。

もう少し詳しく言うならば、フロントエンドでは文章を解析し、単語、熟語、文節などに分別し、単語、熟語は辞書により【発音記号;ピッチ;持続時間】の組 み合わせに変換し、文節に対しては韻律(イントネーション)の規則にしたがって、【発音記号;ピッチ;持続時間】の組み合わせを時系列に並べた一連の配列 に変換します。

たとえば、入力された漢字混じり文章を、かりに
    「昔々、ある所にお爺さんとお婆さんが住んでいました。」
とすると、フロントエンドからは
    「ムカ’シムカ’シ、ア’ルトコロニ/オジイ’サント/オバア’サンガ/スン’デ/イマシタ。」
のような記号化された配列を出力します。
この例では、カタカナが発音記号を表し、【’】はアクセントを、句読点や【/】はイントネーションを決める文節の境界を示しています。
この配列を元に【発音記号;ピッチ;持続時間】の要素を時系列的に並べた配列をバックエンドに渡せば、バックエンドは、その配列を音声波形に合成してアプ リケーションに渡し、アプリケーションがスピーカーを通して音声を発生させます。
音声合成のメカニズムは以上のようなものです。

上に列挙した各種の音声合成ソフト、または読み上げソフトなどのアプリケーションは、実はいわゆるヒューマンインターフェースであって、その中身は Speech Engine です。
したがってアプリケーション別の分類ではなくて Speech Engine の種類別の説明をすべきであったかもしれません。
文章の読み上げそのものの品質はアプリケーションではなくて、内蔵された Speech Engine に依存します。
Speech Engine によっては疑問文や感嘆文を区別して発声するものがあることは上に書きました。
また、音色は Speech Engine の合成メカニズムに依存し、音声から受ける印象を左右するアクセントは Speech Engine の登録辞書に依存し、イントネーションは Speech Engine の韻律性能に依存します。イントネーションに影響をもたらすものとして、音声の速度、ピッチ、抑揚などがあ りますが、それらを制御できるもの、速度しか制御できないものなどいろいろあります。

また、最近は音声に感情を持たせようと試みる感情音声合成も、大企業、ベンチャー企業、大学、研究所など様々な所で研究、開発Xされています。(以下参 照)

  沖  コーパスベース音声合成とその応用
  富士通  “アニメ声”で自然にしゃべる音声合成技術、富士通が新開発
  富士通  音声合成 先端技術 : 富士通研究所
  慶應義塾大学安村研究室  A Study on Corpus-based Speech Synthesiswith Emotion
  慶應義塾大学大学院  感情を含んだ声を作る!−韻律の部分 空間を用いた感情音声の合成−
  東京工大小林隆夫研究室  Kobayashi Lab
  国際電気通信基礎技術研究所  ニック キャンベル 「表現豊かな発話音声のコンピュータ処理システム」

そのほか、枚挙に暇がないほど多数の報告がインターネット上で見ることができます。

          感情音声合成に関する考察と提案は
  次のページへ

***** このページ 終わり *****



inserted by FC2 system