へ 戻る


 PCにしゃべらせてみよう(Windows 10 編)

別のページ
PCにしゃべらせてみよう PCにしゃべらせてみよう‐Ⅱ(Windows 8.1編) で音声合成について説明しました。
最近、Windows 8.1 から Windows 10 にアップグレードした後、いくつかのトラブルが発生しましたが、最近になってほとんど解決でき、 やっと動作が安定してきたので、Windows 10 の 音声合成(TTS) について調べてみました。
言語の種類はとても多く、インストールしてみた一部の言語を下の表に列挙しました。(時節柄ポルトガル語はブラジルにしてみました)


言 語
男/ 女
名 前

日 本語

Ayumi

日 本語

Ichiro

英 語(英国)

Susan

英語 (英国)

George

英 語(米国)

Zira

英 語(米国)

Mark

ド イツ語

Katja

ド イツ語

Stefan

フ ランス語

Julie

言 語
男/ 女
名 前
10
フ ランス語

Paul
11
イ タリア語

Elsa
12
イ タリア語 Cosimo
13
ス ペイン語

Laura
14
ス ペイン語

Pablo
15
ロ シア語

Irina
16
ロ シア語

Pavel
17
ポ ルトガル語(ブラジル)

Maria
18
ポ ルトガル語(ブラジル)

Daniel
Text-to-Text 合成音声をインストール手順はチャーム表示で次のとおりです。

(1)【スタート】⇒【設定】⇒【時 刻と言】をクリック (2)【地域と言語】をクリック (3)【言語を追加する】をクリック
setting_1 setting_2 setting_3



(4) 追加したい言語をクリック
(5) 該当する言語をクリック
(6) 【追加した言語】⇒【オプション】をクリック
setting_4
setting_5
setting_6



(7) 【ダウンロード】をクリック
(8) ダウンロード、インストールが終わるのを待ち、インストールが終わったらPCを再起動する
(9) 【設定】をクリック、【音声認識】をクリック
setting_7
setting_8
setting_9



(10) 【音声】を展開する
(11) 目的の音声が追加されていることを確認する

setting_10
setting_11


このようにしてインストールした言語を利用できるアプリを探してみました。
ストアで 《Text to Speech》 をキーワードにして検索して出てきたアプリのなかからいくつかをインストールして確かめてみました。

これらのアプリには
大別して、チャーム用に構築されたもので音声合成のみ対応す るアプリ

チャーム用に構築されたもので
音声合成音声認識に対応するアプリ
そして、デスクトップ用に構築されたもので、音声合成のみ対 応のアプリ
の3種類があります。

チャーム用に構築されたアプリは上記の手続きでインストールしたWindows 10 用の音声がすべて利用できます。
しかし、SAPI4、SAPI%、Microsoft Speech Platform の音声は利用できません。
また一方、デスクトップ用のアプリでは
SAPI4、 SAPI%、Microsoft Speech Platform の音声だけ利用でき、Windows 10 用の音声が利用できませんでした。

チャーム用アプリ【音声合成のみ対応】
1
Audable Text  Reader

2
Hear it fiest!

3
Notepad X

4
ReadAloud

5
Robot Talk
使い方 (1)参照
6
SpeechSynth

7
Sprich

8
TTS Speech Reader

9
Text To Speech Lite

10
Text To Speech TTS
使い方 (2)参照

チャー ム用アプリ【音声合 成音声認識に対応
1
Convert Text To Speech
使い方(3)参照
2
Speech Notepad

3
System Speech

4
VOICE X NOTE

5
Windows ナレーター&音声認識


デスクトップ用アプリ【音声合成のみ対応】
1
おしゃべりテキスト

2
Balabolka
使い方 (4)参照
3
Softalk

4
SpeechApp11

5
Textalk


Robot Talk の使い方(1)
(1) アプリを開く。
(2) テキストエリアにテキストをコピーする。
(3) 【Abailable Voice】 で言語を選択する。
(4) 【Pitch】 で音声の高さを選択する。
(5) 【Rate】 で速さを選択する。
(5) 【Speak】 をクリックすると再生が始まる。
(6) 【Cancel】 をクリックすると再生が終了する。
(7) 【Save】 をクリックすると再生することなく、場所を指定して音声ファイルに保存できる。
robot_talk

Text To Speech TTS
使い方(2)
(1) アプリを開く。
(2) テキストエリアにテキストをコピーする。
(3) 言語を選択する。
(4) 【Speak】 をクリックすると再生が始まる。
(5) 【Stop】 をクリックすると再生が終了する。
(6) 【Playback Rate】 のスライダーを動かして再生速度を調整する。
tts_speech_reader

Convert Text To Speech使 い方(3) 音声合成として使う。
(1) アプリを開く。
(2) テキストエリアにテキストをコピーする。
(3) 言語を選択する。
(4) 【Say it】 をクリックすると再生が始まる。再生が始まると 【Say it】 が 【Stop】 に変わる。
(5) 【Stop】 をクリックすると再生が終了する。
convert_text_to_speech

Convert Text To Speech使い方(3) 音声認識として使う。
(1) アプリを開く。
(2) 【スタート】⇒【設定】⇒【時刻と言語】⇒【音声認識】⇒【音声認識の 言語】 から音声認識の言語を選択する。
(3) 【Convert Speech to Text】 をクリックして音声認識に切替える。
(4) 【Start Speech】 をクリックし、マイクに向かってしゃべる。【Start Speech】 が 【Stop Speech】 に変わる。
(5) 音声認識の結果が【Result】欄に表示される。
(6) 【Stop Speech】 で音声認識が終了する。
convert_text_to_speech_recognition

Balabolka 使 い方(4)
(1) アプリを開く。
(2) テキストエリアにテキストをコピーする。
(3) 言語を選択する。
(4) 【開始】 ボタンをクリックすると再生が始まる。
(5) 【終了】 ボタンをクリックすると再生が終了する。
(6) 【ピッチ】 のスライダーを動かして再生速度を調整する。
balabolka


あとがき  
Windows 10 でもこれまでのWindowsのバージョンと同じように音声合成の機能を使うことができることを確認しました。
Window 10 の音声合成の音質はやや改善されたように感じました。Ayumi や Ichiro もかなり良くなっているように思います。
しかし外国語については分かりませんが、日本語の抑揚ではほとんど向上が見られず、まだかなり不自然な話し方になっています。これは途中でピッチ(音程) が揺らいでいることに起因するのではないかと考えています。

試しに次のような実験をしてみました。
原文として以下のような文章を用意しました。(『A』とします)

『Windows 10 でもこれまでのWindowsのバージョンと同じように音声合成の機能を使うことができることを確認しました。』

この文章に句読点を追加したものをもう一つ用意しました。(『B』とします)

Windows 10 でも、これまでのWindowsのバージョンと、同じように、音声合成の機能を使うことが、できることを確認しました。

これらの二つの文章を Speech Filing System の中にある WASP というアプリケーションに読み込ませ、そのピッチの変動をグラフで表示させると次のようになります。上が『A』、下が『B』。
Speech Filing System を利用して解析する手法は別のページ 感情音声合成―考察と提案 で解説しています。

pitch

実際の音声は wav形式で
『A』 ・・・・・ a.wav
『B』 ・・・・・ b.wav
聞き比べてみてください。

『B』では句点を挿入したため、間があきましたが、これだけでもかなり自然な読み方になったのがお分かり戴けたと思います。
これはもともと、句点(。)あるいは読点(、)に近づくにつれてピッチを下げているからです。
しかし、Microsoft の処理では、文章が長いときは途中でピッチをどのように変えているかはわかりませんが、適当なところで適当に高いピッチに戻しているから揺らいでいるのだ と思われま す。

そこで、ピッチを時間に対してどのように変化させるかについて、一定のルールを決め、そのルールに従ってピッチを編集することとします。

そのルールとは句点(。)で区切られる一文に対して


(A)  スタートから次の読点(、)またはスペースに向かって時間とともに基準線に沿って、計算された低減率でピッチを下げていく。ただし、単語または文節内のピッチは変更しない。
(B) 読点(、)またはスペースに到達したら、一定ピッチだけレベルを上げる。
(C) 句点(。)で最低レベルとする。
(D) 最高ピッチと最低ピッチの値、基準線の形状などを変更することにより、平板な表現とか力強い表現などのニュアンスを変えることができる。

文章よりも図で示したほうがわかりやすいかもしれません。下の図を見てください。
これは句点で区切られる一文だけを示しています。実際にはこの繰り返しとなります。


わたしには改善したいという意欲はあっても、技量がありませんので、Microsoft さん、よろしくお願いします。

rule

***** このページ  終わり *****


inserted by FC2 system