千歳佐奈の合成音声（学習編①）

千歳佐奈のTTS、学習編①です。

用いたデータ数は、本編のセリフの約1000個で、主に佐奈√を除いたもの。
佐奈セリフの約1/3くらい。

文章成型については前記事通り、ローマ文字変換のみ、音声加工は無しで学習。

佐奈のお勉強が終わるまでトータル約51時間で丸2日とちょっとかかりました。※600000step

損失関数は以下の通り。
画像では60000～80000step以降佐奈の暴走(過学習)が起きています。

実際には60万stepで過学習が起きていますが、
エラー吐いて学習止まってることがあり、その度にグラフが0stepから始まっちゃいます。
綺麗につなぐ方法あったら教えてください( ;∀;)

佐奈のお勉強のテスト結果は以下の通り。

■成功例
・「おはようございます」

かわいい！大好き！
佐奈の定型文なだけあって、少しホッとした。

■失敗例
・「おはようございます、兄さん」

ぉはようございますｽｽｽ…兄さん
ノイズが混じる～

・「兄さん、おはようございます」

ほへぇ…

最後の気になるけどかわいい～～～～～～！

・「大丈夫」

舌足らずでかわいい～～～～～！

・「大丈夫なの」

”な”が言えてない！おしい！

文章の前後入れ替えたり、ちょい足ししただけでもやっぱり結果が変わる。
ちなみにオリジナルのセリフもいくらか試してみたが、もはや言葉になってなかった……

成功例のも機械音混じりになってしまっているので、
これを良しとするかはなかなか決め兼ねるところです。
上記を踏まえて、今後の改善方針です。

①データ数
他記事などをみると言うほど少なくもないかもしれないが、
多いに越したことは無いので次回は増加して学習予定。
データ数は声質と比例関係にあると考える。

②文章の成型
音声と文章の突合についてはブラックボックスでやっているので、
セリフの”間”や長音、音声の無音部分については全く考慮していない。
特に佐奈は三点リーダを多用するので処理に困っている・・・・・・
オリジナルのセリフが弱いのはこちらが原因と考える。
データ増加後に検討予定。

③音声の成型
こちらも②同様。
ただし、文章を音声に寄せる方が遥かに楽そうなので、特に変更なし。

④WaveGlowモデル
音声の出力については、成功例にあるように佐奈の声質に近しいため、現状は変更なし。
機械音について気になるステージまで行ったら改良予定。

文章の成型について教えてください！！！

2019-12-28