人工音声によるニュース読みに思う

朝は早く起きてます。4時前には起きています。で、基本的に日テレの「おは4」をつけてるんですよね。特に意図はなくなんとなく朝は日テレって感じにしているだけです。
テレビをつけながら音声だけ聞いているって感じですね。
音声でテレビのニュースを聞きながらPCで色々と作業している訳です。

で、ニュースを耳で聞いていたんですがちょいと違和感を感じたんですよね。「あれ？これ人間の音声ではなくね？」って。

んで調べてみると「ナレーション：声の職人」との表示がありました。

ネットで調べてみると、高品質音声合成エンジンAITalkってのを使っているようです。

まだ、完璧というわけではなくて所謂”不気味の谷”を感じるところは否めないんですよね（そもそもその不自然さがきっかけで気がついたってのがありますが）

不気味の谷とは！？

かと言って、”モヤモヤさまぁーず”みたいな完全なコンピューター音声ではないです。

んで、何回か聞いていて思ったんですよ。普通の人間のアナウンサーとの大きな違いなんですけれど「ブレスを感じない」って事です。
アナウンサーは人間なので、もちろん呼吸をしながらナレーションを読んでいます、息を吸う感じとか、吐き出す時の強調とかが感じられるんですよ。でも、AIにはそれを感じないんですよね。

もちろんコンピューターは息をする必要が無いのですけれど、人間の息遣いが無いナレーションってのはやっぱり違和感があるんだなぁと思った次第です。抑揚は付いている感じはするんですけれどね、ブレス感が足りないって言うか…。

ただし、人工音声には利点もあります。それは”噛まない”事です。どんな早口言葉も発音しにくい言葉も人工音声だとサラサラと読み上げます。顔色ひとつ変えずに（コンピューターに顔色も何もないですけれど）

AIによって色々な職業が奪われると言われていますが、”喋り”の仕事は無くなって欲しくないですね。
なんでもかんでも機械、AIによるシステム化をすれば良いと言うわけではありません。何にでも適材適所ってのがあると思うんですよね。

危険な場所で工事するような作業は機械に任せて、人間味を感じるのが大事な部分はいままで通り人間で。

そう言う世の中が良いと思います。

あ、そういえば、いわゆる、吉本問題で、宮迫さんと亮さんが会見を開いたのは記憶に新しいのですが、AbemaTVでは音声からライブで文字起こしするAIを使っていましたね。まだ精度は完璧とはいえませんが、十分及第点でしょう。会議の議事録とかもどんどんこう言う技術が使われていくと良いですね。
（議事録取るのは結構テクニック（タイピングスピード）がいるので）
文字起こしの人は職を失うかもしれませんが、そう言うAI化は賛成です。

さて、AIってのはどこまで進化するのでしょうか？そして、それは人知を超えた存在になるのでしょうか？
良い方向にも悪い方向にも楽しみではあります。