スポンサーリンク

テキスト読み上げAI「Amazon Polly」を導入

ウェブアクセシビリティ
スポンサーリンク

読み上げ機能を追加しました。「Amazon Polly」です!

この2つも調べてましたが、wordpressユーザーも少なそうですし、あまり検索にも出てこなかったので、AWSの「Amazon Polly」にしてみた次第です。

Amazon Polly(深層学習を使用したテキスト読み上げサービス)| AWS
Amazon Polly は、高度なディープラーニング技術を使用したテキスト読み上げサービスで、人間の声のような音声を合成します。何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、さまざまな国で音声対応アプリケーションを構築できます。
スポンサーリンク

Amazon Polly とは

Amazon Polly

概要

Amazon PollyとはAWSが提供する、テキストを話し声に変換するテキスト読み上げ (TTS:Text-To-Speech) のクラウドサービスです。多言語化されていて、日本語にも対応しているところがうれしいところですが、まだまだ違和感ありありな感じもします。

これからも、うちのように、ディスレクシアの方やその方達の為の教科書読み上げ等、視力が弱い人へのアクセシビリティに役立っていってほしいと思います。

深層学習を採用しているようなので、ガンガン使って学習させもっともっと便利なものにさせていきたいですね。

導入マニュアルはこちらになります

Amazon Polly とは - Amazon Polly
テキストをリアルな音声に変換するクラウドサービス、Amazon Polly を紹介します。

日本語対応について

日本語の読み上げは、女性のMizukiと男性のTakumiの2タイプがあります。英語だと8タイプあります。このブログでは、ぼくが男ですので「Takumi」を選択しています。SSMLタグ(マークアップ言語)で声質の高低等も変えられるので、将来オーディオブックなんかこれで作れてしまうかもしれませんね。

一度に変換できるのは3000文字

3000を超える文字列の変換できるそうです。
そうそう、無いかなと思いますが、オーディオブック系の朗読で3000を超える文字列が発生した場合、S3に複数回に分けて生成し、合成する必要があるそうです。

オーディオブックを聞いている時に章が変わるとMP3ファイルが新しくなりますが、あんなイメージでしょうか?違ってたらすみません。

読み上げしてもスクロールしません。

このブログを頭から最後まで、読ませていっても同時スクロールはいたしません。
面倒ですが、テキストと同時に見たい場合は自分でスクロールする必要があります。

音声のチューニングができます。 SSMLタグを サポート

前述の「SSMLタグ」をサポートしてますので、必要なところのピッチを変えたり、速度を変えたり、一旦止めてみたり、、、、色々できます。ありすぎてよくわかりません。
マークアップ言語なので、HTMLが分かる方は分かりやすいかもしれません。

SSML ドキュメントから音声を生成する - Amazon Polly
Amazon Polly を使用して、プレーンテキストまたは音声合成マークアップ言語 (SSML) を使用したドキュメントから音声を生成できます。SSML 拡張のテキストを使用すれば、Amazon Polly を使用して入力したテキストから音声を生成する方法を詳細に制御することができます。

色々なSSMLタグを使って、吉川英治の三国志を読んでもらいましょう!
プレーン(標準) speak

<speak>後漢の建寧元年のころ。
今から約千七百八十年ほど前のことである。
ひとりの旅人があった。
腰に、一剣を佩いているほか、身なりはいたって見すぼらしいが、眉は秀で、唇は紅く、とりわけ聡明そうな眸や、豊な頬をしていて、つねにどこかに微笑をふくみ、総じて賤しげな容子がなかった。
歳の頃は二十四、五。
草むらの中に、ぽつねんと坐って、膝をかかえこんでいた。</speak>

「speak」と言うタグはプレーンの状態で読み上げるようです。
この文章で惜しかったのが、二つ「一人」と「年」です。「一人」はなんと「かずと」、「年」は「ねん」と読んでしまいました。他の私でも難しいなと思う漢字は難なく読めていました。多分、現在でも多く使われている漢字の読み方の精度がここまでなのでしょう。
まだまだ、鍛えてあげる必要がありそうです。

ささやき声 amazon:effect name=”whispered”  

<speak>
後漢の建寧元年のころ。
今から約千七百八十年ほど前のことである。
ひとりの旅人があった。
<amazon:effect name=”whispered”>
腰に、一剣を佩いているほか、身なりはいたって見すぼらしいが、眉は秀で、唇は紅く、とりわけ聡明そうな眸や、豊な頬をしていて、つねにどこかに微笑をふくみ、総じて賤しげな容子がなかった。
歳の頃は二十四、五。
草むらの中に、ぽつねんと坐って、膝をかかえこんでいた。
</amazon:effect>
</speak>

おもしろいですが、聞き取りずらいですね。
効果的に使うとよいのかもしれません。

声道長 amazon:effect vocal-tract-length

<speak>
後漢の建寧元年のころ。
<amazon:effect vocal-tract-length=”200%”>今から約千七百八十年ほど前のことである。</amazon:effect>
<amazon:effect vocal-tract-length=”150%”>ひとりの旅人があった。</amazon:effect>
<amazon:effect vocal-tract-length=”100%”>腰に、一剣を佩いているほか、身なりはいたって見すぼらしいが、眉は秀で、唇は紅く、とりわけ聡明そうな眸や、豊な頬をしていて、つねにどこかに微笑をふくみ、総じて賤しげな容子がなかった。</amazon:effect>
<amazon:effect vocal-tract-length=”50%”>歳の頃は二十四、五。</amazon:effect>
草むらの中に、ぽつねんと坐って、膝をかかえこんでいた。
</speak>

「声道長」と言うそうです。声道とは、声が体の外に出るまでの道だそうです。器官ですね。その長さだそうです。短いとこどもに近くなると言う事ですね。

数値を絶対値「200%」「150%」「100%」「50%」としてみました。「100%」が標準ですね。
他に、相対値「+」「-」表記での指定も可能です。

prosodyタグとの組み合わせ

<speak>
後漢の建寧元年のころ。
<amazon:effect vocal-tract-length=”-50%”>今から約千七百八十年ほど前のことである。</amazon:effect>
<amazon:effect vocal-tract-length=”-50%”> <prosody pitch=”x-high”>ひとりの旅人があった。</prosody></amazon:effect>
<amazon:effect vocal-tract-length=”-50%”> <prosody pitch=”x-high”><prosody rate=”x-fast”>腰に、一剣を佩いているほか、身なりはいたって見すぼらしいが、</prosody></prosody></amazon:effect>
<amazon:effect vocal-tract-length=”+50%”>眉は秀で、唇は紅く、とりわけ聡明そうな眸や、豊な頬をしていて、</amazon:effect>
<amazon:effect vocal-tract-length=”+50%”> <prosody pitch=”x-low”>つねにどこかに微笑をふくみ、総じて賤しげな容子がなかった。<prosody rate=”x-slow”>歳の頃は二十四、五。</prosody></prosody></amazon:effect>
草むらの中に、ぽつねんと坐って、膝をかかえこんでいた。
</speak>

prosodyタグでぐちゃぐちゃになってしまいました。
prosodyタグは、「pitch」=ピッチの調整、「rate」=速度、「volume」=音量等が変えられ、もっとも聞きやすい声が作ることができると思います。

感想とまとめ

特に、色々な読み方をする漢字には弱いなと思います。適宜漢字をひらがなにしたりして調整をすることが必要と感じました。

これを使ってむすこ用の読み上げ副教材を作ってあげることができると思います。

大昔の難しい漢字は良く知ってるなと思いましたし、翻訳機能をつけているのに日本語に混じった英語の言葉の読み上げ精度は結構いけます。

例えば、Mac「Apple」を「りんご」と変換して読まなかったのは褒めてあげたいです。

あとは、イントネーションですね。

しかしながら、少し前の音声合成とは格段に聞きやすくなっています。

結構気に入ってしまったので金額の事はどうでもよくなってしまいました。

どうしても、金額が気になる方はこちらをご覧ください。最初に1年は基本的に無料です。

料金 - Amazon Polly | AWS
Amazon Polly の料金についてご紹介します。Amazon Polly は、高度なディープラーニング技術を使用したテキスト読み上げサービスで、人間の声のような音声を合成します。何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、さまざまな国で音声対応アプリケーションを構築できます。

追記

追記:2020年8月13日

個人的には、手軽に使える音声合成では一番かなと思っているAmazonPollyです。

導入してから7か月経ちましたが、他にまだ良いものが現れないので今のところこれで行こうかなと思っています。

このAmazonPollyは1年間または500万文字まで無料です。これを過ぎると100万文字毎に4USDになります。

さてこのブログをはじめて8か月分の文字数がAmazonPollyの請求書に記載がありました。

AWS Service Charge Polly 文字数

いまのところ、504,488文字です。100万文字の約半分ですね。この程度のブログですと、1年ちょっとで100万文字になるのですね。

2021年1月17日 読み上げブログ導入1年

このブログはAmzonさんのサービス、AmazonPollyと言う読み上げシステムを導入しています。

今月末で1年が経過しました。

だいたい、1か月の読み上げ文字数が「80万」テキストとなっています。

時間的には、20時間程度となっているようです。

こんな弱小ブログでも利用されている方がいらっしゃっていてうれしく思います。

この1年で残念な点が読み方がブラッシュアップされているかと言うと中々難しそうなのですが、

イントネーションについては、少しづつ良くなっているような?

そんな気がします。

コメント

タイトルとURLをコピーしました