Pythonを用いたAzure APIによるテキストの音声化

Pythonを用いたAzure APIによるテキストの音声化

「Azure Text to speech」 の使い方

以前、Azureの「Speech To Text」を使って音声のテキスト化を行った。
今回はその逆。

テキストを入力して音声に変換する。

前回↓

今回はMicrosoft Azure「Text To Speech」APIの使い方を記す。

Azure音声認識APIの日本語モデルカスタマイズ 2. 音声+トランスクリプト

Azure音声認識APIの日本語モデルカスタマイズ 2. 音声+トランスクリプト

「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上

前回行ったAzure音声認識APIの実験の続き。

前回↓

Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。

「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。

扱う言語によって機能に制限があり、日本語は「プレーンテキスト」によるカスタマイズ以外はできないと書いてある。



前回「プレーンテキスト」によるカスタマイズを試したときに「音声+トランスクリプト」もできそうな感じだったので実験する。
結果から言うと音声の学習はうまくいかない。

Azure音声認識APIの日本語モデルカスタマイズ 1. プレーンテキスト

Azure音声認識APIの日本語モデルカスタマイズ 1. プレーンテキスト

「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上

前回行ったAzure音声認識APIの実験の続き。

Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。

「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。

扱う言語によって機能に制限がある、日本語について確認。



あまりにマイナーな言語過ぎて「プレーンテキスト」によるカスタマイズ以外はできないようだ。
したがって「プレーンテキスト」を利用したazureの音声認識カスタマイズを行う。

Pythonを用いたAzure APIによる音声認識の方法

Pythonを用いたAzure APIによる音声認識の方法

Azure「Speech To Text」 の使い方

音声認識技術によって音声ファイルをテキスト化したいという声がある。


音声認識技術によって
音声ファイルをテキスト化したい

以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。

そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。

日本語音声認識API主要5社比較

日本語音声認識API主要5社比較

5種類の音声認識APIを性能評価して比較

音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。

基本情報↓


名前対応フォーマット無料枠料金備考
Microsoft Azure
Speech-to-Text
wav, ogg5時間/月1ドル/1時間
AWS
Amazon transcribe
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は1秒単位
Google Cloud
Speech-to-Text
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は15秒切り上げ
アドバンスト・メディア
AmiVoice
wav, flac, mp3 など60分/月99円/1時間課金対象は音声データ中の発話区間のみ
Apple
SpeechFramework
m4a1000リクエスト/1時間無料iOS
iPadOS
macOS限定

認識精度↓


実験対象Microsoft AzureAWSAmiVoiceGoogleApple
全部92.31%89.18%83.57%82.86%89.67%
ナレーション93.63%90.35%85.63%85.22%89.22%
セリフ90.78%87.83%81.21%80.14%90.19%
男性94.58%91.44%90.03%86.13%90.79%
女性89.97%86.85%76.92%79.49%88.52%

最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。

最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。

以降、実験の詳細を記す。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×