
「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上
前回行ったAzure音声認識APIの実験の続き。
前回↓
Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。
「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。
扱う言語によって機能に制限があり、日本語は「プレーンテキスト」によるカスタマイズ以外はできないと書いてある。

前回「プレーンテキスト」によるカスタマイズを試したときに「音声+トランスクリプト」もできそうな感じだったので実験する。
結果から言うと音声の学習はうまくいかない。







![Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]](/../images/koume.jpg)

