「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上
前回行ったAzure音声認識APIの実験の続き。
前回↓
Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。
「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。
扱う言語によって機能に制限があり、日本語は「プレーンテキスト」によるカスタマイズ以外はできないと書いてある。
前回「プレーンテキスト」によるカスタマイズを試したときに「音声+トランスクリプト」もできそうな感じだったので実験する。
結果から言うと音声の学習はうまくいかない。
1. 「Custom Speech」によるモデルカスタマイズ
前回とほぼ同じなので少し省略して書く。
前回↓
モデルのカスタマイズは「SpeechStudio」で行う。
1.1. プロジェクトの作成
「SpeechStudio」のトップページからプロジェクトを作成する。
1.2. 学習データのアップロード
トレーニングに使用する学習データをアップロードする。
さきほど作成したプロジェクトを選択。
「音声データセット」から「データのアップロード」。
「音声+トランスクリプト」を選択して「次へ」。
zipファイルをアップロード。
zipファイルの内容は以下のようにwavファイルとテキストファイル。
training_wav_text.zip
1 | seikin_ed.wav |
前回うまく音声認識できなかったSeikin TVのオープニングとエンディングの曲を切り出した「seikin_op.wav」、「seikin_ed.wav」の2つの音声ファイルと、
各音声ファイルの名前と音声の内容を記したテキストファイルを用意する。
Trans.txt
1 | seikin_op.wav Seikin Music Huh SeikinTV Oh Year! |
1.3. トレーニング
アップロードした学習データでトレーニングを行う。
「カスタムモデルのトレーニング」から「新しいモデルのトレーニング」。
さきほどアップロードしたデータを選択して「次へ」。
1.4. モデルデプロイ
学習したモデルを使えるようにする。
「モデルのデプロイ」から「モデルのデプロイ」。
適当な名前を付けて、
先ほど作ったモデルを選択して「追加」。
1.5. エンドポイントID取得
モデルにアクセスするためのエンドポイントIDを取得する。
デプロイしたモデルをクリック。
エンドポイントIDを控えておく。
2. 実験
当然セイキンの結婚発表動画の音声を使用。
https://www.youtube.com/watch?v=iMjXoAVipaM
プログラムは前回と一緒。
2.1. 実験結果
プログラムの実行結果を確認。
同じ音声ファイルに対する通常モデルの結果とカスタムモデルの結果を比較。
カスタムモデル | カスタムモデル2 |
---|---|
石油席は席tvを陶冶皆さん、メリークリスマスseikin tvのseikinです。クリスマスどうお過ごしですか?景気食べてますか?デートですか?それとも部活勉強お仕事ですか?ええ、今日の動画は僕からのご報告です。えー、私ごとではあるん?ですが、この度、私seikin結婚を致しました。ええ、まずね彼女いたのかよっていうね。 | 責任席は席tvを陶冶皆さん、メリークリスマスセイキンtvの最近です。クリスマスどうお過ごしですか?景気食べてますか?デートですか?それとも部活勉強、お仕事ですか?ええ、今日の動画は僕からのご報告です。えー、私ごとではあるんですが、この度、私、セイキン結婚を致しました。ええ、まずね彼女いたのかよっていうね。 |
ええ話なんですけれど、まあ、僕ももう27歳ということでええ、いい年です。まあ、むしろ至ってね、普通かなと思っています。えー、実は以前よりですねえ。まあ2年半ぐらい前からええ、彼女と付き合いをしておりまして。ええ、この度入籍をいたしました。えー、実はですねえ。彼女がというか、まあ奥さんになるんですが、今までseikin tvのカメラを取ってくれていました。えー、今まではですね、専属カメラマンもしくはスタッフなどという言い方をしてたんですけれど、実はそれが奥さんです。 | ええ話なんですけれど、まあ、僕ももう27歳ということでええ、いい年です。まあ、むしろ至ってね、普通かなと思っています。えー、実は以前よりですねえ。まあ2年半ぐらい前からええ、彼女と付き合いをしておりまして。ええ、この度入籍をいたしました。えー、実はですねえ。彼女がというか、まあ奥さんになるんですが、今までseikin tvのカメラを取ってくれていました。えー、今まではですね、専属カメラマンもしくはスタッフなどという言い方をしてたんですけれど、実はそれが奥さんです。 |
えー。まあ、今までなぜ彼女のことをやけに私なかったかというとですね。まああんまり簡単にね。こう彼女、彼女とええ動画で言うと、ええ、皆さんの混乱を招くかなと思ったということと、あとは僕自身がえ、中途半端な状態で言いたくなかったと言うことが理由です。ええ、皆さんにお伝えするのはええ必ず結婚してからと一から決めてました。えー、以前からですね。動画やツイッターなどで彼女いないんですかさみしくないんですか?結構ね質問頂いてたんですけれど、まあ一切触れていきませんでした。 | えー。まあ、今までなぜ彼女のことをやけにしなかったかというとですね。まああんまり簡単にねこう彼女、彼女とええ動画で言うと、ええ、皆さんの混乱を招くかなと思ったということと、あとは僕自身がえ、中途半端な状態で言いたくなかったと言うことが理由です。ええ、皆さんにお伝えするのはええ必ず結婚してからと一から決めてました。えー、以前からですね。動画やツイッターなどで彼女いないんですか?さみしくないんですか?結構ね質問頂いてたんですけれど、まあ、一切触れていきませんでした。 |
まあ、あえて触れてこなかったのは先ほどいった理由からです。ええちなみにですね、外での撮影もしくはスタジオでの撮影などはですね。僕の専属の男性マネージャーに協力をしていただいて、え?撮影などしていました。わかりやすくて家で取ってるやつ。まあほとんど家でとってるんですけれど、普段の動画奥さんがとってくれます。まあね、僕はyoutubeクリエイターというええクリエイティヴな仕事をしていますので、日日ね撮影編集っていうのをずっと一人でやってると、まあ煮詰まってくるんですよほかのね、クリエイターさんもそうかもしれません。 | まあ、あえて触れてこなかったのは先ほどいった理由からです。ええちなみにですね。外での撮影もしくはスタジオでの撮影などはですね。僕の専属の男性マネージャーに協力をしていただいて、え?撮影などしていました。わかりやすくて家で取ってるやつ。まあほとんど家でとってるんですけれど、普段の動画奥さんがとってくれます。まあね、僕はyou tubeクリエイターというええクリエイティヴな仕事をしていますので、日日ね撮影編集っていうのをずっと一人でやってるとまあ煮詰まってくるんですよほかのね、クリエイターさんもそうかもしれません。 |
ええそんな時、いろんな面でサポートしてもらったおかげでええ、こうやって今ええ、毎日皆さんにええ動画をお届けすることができていると思っています。ええ、もちろん今のseikin tvがあるのはいつも僕の動画を見てくれている皆さんのおかげです。日々感謝しております。ありがとうございます。 | ええそんな時、いろんな面でサポートしてもらったおかげでええ、こうやって今ええ、毎日皆さんにええ動画をお届けすることができていると思っています。ええ、もちろん今のseikin tvがあるのはいつも僕の動画を見てくれている皆さんのおかげです。日々感謝しております。ありがとうございます。 |
あちなみにね、子供はいません。まあのちのちねええ。それで今後のseikin tvについてですが、特に変わりません。えー、奥さんが出ることもありません。ええ、その理由はですね。Seikin tv非常に多くの方に主張していただいていますということはですね。そこに顔を出すということは非常にリスクも、大きいと言うことも忘れてはいけません。あくまで僕seikinの考えなんですけれど、まあ一番大切な人を簡単に動画に出すわけにはいかないと思っています。えー、今回ですね。 | あちなみにね、子供はいません。まあのちのちねええ。それで今後のseikin tvについてですが、特に変わりません。えー、奥さんが出ることもありません。ええ、その理由はですね。Seikin tv非常にohくの方に主張していただいていますということはですね。そこに顔を出すということは非常にリスクも、大きいと言うことも忘れてはいけません。あくまで僕seikinの考えなんですけれど、まあ一番大切な人を簡単に動画に出すわけにはいかないと思っています。えー、今回ですね。 |
こうやって公に結婚の報告をさせていただいたので、まあ今後少しね声ぐらいは出るかもしれません。その時はひとつよろしくお願いします。 | こうやって公に結婚の報告をさせていただいたので、まあ今後少しね声ぐらいは出るかもしれません。その時はひとつよろしくお願いします。 |
えあと結婚式なんですけれど、まだしておりません。まあ来年かなと思っています。はいということで、これからも変わらず頑張っていきたいと思います。どうか温かい目で見守っていただけたら幸いです。 | えあと結婚式なんですけれど、まだしておりません。まあ来年かなと思っています。はいということで、これからも変わらず頑張っていきたいと思います。どうか温かい目で見守っていただけたら幸いです。 |
あ、ありがとうございます。ええなめ先生もおめでとうとおっしゃっております。はいということでまたお会いしましょう。シーユーネクストタイム。 | あ、ありがとうございます。ええなめ先生もおめでとうとおっしゃっております。はいということでまたお会いしましょう。See you next time。 |
口で。 | You tube。 |
明石。 | 御所。 |
Youtube、youtube、夢つ宙。 | You tube。 |
Seikin tvチャンネル登録してね。 | 夢爪tube。 |
Seikin tvチャンネル登録してね。 |
うまくいってない。
ドキュメントを読んでたら以下のように書いてあった。
すべての基本モデルでオーディオ データを使用したトレーニングがサポートされるわけではありません。 基本モデルでサポートされていない場合、サービスではオーディオが無視され、文字起こしされたテキストのみでトレーニングが行われます。 この場合、トレーニングは、関連するテキストを使用したトレーニングと同じになります。 オーディオ データを使用したトレーニングをサポートする基本モデルの一覧については、「言語のサポート」を参照してください。
Custom Speechのドキュメント - Custom Speechのドキュメント
オーディオが無視され、文字起こしされたテキストのみでトレーニングが行われます。
今のところは日本語のカスタムモデルにおいて音声データは無視されるらしい。