Azure音声認識APIの日本語モデルカスタマイズ 1. プレーンテキスト

Azure音声認識APIの日本語モデルカスタマイズ 1. プレーンテキスト

「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上

前回行ったAzure音声認識APIの実験の続き。

Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。

「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。

扱う言語によって機能に制限がある、日本語について確認。



あまりにマイナーな言語過ぎて「プレーンテキスト」によるカスタマイズ以外はできないようだ。
したがって「プレーンテキスト」を利用したazureの音声認識カスタマイズを行う。

Pythonを用いたAzure APIによる音声認識の方法

Pythonを用いたAzure APIによる音声認識の方法

Azure「Speech To Text」 の使い方

音声認識技術によって音声ファイルをテキスト化したいという声がある。


音声認識技術によって
音声ファイルをテキスト化したい

以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。

そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。

マスターデュエル マリンセスデッキでプラチナ1到達

マスターデュエル マリンセスデッキでプラチナ1到達

遊戯王マスターデュエル

マスターデュエルとは「遊戯王マスターデュエル」という遊戯王OCGの超面白いゲームであり、プラチナ1とはマスターデュエルにおけるランクマッチの最高ランクを指す。

最高ランクといっても過半数勝つことができれば後は対戦数さえ稼げば達成できるので頑張ればなんとかなる。
今回頑張ってなんとかなったため記念にデッキを残す。



※マスターデュエルのランクマッチは1か月ごとにランクがリセットされ、その単位をシーズンと呼ぶ。
今回の記事はシーズン2(2月1日~28日)においてプラチナ1に到達したことについて記載している。


そうだね

日本語音声認識API主要5社比較

日本語音声認識API主要5社比較

5種類の音声認識APIを性能評価して比較

音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。

基本情報↓


名前対応フォーマット無料枠料金備考
Microsoft Azure
Speech-to-Text
wav, ogg5時間/月1ドル/1時間
AWS
Amazon transcribe
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は1秒単位
Google Cloud
Speech-to-Text
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は15秒切り上げ
アドバンスト・メディア
AmiVoice
wav, flac, mp3 など60分/月99円/1時間課金対象は音声データ中の発話区間のみ
Apple
SpeechFramework
m4a1000リクエスト/1時間無料iOS
iPadOS
macOS限定

認識精度↓


実験対象Microsoft AzureAWSAmiVoiceGoogleApple
全部92.31%89.18%83.57%82.86%89.67%
ナレーション93.63%90.35%85.63%85.22%89.22%
セリフ90.78%87.83%81.21%80.14%90.19%
男性94.58%91.44%90.03%86.13%90.79%
女性89.97%86.85%76.92%79.49%88.52%

最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。

最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。

以降、実験の詳細を記す。

Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]

Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]

Twitter API v2を使って特定アカウントのツイートを取得

Twitter API v2の機能の中にUser Tweet timelineというものがあり、これによって任意のアカウントのタイムラインを取得できる。

これを利用して、コウメ太夫氏のTwitterアカウントから「#まいにちチクショー」を取得する。
以下に示す「コウメ太夫百人一首」を作ることが目的。

Windows10でYOLOXの学習

Windows10でYOLOXの学習

YOLOXをWindows10で使いたい

YOLOXという物体検出モデルがある。
これをWindows10の環境に導入して学習を行いたい。

公式のGitHubリポジトリはおそらくUnix系を前提としているのか「ReadMe」に素直に従うとエラーが起こる。

ここで、Windows10によるYOLOXの環境構築からCOCOデータセットを利用した学習までの実現方法を記載する。

LightWeight GANによる存在しない遊戯王カードの生成

LightWeight GANによる存在しない遊戯王カードの生成

遊戯王カードのイラストをディープラーニングにより学習

以前「Progressive GAN」を利用して遊戯王カードのイラストを自動生成する実験を行った。

それよりも優秀らしい「LightWeight GAN」というものを知ったので今回は「LightWeight GAN」による遊戯王カードの自動生成を試す。

定量評価はできないため主観だが「LightWeight GAN」の方がきれいな画像の生まれる割合が多いように感じた。
加えて、GitHubリポジトリのテストコードが便利で簡単なので「LightWeight GAN」を薦める。

以降、Windows10による環境構築と実験結果を記す。

gpt-2-simpleによる遊戯王カードのテキスト自動生成

gpt-2-simpleによる遊戯王カードのテキスト自動生成

遊戯王カードのテキストをディープラーニングにより学習

以前遊戯王カードのイラストを学習して新たな遊戯王カードのイラストを生成するという実験を行った。

今回は遊戯王カードのテキストを学習して新たなテキストを生成する。

Twitter API v2の使い方5[フォロワードクラウド]

Twitter API v2の使い方5[フォロワードクラウド]

フォロワードクラウド

ワードクラウドというものがある。
これを使うと文章中の出現頻度が高い単語を大きく表示して文章の内容を画像1枚で図示することができる。

前回の記事でTwitterの任意のアカウントについて、フォロワーのユーザー情報を取得することができた。

これを使ってフォロワーの自己紹介文からワードクラウドを作る。
これがフォロワードクラウド。
アカウントをフォローしている層が図示できる。

Twitter API v2の使い方4[ユーザー情報取得編]

Twitter API v2の使い方4[ユーザー情報取得編]

Twitter API v2の使い方

Twitter API v2は大きく分けると2つ、

  • ツイート

  • ユーザー

2つの情報が取得できる。
以前はツイート検索をしたかったためツイート取得機能を使用した。

今回はユーザー情報に関する以下の機能を試す。

機能説明
User lookupユーザー名かユーザーIDからユーザーを検索する
Follows lookupユーザーIDからフォローしてる・されてる人を取得する
Manage followsユーザーIDからフォロー・フォロー解除を行う

公式から引っ張ってきただけ。
https://developer.twitter.com/en/docs/twitter-api/early-access

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×