Azure音声認識APIの日本語モデルカスタマイズ 1. プレーンテキスト
2022-03-26
software
「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上
前回行ったAzure音声認識APIの実験の続き。
Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。
「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。
扱う言語によって機能に制限がある、日本語について確認。
あまりにマイナーな言語過ぎて「プレーンテキスト」によるカスタマイズ以外はできないようだ。
したがって「プレーンテキスト」を利用したazureの音声認識カスタマイズを行う。
続きを読む

Pythonを用いたAzure APIによる音声認識の方法
2022-03-25
software
Azure「Speech To Text」の使い方
音声認識技術によって音声ファイルをテキスト化したいという声がある。

音声認識技術によって
音声ファイルをテキスト化したい
以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。
そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。
続きを読む

マスターデュエルマリンセスデッキでプラチナ１到達
2022-03-12
software
遊戯王マスターデュエル
マスターデュエルとは「遊戯王マスターデュエル」という遊戯王OCGの超面白いゲームであり、プラチナ1とはマスターデュエルにおけるランクマッチの最高ランクを指す。
最高ランクといっても過半数勝つことができれば後は対戦数さえ稼げば達成できるので頑張ればなんとかなる。
今回頑張ってなんとかなったため記念にデッキを残す。
※マスターデュエルのランクマッチは1か月ごとにランクがリセットされ、その単位をシーズンと呼ぶ。
今回の記事はシーズン2(2月1日～28日)においてプラチナ1に到達したことについて記載している。

そうだね
続きを読む

日本語音声認識API主要5社比較
2022-03-01
software
5種類の音声認識APIを性能評価して比較
音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。
基本情報↓
名前対応フォーマット無料枠料金備考
Microsoft Azure
Speech-to-Text wav, ogg 5時間/月 1ドル/1時間
AWS
Amazon transcribe wav, ogg, flac, mp3 など 60分/月 1.44ドル/1時間課金対象は1秒単位
Google Cloud
Speech-to-Text wav, ogg, flac, mp3 など 60分/月 1.44ドル/1時間課金対象は15秒切り上げ
アドバンスト・メディア
AmiVoice wav, flac, mp3 など 60分/月 99円/1時間課金対象は音声データ中の発話区間のみ
Apple
SpeechFramework
m4a 1000リクエスト/1時間無料 iOS
iPadOS
macOS限定
認識精度↓
実験対象 Microsoft Azure AWS AmiVoice Google Apple
全部 92.31% 89.18% 83.57% 82.86% 89.67%
ナレーション 93.63% 90.35% 85.63% 85.22% 89.22%
セリフ 90.78% 87.83% 81.21% 80.14% 90.19%
男性 94.58% 91.44% 90.03% 86.13% 90.79%
女性 89.97% 86.85% 76.92% 79.49% 88.52%
最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。
最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。
以降、実験の詳細を記す。
続きを読む

Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]
2022-01-18
software
Twitter API v2を使って特定アカウントのツイートを取得
`Twitter API v2`の機能の中に`User Tweet timeline`というものがあり、これによって任意のアカウントのタイムラインを取得できる。
これを利用して、コウメ太夫氏のTwitterアカウントから「#まいにちチクショー」を取得する。
以下に示す「コウメ太夫百人一首」を作ることが目的。
続きを読む

Windows10でYOLOXの学習
2021-12-26
software
YOLOXをWindows10で使いたい
YOLOXという物体検出モデルがある。
これをWindows10の環境に導入して学習を行いたい。
公式のGitHubリポジトリはおそらくUnix系を前提としているのか「ReadMe」に素直に従うとエラーが起こる。
ここで、Windows10によるYOLOXの環境構築からCOCOデータセットを利用した学習までの実現方法を記載する。
続きを読む

LightWeight GANによる存在しない遊戯王カードの生成
2021-08-24
software
遊戯王カードのイラストをディープラーニングにより学習
以前「Progressive GAN」を利用して遊戯王カードのイラストを自動生成する実験を行った。
それよりも優秀らしい「LightWeight GAN」というものを知ったので今回は「LightWeight GAN」による遊戯王カードの自動生成を試す。
定量評価はできないため主観だが「LightWeight GAN」の方がきれいな画像の生まれる割合が多いように感じた。
加えて、GitHubリポジトリのテストコードが便利で簡単なので「LightWeight GAN」を薦める。
以降、Windows10による環境構築と実験結果を記す。
続きを読む

gpt-2-simpleによる遊戯王カードのテキスト自動生成
2021-08-07
software
遊戯王カードのテキストをディープラーニングにより学習
以前遊戯王カードのイラストを学習して新たな遊戯王カードのイラストを生成するという実験を行った。
今回は遊戯王カードのテキストを学習して新たなテキストを生成する。
続きを読む

Twitter API v2の使い方5[フォロワードクラウド]
2021-06-03
software
フォロワードクラウド
ワードクラウドというものがある。
これを使うと文章中の出現頻度が高い単語を大きく表示して文章の内容を画像1枚で図示することができる。
前回の記事でTwitterの任意のアカウントについて、フォロワーのユーザー情報を取得することができた。
これを使ってフォロワーの自己紹介文からワードクラウドを作る。
これがフォロワードクラウド。
アカウントをフォローしている層が図示できる。
続きを読む

Twitter API v2の使い方4[ユーザー情報取得編]
2021-06-03
software
Twitter API v2の使い方
`Twitter API v2`は大きく分けると2つ、
ツイート
ユーザー
2つの情報が取得できる。
以前はツイート検索をしたかったためツイート取得機能を使用した。
今回はユーザー情報に関する以下の機能を試す。
機能説明
User lookup ユーザー名かユーザーIDからユーザーを検索する
Follows lookup ユーザーIDからフォローしてる・されてる人を取得する
Manage follows ユーザーIDからフォロー・フォロー解除を行う
公式から引っ張ってきただけ。
https://developer.twitter.com/en/docs/twitter-api/early-access
続きを読む

Update your browser to view this website correctly. Update my browser now

「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上

Azure「Speech To Text」の使い方

遊戯王マスターデュエル

5種類の音声認識APIを性能評価して比較

Twitter API v2を使って特定アカウントのツイートを取得

YOLOXをWindows10で使いたい

遊戯王カードのイラストをディープラーニングにより学習

遊戯王カードのテキストをディープラーニングにより学習

フォロワードクラウド

Twitter API v2の使い方

「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上

Azure「Speech To Text」 の使い方

遊戯王マスターデュエル

5種類の音声認識APIを性能評価して比較

Twitter API v2を使って特定アカウントのツイートを取得

YOLOXをWindows10で使いたい

遊戯王カードのイラストをディープラーニングにより学習

遊戯王カードのテキストをディープラーニングにより学習

フォロワードクラウド

Twitter API v2の使い方

Azure「Speech To Text」の使い方