IBM CloudのSpeech to Textを試します

先日はGCPのSpeech to Textを確認しました。本日はIBM Cloudのそれを確認します。リソースの追加にからカテゴリのAIにそれはあります。

Speech to Textの作成の画面ではリージョンを選択し料金プランはライトとしました。「無料で 1 カ月あたり500分で開始します。」とのことです。サービス名は任意、リソースグループを選択し作成ボタンをクリックします。

その後入門チュートリアルに従い作業をします。curlをインストールしますがwindows10にプリインストールされている可能性もあります。が、https://curl.haxx.se/にてダウンロードすることにしました。SSL 対応バージョンでなければなりません。

任意の場所にcurlを解凍したらcrul.exeがbinフォルダにあるのでコマンドラインでそこに移動します。私の場合はC:\Users\minok\OneDrive\ドキュメント\curl-7.69.1-win64-mingw\binにあるのでcdコマンドで移動します。

curl がインストールされているかどうかをテストする。

curl -V

にて動作確認。

実際に試してみます。下記のコマンドはオプションを使用せずに音声を書き起こすものです。API鍵、URLは管理にて確認できます。

curl -X POST -u "apikey:自分のAPIキー" --header "Content-Type: audio/flac" --data-binary @C:\Users\minok\Downloads\audio-file.flac "管理にあるURL/v1/recognize"

うまくテキストになってます。

次がオプションを使用して音声を書き起こす例。

curl -X POST -u "apikey:XXXXXXXXXXXXXXX" --header "Content-Type: audio/flac" --data-binary @C:\Users\minok\Downloads\audio-file.flac "https://api.jp-tok.speech-to-text.watson.cloud.ibm.com/instances/XXXXXXXXXXX/v1/recognize?timestamps=true&max_alternatives=3"