IBM CloudのText to Speechを試します

先日はIBM CloudのSpeech to Textを確認しました。本日はその逆のText to Speechを確認します。リソースの追加にからカテゴリのAIにそれはあります。

Text to Speechの作成の画面ではリージョンを選択し料金プランはライトとしました。「 1 カ月あたり10,000文字分を無料で開始できます。」とのことです。サービス名は任意、リソースグループを選択し作成ボタンをクリックします。

その後入門チュートリアルに従い作業をします。curlをインストールしますがwindows10にプリインストールされている可能性もあります。が、https://curl.haxx.se/にてダウンロードすることにしました。SSL 対応バージョンでなければなりません。

任意の場所にcurlを解凍したらcrul.exeがbinフォルダにあるのでコマンドラインでそこに移動します。私の場合はC:\Users\minok\OneDrive\ドキュメント\curl-7.69.1-win64-mingw\binにあるのでcdコマンドで移動します。

curl がインストールされているかどうかをテストする。

curl -V

実際に試してみます。下記のコマンドは米国英語のテキストの音声合成作成のコマンドであり、「hello world」というストリングから音声を合成してhello_world.wavという名前のWAVファイルを生成します。この例では出力先をC:\Users\minok\Dropboxというドロップボックスに保存するコマンドとなります。API鍵、URLは管理にて確認できます。

curl -X POST -u "apikey:XXXXXXXXXXXXXXXXXXXXXXXXXXXXX" --header "Content-Type: application/json" --header "Accept: audio/wav" --data "{\"text\":\"hello world\"}" --output C:\Users\minok\Dropbox\hello_world.wav "https://api.jp-tok.text-to-speech.watson.cloud.ibm.com/instances/XXXXXXXXXXXXXXXXXXXXXXXXXXXXX/v1/synthesize"