OpenAIのAPI料金ページを見ていたら、gpt-4o-mini-transcribeモデルが2個所に記載されていたので「どういうこと?」と思い調査&検証した結果を残しておこうと思います。
もしかしたら計算方法が違うかもしれないので参考程度に見ていただけたらと思います。

なぜ gpt-4o-mini-transcribe が2つ表示されているのか
同じモデルだが、課金対象が異なるため2つの表に分かれている。
以下の2種類のトークンが別テーブルで表示されています。
- Audio tokens(音声入力)
- Text tokens(テキスト入力・出力)
Audio tokens とは?
音声データそのもの(=時間)に対して課金されます。
料金表には以下のように記載されています。
Input : $3.00 / 1,000,000トークン
Output : なし(テキスト出力のため)
そして、そのInputの単価で1分の音声を読み込むとだいたい$0.003 / minuteくらいになる。
この「$0.003 / minute」が料金ページの「ESTIMATED COST」の部分になります。
Text tokens(Output)とは?
音声からテキストに変換するため生成されたテキスト量にも課金されます。
つまり文字起こし後のテキスト量に応じて課金ということになります。
料金表には以下のように記載されています。
Input : $1.25 / 1,000,000トークン
Output : $5.00 / 1,000,000トークン
Outputも平均的な会話速度を前提とすると1分あたり約 $0.003 程度になるという目安。
そしてInputですが、ここで言うInputとはプロンプト部分になり無視しても良いレベルとなります。
実際はいくらかかるのか
Audio tokens(音声入力):約$0.003
Text tokens(テキスト出力):約$0.003
———————————————————
合計:約$0.006 / 分
1ドル=150円で換算すると、1分あたり約0.9円となります。
実際に使ってみた感覚とも大きな乖離はなく、この考察は概ね妥当ではないかと感じています。
より正確な算出方法をご存じの方がいれば、ご教示いただけると幸いです。