ElevenLabs 音声テキスト変換 V2
音声
ElevenLabs 音声テキスト変換 V2
POST
ElevenLabs 音声テキスト変換 V2
音声または動画ファイルを文字起こしします。use_multi_channel が true で、アップロードされた音声に複数のチャンネルがある場合、各チャンネルにつき 1 つの文字起こしを含む ‘transcripts’ オブジェクトを返します。それ以外の場合は、単一の文字起こし結果を返します。
リクエストヘッダー
列挙値:
application/jsonBearer 認証形式: Bearer {{API Key}}。
リクエストボディ
指定した場合、システムは可能な限り決定論的にサンプリングします。同じ seed とパラメータのリクエストは同じ結果を返すはずですが、完全な決定性は保証されません。0 から 2147483647 までの整数である必要があります。値の範囲:[0, 2147483647]
アップロードファイル内の現在の話者をラベル付けするかどうか。
入力音声形式。‘pcm_s16le_16’ または ‘other’ を選択できます。pcm_s16le_16 は、音声が 16kHz サンプリングレート、16 ビット整数、モノラル、リトルエンディアン形式であることを要求し、エンコードされた波形と比べて遅延が低くなります。選択可能な値:
pcm_s16le_16, other文字起こし出力のランダム性を制御します。値の範囲は 0.0 ~ 2.0 で、値が高いほど結果は多様になり、不確実性も高くなります。省略した場合、選択したモデルのデフォルト温度(通常は0)が使用されます。値の範囲:[0, 2]
アップロードファイル内の話者の最大数。話者の区別を補助するために使用でき、最大 32 人の話者をサポートします。値の範囲:[1, 32]
音声ファイルの ISO-639-1 または ISO-639-3 言語コードを指定します。事前に指定すると、文字起こし性能が向上する場合があります。デフォルトは null で、言語は自動検出されます。
文字起こし内で(laughter)(footsteps)などの音声イベントをタグ付けするかどうか。
文字起こし対象ファイルの HTTPS リンク。file と cloud_storage_url のいずれか一方を指定する必要があります。ファイルは HTTPS 経由でアクセス可能かつ 2GB 未満である必要があり、クラウドストレージ(AWS S3、GCS、Cloudflare R2 など)、CDN、その他の HTTPS ソースを含む任意の有効な HTTPS アドレスをサポートします。token 付きの事前署名済みリンクや URL クエリパラメータによる認証もサポートします。
音声ファイルがマルチチャンネルであり、各チャンネルに単一の話者のみが含まれるかどうか。有効にすると、各チャンネルを個別に文字起こしして結果を合成し、出力内容の各単語には channel_index フィールドが含まれます。最大 5 チャンネルをサポートします。
話者分離(diarization)のしきい値。値が大きいほど、1 人が複数人として分割される確率は低くなりますが、異なる人が 1 人として結合される確率は高くなります(識別される話者数は少なくなります)。値が小さいほど、1 人が複数人として分割される確率は高くなりますが、異なる人が 1 人として結合される確率は低くなります(話者数は多くなります)。diarize=True かつ num_speakers=None の場合にのみ設定できます。デフォルトは None で、モデル id に基づいてしきい値が選択されます(通常は 0.22)。値の範囲:[0.1, 0.4]
文字起こし内容におけるタイムスタンプの粒度。‘word’ は単語レベルのタイムスタンプを提供し、‘character’ は各文字のタイムスタンプを提供します。選択可能な値:
none, word, characterレスポンス情報
レスポンスは以下のレスポンスタイプのいずれかになる場合があります:
レスポンスタイプ 1
レスポンスタイプ 1