跳转到主要内容

语音转文字 (STT)

POST /v1/audio/transcriptions
将音频文件转录为文字,兼容 OpenAI Whisper API 格式。

请求参数

参数类型必填说明
filefile音频文件(multipart/form-data)
modelstring模型名称:whisper-1gpt-4o-transcribe
languagestring音频语言(ISO-639-1 格式),如 zhenja
response_formatstring输出格式:json(默认)、textsrtverbose_jsonvtt
temperaturenumber采样温度,0-1
promptstring提示词,帮助模型理解上下文

支持的音频格式

mp3mp4mpegmpgam4awavwebm

请求示例

curl -X POST https://crazyrouter.com/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F file=@audio.mp3 \
  -F model=whisper-1 \
  -F language=zh \
  -F response_format=json

响应示例

JSON 格式

{
  "text": "你好,欢迎使用 Crazyrouter API。今天我们来介绍一下语音转文字功能。"
}

verbose_json 格式

{
  "task": "transcribe",
  "language": "chinese",
  "duration": 5.2,
  "text": "你好,欢迎使用 Crazyrouter API。",
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 2.5,
      "text": "你好,欢迎使用 Crazyrouter API。"
    }
  ]
}

SRT 格式

1
00:00:00,000 --> 00:00:02,500
你好,欢迎使用 Crazyrouter API。

音频翻译

POST /v1/audio/translations
将非英语音频翻译为英文文本。参数与转录接口相同。
Python
with open("chinese_audio.mp3", "rb") as audio_file:
    translation = client.audio.translations.create(
        model="whisper-1",
        file=audio_file
    )

print(translation.text)  # 输出英文翻译
指定 language 参数可以提高转录准确率。音频文件大小限制为 25MB。