API Reference实时文字转语音
实时文字转语音
使用 WebSocket 流式生成语音。
实时文字转语音
实时 TTS 适合低延迟试听、对话式播报和需要分段提交文本的场景。客户端通过 WebSocket 连接实时服务,并使用 MessagePack 发送 start、text、flush 和 stop 事件。
GET /v1/tts/live
Authorization: Bearer YOUR_API_KEY连接地址使用 OpenAPI Base URL 的 WebSocket 协议,例如生产 HTTPS 对应 wss://kittaaudio.com/v1/tts/live。
事件流程
| 步骤 | 客户端事件 | 说明 |
|---|---|---|
| 1 | start | 提交模型、音色、初始文本和语速等参数 |
| 2 | text | 追加文本片段 |
| 3 | flush | 生成当前缓冲文本的音频 |
| 4 | stop | 结束会话 |
start 事件中的模型应使用实时 TTS 支持的公开模型。音色字段与普通 TTS 接口保持一致。
计费
实时 TTS 按实际生成内容计费。服务端会在会话内记录任务和用量;如果生成失败,会按服务端规则回滚或保留已完成片段的用量。
错误
鉴权失败会在握手阶段返回 401。会话内错误会通过 finish 事件返回 code 和 message,客户端收到后应关闭连接并按需重试。