FishSpeech Docs
API Reference实时文字转语音

实时文字转语音

使用 WebSocket 流式生成语音。

实时文字转语音

实时 TTS 适合低延迟试听、对话式播报和需要分段提交文本的场景。客户端通过 WebSocket 连接实时服务,并使用 MessagePack 发送 starttextflushstop 事件。

GET /v1/tts/live
Authorization: Bearer YOUR_API_KEY

连接地址使用 OpenAPI Base URL 的 WebSocket 协议,例如生产 HTTPS 对应 wss://kittaaudio.com/v1/tts/live

事件流程

步骤客户端事件说明
1start提交模型、音色、初始文本和语速等参数
2text追加文本片段
3flush生成当前缓冲文本的音频
4stop结束会话

start 事件中的模型应使用实时 TTS 支持的公开模型。音色字段与普通 TTS 接口保持一致。

计费

实时 TTS 按实际生成内容计费。服务端会在会话内记录任务和用量;如果生成失败,会按服务端规则回滚或保留已完成片段的用量。

错误

鉴权失败会在握手阶段返回 401。会话内错误会通过 finish 事件返回 codemessage,客户端收到后应关闭连接并按需重试。

On this page