飞书语音气泡管道 · 三界·战史 · 三界·元

← 返回战史

⚙️技术链路

完整五步语音气泡 pipeline，从文字到飞书语音消息的完整路径：

edge-tts 生成 MP3：调用微软 Azure 语音合成，支持中文多音色（晓晓/云扬/台湾腔）
ffmpeg 转 opus：MP3 → PCM → opus 格式，适配飞书语音消息格式要求
飞书 API 上传：获取 upload_token → 上传音频文件 → 获取 file_key
飞书消息发送：lark-cli im +messages-send 配合 audio_content 发送语音气泡
Hermes Agent 集成：voice_speak 工具封装完整流程，对话回复可直接语音发送

📊最新成果

台湾腔音色用于日常闲聊，晓晓（zh-CN-XiaoxiaoNeural）用于新闻播报，云扬（zh-CN-YunyangNeural）用于男声播报
语音回复文本中去掉代码类字符（如\n反斜杠N），用自然语言直接换行
微信公众号文章追踪也已接入，支持语音播报推送
AI日报推送时同步发送语音版本，晓晓+云扬穿插播报
skill: feishu-voice-bubble 已封装为完整技能文档，供复用

📈研究历程

2026.04 — v2.0

微信公众号语音播报

将微信公众号追踪内容接入语音管道，推送时同步生成语音版本，晓晓+云扬双声道。

2026.04 — v1.0

台湾腔+新闻双声道上线

台湾腔用于日常对话，晓晓+云扬穿插用于新闻播报，ffmpeg opus 转换链路打通。

2026.03 — v0.5

基础语音气泡打通

edge-tts + ffmpeg + 飞书 API，完成 MP3→opus→语音气泡的完整链路验证。