Hermes 音频处理逻辑与语音聊天方案分析

发表于 2026-05-28 更新于 2026-05-29 分类于技术阅读次数：本文字数： 726 阅读时长 ≈ 3 分钟

分析日期：2026-05-28
涉及项目：Hermes Agent

一、Hermes 当前音频处理架构

1	用户音频 → gateway 捕获 → Whisper STT → 文字 → LLM

关键发现：

1	LLM 文字回复 → TTS 引擎 → 音频文件 → 平台发送

TTS 配置：

1	音频 → Whisper(STT) → 文字 → LLM → 文字 → TTS → 音频

1	音频 → GPT-4o(端到端) → 文字 → TTS → 音频

1 2	WebSocket 长连接音频流 ←→ 模型 ←→ 音频流

参考项目：BridgeSpeak — 跨 agent skill，基于 OpenAI gpt-realtime-2，约 280 行 Python WebSocket 客户端。

三种语音聊天方案架构对比

维度	方案 A（当前）	方案 B（GPT-4o REST）	方案 C（Realtime API）
架构	两步走（STT→LLM）	一步走（端到端）	WebSocket 双向流
延迟	~3-5s	~1-2s	~0.3-0.8s
模型感知音频	❌	✅	✅
改动量	无	中等	大
流式	❌	❌	✅
自然对话感	低	中	高

澄清：SenseNova-U1-Fast 和 Realtime API 没有直接关系。

概念	说明
SenseNova-U1-Fast	商汤的一个模型（推理速度快）
Realtime API	OpenAI 的一个WebSocket 端点（`/v1/realtime`）
关系	两者是不同厂商的不同技术

目标	推荐方案
快速验证模型能否感知音频	方案 B（GPT-4o audio input）
最佳体验（低延迟、自然对话）	方案 C（Realtime API）
保持当前架构、仅优化 STT	设置 Whisper `language: "zh"` 提升中文识别率

文件	内容
`~/.hermes/config.yaml`	STT/TTS 配置
`run.py` L13402-13480	`_enrich_message_with_transcription()` — STT 转录
`run.py` L6870-6960	`_prepare_inbound_event_text()` — 音频捕获
`agent/image_routing.py`	`build_native_content_parts()` — 图片 base64 编码参考

实现音频 native 路径：参考图片的 pending_native_image_paths，添加 pending_native_audio_paths
切换模型提供商：在 config.yaml 修改 agent.provider 和 agent.model
集成 BridgeSpeak：将 BridgeSpeak skill 复制到 ~/.hermes/skills/voice/bridgespeak/
优化 Whisper 中文识别：在 config.yaml 设置 stt.language: "zh"

本文基于 Hermes Agent 代码分析生成，2026-05-28