实时语音助手
当前页面已经升级为方案二的混合增强版。页面既能继续使用浏览器录音,也能作为 WebView / Capacitor 前端, 接收原生层推送的 PCM 音频并通过 WebSocket 发送给后端。
语音控制台
支持浏览器录音、原生桥接录音和音频文件上传当前文件
尚未选择音频文件
采样率 16 kHz PCM
用户 + 会话维度上下文
桥接状态待检测
识别结果
ASR 实时文本等待你开始说话
AI 回复
LLM 流式输出模型回复会显示在这里
运行状态
混合客户端关键状态
连接状态
未连接
录音状态
未开始
当前 WebSocket 地址
等待配置
用户 / 设备 / 会话
等待生成
客户端模式
等待配置
桥接可用性
待检测
混合接入配置
保存后,下次连接自动生效
用于页面端查询配置或后续扩展接口。WebView 场景下通常固定为公网域名。
留空时会根据 HTTP 地址自动推导为 ws / wss。
浏览器 WebSocket 仍然通过查询参数方式传递。
方案二开始,Redis 历史和会话元数据按“用户 + 会话”组织。
同一用户多设备时,便于后端和日志区分来源。
建议一轮语音交互使用一个明确 session,必要时可手工切换。
`hybrid` 表示 UI 在 H5,录音能力优先由原生提供。
`native-preferred` 会优先尝试原生桥接,失败再回退浏览器录音。
如果你后续接原生 Android 录音层,只需要让原生层实现页面约定的桥接接口,并把 PCM 数据推送给当前页面即可,不需要重写现有会话界面。