起止时间:02/2025 ~ 05/2025
技术栈:[Speechmatics, Aruze, WebSocket, FastAPI, VAD, ASR, TTS]
设计端到端实时语音转译系统,从本地麦克风采集语音流。实现音频帧处理、回声抑制、采样率与字节格式转换。接入 Speechmatics 完成鲁棒语音识别,结合 Aruze 实现标准化语音重建。特殊口音识别准确率 90%+。
bilibili效果展示
- 本文链接: https://jinhongcai.work/2026/01/20/ai/systemX/
- 版权声明: 本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。