实现与 AI 流畅对话体验 WhisperFusion。
一个基于 WhisperLive 和 WhisperSpeech 构建,并结合 Mistral 大语言模型,实现拥有极低延迟时间的 AI 对话效果。
GitHub:github.com/collabora/WhisperFusion
具有如下特点:
1)实时语音转文本
借助 OpenAI 的 WhisperLive 技术,能够实时将语音转换为文本。
2)大语言模型集成
集成了强大开源的 Mistral 大语言模型,提升对转换后的文本理解能力和上下文分析能力。
3)TensorRT 引擎优化
通过 TensorRT 引擎优化 LLM 和 Whisper 的运行,保障了高效的性能和极低的处理延迟。
4)使用 torch.compile 加速
使用 torch.compile 技术对 WhisperSpeech 加速推理,进一步提升运行速度。
LGitHubDaily的微博视频