yanghan-cyber / audio-serviceLinks
基于FastAPI的语音服务系统,集成语音合成(TTS)和语音识别(STT)功能。使用CosyVoice2作为TTS引擎,FunASR作为STT引擎,支持零样本语音克隆、流式输出、多种语言识别等高级功能。
☆11Updated 2 months ago
Alternatives and similar repositories for audio-service
Users that are interested in audio-service are comparing it to the libraries listed below
Sorting:
- 将Wav2Lip和GFPGAN进行结合实现高清数字人说话视频☆31Updated 3 weeks ago
- 基于大模型生成内容的智能语音对讲☆10Updated 7 months ago
- mcp的webui界面,支持客户端连接多个sse服务端,支持 openai、deepseek、qwen等大模型,另外附上构建的 agent的 stdio和sse的简单 天气查询的完整示例☆28Updated last month
- 异步语音对话组件。☆22Updated 3 months ago
- funasr语音转文字的简单api版本,funasr+fastapi,方便部署在服务器上☆12Updated 10 months ago
- ragflow中的ocr部分,非官方项目☆44Updated 10 months ago
- 基于知识图谱和大模型的对话系统☆10Updated last month
- 基于电商数据微调的Qwen2.5系列的电商大模型,电商数据sft后电商大模型。是https://github.com/leeguandong/EcommerceLLM的升级版本。qwen2.5的效果很好。☆13Updated 8 months ago
- ☆8Updated 9 months ago
- 基于Llamaindex微调qwen2.5-7b☆25Updated 6 months ago
- WebUI for ChatTTS☆30Updated last year
- 对接 Dify不同应用的 API,从而对接自己的业务系统,实现与 Dify 应用的对话流处理,将对话结果流式返回给前端,并将对话结果分发给开发者自行处理☆10Updated 9 months ago
- 主要写er-nerf从零到一所有部署过程☆43Updated 10 months ago
- 本项目借助飞桨平台,构建起一套创新的多模型协同系统,实现 PDF 文件到 Markdown 文件的高效、精准转换。☆16Updated 3 months ago
- 基于 KouriChat 的 Dify 集成情感陪伴机器人,支持微信,增强 AI 交互。☆22Updated 3 months ago
- 基于大模型的视频监控危险行为检测系统,集成YOLOv8、GPT-4V等视觉和多模态AI模型,提供高精度危险行为识别、场景理解和智能告警分析。☆38Updated 2 months ago
- 语音识别、文本转语音、文档重排和数据库连接的一键式API服务☆33Updated last month
- Examples for QinYan GLMs☆13Updated 9 months ago
- Dive into LLM Agents☆18Updated last year
- ☆25Updated 3 months ago
- 基于中文文本情绪分析自动切换参考音频的 GPT-SoVITS 推理 Demo☆102Updated last year
- Text2Neo4j 是一个遍历文档、从文本中提取关系并将其保存到 Neo4j 数据库中以形成知识图谱的工具。本项目结合了 Dify 和 LLaMA3.1(8B 模型)来高效处理和提取复杂关系。☆16Updated 9 months ago
- 基于GLM4-Chat实现本地知识库查询以及Agent☆7Updated last year
- ChatTTS HTTP API☆54Updated last year
- 获取bilibili直播弹幕,使用WebSocket协议☆36Updated last year
- 数字人训练☆18Updated last year
- 智能面试官,基于Spring-Alibaba-Ai实现全流程技术面试的开源AI系统(AIAgent)。Smart Interviewer, an open-source AI system (AIAgent) based on Spring-Alibaba-AI, impl…☆70Updated last month
- 一个用于F5-TTS的api和webui项目☆60Updated 6 months ago
- 使用 FastAPI、Streamlit本地部署ChatTTS文本转语音模型,并通过 Docker Compose 进行容器化部署。☆27Updated 9 months ago
- 本项目主要实现使用FastAPI后端框架+CrewAI实现AI Agent复杂工作流。代码实现CrewAI的Flows功能,并支持Flow运行中间结果进行持久化存储和查询(MySQL),支持多Flow并行(Celery是一个强大的异步任务队列/作业队列库)。☆83Updated 2 months ago