Skip to content

小智性能优化研究,公开数据报告,助力低成本高性能落地

License

Notifications You must be signed in to change notification settings

xinnan-tech/xiaozhi-performance-research

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 

Repository files navigation

小智各组件响应速度测试报告

一、报告概述

本报告汇总了小智语音助手核心模块在不同硬件和模型配置下的响应速度表现,旨在为内部项目团队提供最佳部署方案参考。

二、郑重声明

2.1、本报告为内部技术评估文档,仅供项目团队内部成员参考使用,由于测试方法还未做到高度严谨,测试过程还未做到高度透明,因此不具备权威评判性、不可作为正式商用的测试报告。
2.2、报告中所有测试结果均基于特定测试环境得出,实际部署效果可能因网络带宽、延迟、服务器负载、硬件配置等因素而产生显著差异。
2.3、本报告中的响应速度数据是在xiaozhi-esp32-serve代���框架下测试获得的,其结论和优化建议仅适用于该项目的技术架构和实现方式。将相同的配置或优化策略应用于其他项目时,可能无法达到预期效果,甚至可能引起兼容性问题。建议在实际应用前进行充分的验证测试。

三、报告结论

根据测试结果,我们可以得出以下结论:如果我的服务器在广东,为达到最优响应速度,我应该选择模型组合是:

模块类型 推荐模型 关键指标 指标值
ASR FunASR (GPU模式) 平均处理时间 0.071秒/次
LLM qwen-flash-2025-07-28 超长角色提示词下的首Token时间 0.675秒
TTS PaddleSpeechTTS(本地部署) 平均首音时间 0.092秒/次
VLLM qwen2.5-vl-3b-instruct 平均响应时间 1.774秒/次

四、报告明细

4.1 语音识别(ASR)响应速度对比

4.1.1 测试方法

测试方法 测试地点 测试时间 宽带运营商
点击查看 广东省广州市海珠区 2025年12月15日 14:18 中国联通

4.1.2 非流式测试结果

模型名称 指标名称 指标值
TencentASR 平均处理时间 0.340秒/次
BaiduASR 平均处理时间 0.712秒/次
DoubaoASR 平均处理时间 0.737秒/次
FunASRServer 平均处理时间 0.752秒/次
AliyunASR 平均处理时间 0.813秒/次
Qwen3ASRFlash 平均处理时间 1.213秒/次

4.1.3 流式测试结果

模型名称 指标名称 指标值
XunfeiStreamASR 平均首词等待时间 0.649秒/次
DoubaoStreamASR 平均首词等待时间 0.699秒/次
AliyunStreamASR 平均首词等待时间 0.778秒/次

4.2 大语言模型(LLM)响应速度对比

4.2.1 测试方法

测试方法 测试地点 测试时间 宽带运营商
点击查看 广东省广州市海珠区 2025年8月25日 10:39 中国联通

4.2.2 测试结果

模型名称 指标名称 指标值
qwen-flash-2025-07-28 小智超长角色提示词下的首Token时间 0.675秒
qwen-turbo-2025-07-15 小智超长角色提示词下的首Token时间 0.747秒
glm-4-flash 小智超长角色提示词下的首Token时间 1.076秒
qwen3-235b-a22b-instruct-2507 小智超长角色提示词下的首Token时间 1.103秒
glm-4-plus 小智超长角色提示词下的首Token时间 1.195秒
qwen-plus-latest 小智超长角色提示词下的首Token时间 1.245秒
Moonshot-Kimi-K2-Instruct 小智超长角色提示词下的首Token时间 1.288秒
qwen-Max 小智超长角色提示词下的首Token时间 1.340秒
qwen-plus-2025-07-28 小智超长角色提示词下的首Token时间 1.356秒
llama-4-scout-17b-16e-instruct 小智超长角色提示词下的首Token时间 1.493秒
xunfei-spark-lite 小智超长角色提示词下的首Token时间 1.517秒
xunfei-spark-pro 小智超长角色提示词下的首Token时间 1.774秒
doubao-1-5-pro-32k-250115 小智超长角色提示词下的首Token时间 2.478秒
glm-4.5-airx 小智超长角色提示词下的首Token时间 2.989秒
glm-4.5 小智超长角色提示词下的首Token时间 3.313秒
glm-4.5-air 小智超长角色提示词下的首Token时间 3.962秒
doubao-seed-1-6-flash-250715 小智超长角色提示词下的首Token时间 6.490秒
deepseek-chat 小智超长角色提示词下的首Token时间 6.901秒
qwq-32b 小智超长角色提示词下的首Token时间 7.096秒
qwen3-235b-a22b-thinking-2507 小智超长角色提示词下的首Token时间 9.100秒
doubao-1.6-thingking-250715 小智超长角色提示词下的首Token时间 9.623秒
deepseek-reasoner 小智超长角色提示词下的首Token时间 >10秒
deepseek-r1-0528 小智超长角色提示词下的首Token时间 >10秒

4.3 在云服务平台示例容器vllm搭建模型测试结果

4.3.1 测试方法

测试方法 部署方法 测试地点 测试时间 宽带运营商
点击查看 点击查看 广东省广州市海珠区 2025年9月30日 10:11 中国联通

4.3.2 测试结果

模型名称 部署设备 指标名称 指标值
qwen2.5-72b-instruct 4张A800显卡 小智超长角色提示词下的首Token时间 0.601秒

4.3 语音合成模型(TTS)响应速度对比

4.3.1 测试方法

测试方法 测试地点 测试时间 宽带运营商
点击查看 广东省广州市海珠区 2025年9月30日 10:33 中国联通

4.3.2 非流式测试结果

模型名称 指标名称 指标值
CosyVoiceSiliconflow-Small 平均处理时间 0.103秒/次
AliyunTTS 平均处理时间 0.322秒/次
DoubaoTTS 平均处理时间 0.327秒/次
TencentTTS 平均处理时间 0.365秒/次
CosyVoiceSiliconflow) 平均处理时间 0.488秒/次
MinimaxTTSHTTPStream 平均处理时间 0.662秒/次
EdgeTTS 平均处理时间 0.667秒/次
CozeCnTTS 平均处理时间 0.751秒/次
TTS302AI 平均处理时间 1.785秒/次

4.3.3 流式测试结果

模型名称 指标名称 指标值
PaddleSpeechTTS(本地部署) 平均首音时间 0.103秒/次
XunFeiTTS 平均首音时间 0.253秒/次
IndexStream 平均首音时间 0.312秒/次
HuoshanDoubleStreamTTS 平均首音时间 0.317秒/次
Linkerai 平均首音时间 0.455秒/次
AliyunStreamTTS 平均首音时间 0.712秒/次

4.4 视觉分析模型(Vllm)响应速度对比

4.4.1 测试方法

测试方法 测试地点 测试时间 宽带运营商
点击查看 广东省广州市海珠区 2025年8月25日 11:10 中国联通

4.4.2 测试结果

模型名称 指标名称 指标值
qwen2.5-vl-3b-instruct 平均响应时间 1.774秒/次
glm-4v-flash 平均响应时间 2.278秒/次
GLM-4V-Plus-0111 平均响应时间 4.397秒/次
GLM-4.5V 平均响应时间 6.193秒/次
qwen-vl-max-2025-08-13 平均响应时间 8.089秒/次
qwen-vl-plus-2025-08-15 平均响应时间 9.343秒/次

About

小智性能优化研究,公开数据报告,助力低成本高性能落地

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages