新品发布|启英泰伦联合启明云端推出离在线语音大模型方案 2025年03月11日

当前,生成式大模型正以颠覆性姿态重塑人机交互的边界,并逐渐向终端场景渗透。然而,云端大模型在落地终端场景时面临两大挑战:

1. 在真实噪声场景下容易听不清、误识别,影响交互准确性;

2. 云端处理冗余数据及大规模计算任务带来的响应延迟。

其根本原因在于缺乏一颗强计算性能的端侧语音处理芯片。

近日,启英泰伦联合启明云端正式推出WT01C202-AI-S1高性能离在线语音大模型方案。该方案基于启英泰伦CI130X系列神经网络语音芯片,可实现语音识别、语音端点检测、深度学习降噪、回声消除、声源定位、音频压缩、流媒体播放等功能,同时可对接豆包、文心一言、ChatGPT、Deepseek等大模型,充分发挥大模型在语义理解与内容生成方面的优势。通过端-云协同设计,将简单任务(如唤醒、降噪)在本地完成,复杂任务(如自然语言理解)交由云端处理,实现低延迟、高准确率的交互体验。



具体优势如下:

01支持基于DNN的本地语音唤醒及识别

针对设备的各项功能控制,无需按键,无需联网,通过该方案可直接进行本地离线语音唤醒和识别。数据无需上传云端进行分析和决策,大大提升了响应速度。


02支持基于DNN的端点检测

采用先进的端点检测(VAD)技术,通过深度学习与硬件加速的融合设计,在稳态噪声和非稳态噪声环境下均能精准识别人声起始点和终点。仅在检测到人声时进行唤醒,其余时间保持低功耗休眠状态,避免了云端一直监听环境声音,将全部音频上传云端分析带来的高带宽和流量消耗。其响应速度达到毫秒级,作为云端大模型的 “智能哨兵”,为后续的语音处理流程提供了高效、精准的支持。


03支持基于DNN的语音深度降噪

采用基于DNN的深度学习语音降噪技术,使得该方案具备更强的自适应性和泛化能力,能够在不同的噪音环境中保持优异的降噪效果,为云端大模型提供了更干净的语音,极大提升了云端大模型的语音识别准确率。


04支持基于DNN的回声消除打断

基于自适应线性滤波联合基于深度学习的非线性滤波的回声消除方案可有效抑制回声,且能做到实时打断,让用户无需漫长等待即可继续进行语音指令输入,保障了用户体验的流畅性与即时性。


05支持基于DNN的声源定位

基于麦克风阵列与波束成形算法,实现多场景下的指向性交互,提升人机交互的自然性和人性化。例如,在机器人或智能玩具中,设备可根据声源方向转头或移动,不仅增强了产品的可玩性与趣味性,还为用户带来更具沉浸感的交互体验。


06支持多语种

启英泰伦自主开发多个小语种模型,支持汉语、英语、日语等多种语言输入,能够满足不同地区、不同语言背景用户的多样化需求,为产品的国际化推广奠定了坚实基础。

 

方案应用架构

该方案支持国内外各大大模型平台,包括豆包、文心一言、ChatGPT、Deepseek等,为企业或开发者提供高效便捷的多模型选择。通过此方案,用户能够轻松实现一站式开发,无需繁杂切换,即可在不同大模型间无缝过渡与调用。

 

WT01C202-AI-S1模组方案凭借其卓越的性能和丰富多样的功能,具备极为广泛的应用前景,可应用于家电、玩具、文创、机器人等众多产品领域,帮助企业在国际市场上实现语音交互等各类智能语音方案应用。

推荐阅读
合作咨询

请完善信息,启英泰伦期待与您的合作!

在线咨询