-
语音识别
Automatic Speech Recognition语音识别(Automatic Speech Recognition 简称ASR)通过识别语音语种和任意的连续语音,将声音信号转化为相应说话内容的语种文字。支持中、英、日、俄、朝、维、粤、藏、哈、沪语、闽南语等多种语言的语音识别。
- 抗噪性好:从人的听觉感知及发音机理等现有基础研究成果出发,分析提取具备抗噪性、鉴别性、互补性的特征参数。
- 识别准确率高:采用PLP/CMN/HLDA/VTLN/高斯化等特征提取和处理技术;采用基于深度神经网络DNN的声学建模技术,适应用户自然口语发音特点。
- 识别速度快:采用基于Transformer/CTC Hybrid建模技术,多任务学习,加快训练流程,实现鲁棒性更好的识别效果。
- 采用模型自学习技术,适应多种地区的用户口音。
- 通过系统中间层为上层应用提供服务,同时将自己的服务能力作为接口提供给第三方平台。
- 热词模型:支持用户上传领域或者是自定义热词,引擎自适应选择用户热词结果。
- 开放的API接口:通过开放的API接口提供给第三方平台灵活使用。
-
语音增强
Speech Enhancement语音增强(speech enhancement简称SE),通过应用信号处理方法以及深度学习策略,尽可能的从带噪语音中恢复纯净的语音信号,从而提高带噪语音信号的质量和可懂度。
- 高适性,适用于多种复杂场景,低信噪比音频。
- 高质量,结合深度学习策略,通过对目标频谱的复数域CRM进行学习优化,达到高质量语音增强的目的。
- 高实时,通过优化网络结构,充分利用音频谐波长期的相关性,实现了帧级的语音增强性能。
- 可定制,对特定类型的带噪音频进行优化增强。
-
声纹识别
Voiceprint Recognition声纹识别(Voiceprint Recognition,简称VPR):支持说话人确认、辨识,说话人分离。
- 采用国际领先的基于TDNN的声纹识别技术。
- 引用PLDA在后端进行信道补偿,大大提升识别性能。
- 声纹识别与用户所说的文本和语言无关。
- 声纹识别速度快,能确保实时识别。 模型存储空间小,
- 每个人的声纹模型存储空间小于100KB。
- 参数调整方便,可按不同的应用需求调整操作点阈值。高安全性,不必担心他人的录音顶替使用。
-
语音合成
Text To Speech语音合成(Text To Speech 简称TTS),将文本信息转化成语音信息,让机器像人类一样能说会道,支持多语种、多业务领域语音合成。
- 高度智能的文本处理能力。
- 高自然度的节奏和韵律预测。
- 灵活的播放调节功能和多种特殊效果,可自由调节语速、音调。
- 高品质的语音合成效果。
- 灵活的系统架构,有良好的扩展性。
-
机器翻译
Machine Translation机器翻译((Machine Translation 简称MT),利用电子计算机等装置,按照一定的程序将一种语言文本(源语言)转换成另一种语言文本(目标语言)。
- 应用基于Transformer的神经网络技术,搜集大规模语料多次训练,翻译品质较好。
- 支持在线学习优化,主动学习用户修改纠正后的结果。
- 支持英日韩等多达200+个语言与中文互译,覆盖全球主流语种,覆盖“一带一路”及联合国所有官方语言。
- 支持API方式接入,提供文本翻译、标签处理、多格式翻译等7项开发接口。
- 提供多个翻译插件,可应用与WPS、Office等软件中,赋予软件更强大的机器翻译能力。
-
计算机视觉
Computer Vision计算机视觉(Computer Vision)用计算机代替人眼对目标进行识别、跟踪和测量,使计算机能像人那样通过视觉观察和理解世界。
- 人脸识别关键技术:复杂环境下高动态活体人脸检测算法,基于人脸关键点定位实现人脸区域的标准化预处理,减少了复杂环境因素对人脸特征提取的干扰,有效融合局部细节特征与全局整体特征,最后对活体特征实现准确分类。
- 自然监控视频中的对象、行为识别:以视觉AI分析场景化模型为基础,利用深度学习等方法,实现目标检测与跟踪、目标识别、对象行为动作分析,并针对应用场景综合优化,实现目标识别及异常行为检测。