语音识别技术

语音识别(Automatic Speech Recognition 简称ASR)将连续语音内容自动转换成文本,让机器轻松听懂人类的语音。
技术特点:

  • 从人的听觉感知及发音机理等现有基础研究成果出发,分析提取具备抗噪性、鉴别性、互补性的特征参数。
  • 采用PLP/CMN /HLDA/ VTLN/高斯化等特征提取和处理技术;采用基于深度神经网络DNN的声学建模技术,适应用户自然口语发音特点。
  • 采用基于WFST的Cross-word静态搜索空间构建方法,有效地单遍集成发音词典、声学模型、语言模型等多种知识源,达到高效的识别速度。
  • 采用模型自学习技术,适应多种地区的用户口音。

语音合成技术

语音合成(TextToSpeech 简称TTS)将文本信息转化成语音信息,让机器像人类一样能说会道,支持多语种、多领域语音合成。
技术特点:

  • 使用海量文本语料的自然语言理解技术。
  • 口语对话风格技术。
  • 通用的基于模型指导的音素拼接,提升自然度和音质。
  • 大规模录音语料库的统计声学建模。

自然语言理解技术

自然语言理解(Natural Language Understanding,简称NLU)根据说话人说的文本内容判断说话人的意图,正确理解语音中所包含的要求,做出正确的应答,实现人机对话。
技术特点:

  • 把语义理解/业务分类看成是一个关键信息提取的过程,通过最大熵模型/条件随机场模型来实现。
  • 使用多种上下文特征;基于字的统计序列标记策略;多种措施保证理解和分类的鲁棒性。
  • 在统计框架中利用领域知识;具备自学习能力、领域扩展能力。
  • 实现了语音识别和语义理解技术的紧密结合。
  • 分类准确率高,分类速度快,可满足高负荷应用环境。

声纹识别技术

优浪拥有完全自主知识产权的声纹识别(Voiceprint Recognition,简称VPR)技术,该技术能根据语音中声纹特征,来自动判断说话人身份。
技术特点:

  • 采用国内领先的基于稀疏概率线性判别分析的声纹识别技术。
  • 声纹识别与用户所说的文本和语言无关。
  • 声纹识别速度快,能确保实时识别。
  • 模型存储空间小, 每个人的声纹模型存储空间小于100KB。
  • 操作点参数调整方便,可按不同的应用需求调整操作点阈值。
  • 高安全性,不必担心他人的录音顶替使用。

语种识别技术

语种识别(Language Identification,简称LID)在语音中自动判定待识别语音的语种类型。
技术特点:

  • 与发音人无关,与传输信道无关。系统对用户的输入声音进行鉴别和确认,可以来源不同的信道。
  • 对语音长度有一定的要求。待识别的测试语音有效长度不小于3秒。
  • 识别速度快,能确保实时识别。说话人识别引擎每次一对一比对,在普通PC上具有0.01倍以上的实时率,并且支持多路并发识别。
  • 操作点调整方便,可按不同的应用需求调整操作点阈值。

关键词检出技术

关键词检出(Key Word Spotting,简称KWS)在连续语音流里面自动检测出用户关心的关键词、敏感词。
技术特点:

  • 关键词检测引擎与说话人无关。支持自然对话语音(如:电话聊天,广播电视访谈等)。
  • 支持电话信道、广播电视信道、互联网信道等各类信道数据。
  • 关键词列表可由用户自主定义和修改。
  • 检测结果不但包含关键词在语音流或音频文件中出现的位置,还包括相应的置信度得分。
  • 引擎处理速度快,核心算法支持海量并行处理。适应于大规模语音数据的自动检测。
  • 操作点调整方便,可按不同的应用需求调整操作点阈值。

固定音频检索技术(音频DNA)

固定音频检索根据音频模板片段,从海量语音中快速搜索并找到与音频模板一致或者相似的音频片段所在的位置。
技术特点:

  • 每小时的音频生成1.2M大小的音频特征。
  • 音频搜索需要的内存与音频库的大小成正比,每小时音频需要3.6M的内存。
  • 对于任意编码格式和编码速率的音频,识别正确率在95%以上。
  • 需要搜索的音频只需要3秒到5秒左右。

情绪识别技术

情绪识别通过分析用户说话时的语音波动来判断用户的情绪状态。
技术特点:

  • 基于基频、段长、语调、语速、音量等多维声学特征,进行统计建模和分析,实现针对客服语音的声学层情绪分析。
  • 基于语音转文本和关键词检索的结果,提取相关语义特征,进行语义层用户情绪的建模和分析。
  • 基于声学层情绪分析和语义层情绪分析的结果,进行用户情绪的综合分析判别,得到最终分析结果。
  • 识别准确率高,识别速度快。

音频水印技术

在数字化的多媒体数据中嵌入隐蔽的音频信息标记,隐蔽性强,安全性高。
技术特点:

  • 不因数据文件的某种改动而导致隐藏信息丢失。
  • 经过隐藏处理,使目标数据没有明显的降质现象,而隐藏的数据却无法人为地看见或听见。
  • 隐蔽载体与原始载体具有一致的特性,使非法拦截者无法判断是否有隐蔽信息。
  • 隐藏算法有较强的抗攻击能力,使隐藏信息不会被破坏。
  • 只从留下的片段数据,仍能恢复隐藏信号,而且恢复过程不需要宿主信号。
  • 根据多媒体信息的类型和几何特性,利用用户提供的密钥将水印隐藏到一系列随机产生的位置中,使人无法察觉。
  • 嵌入的水印信息足以表示多媒体内容的创建者或所有者的标志信息,或是购买者的序列号。

机器翻译

支持以中文为核心到其他多种语言的互译,其中包括英语、日语、韩语、维吾尔语。
技术特点:

  • 能够对词汇、短语片段、句子的进行错误纠正。
  • 翻译效果好,通过增量式训练,可以不断学习新的翻译知识、扩大模型规模。
  • 翻译速度快,能够处理海量数据的翻译任务。
  • 简明的翻译API接口,方便用户集成。