应用领域
语音识别将声音转换成文本和命令,从而达到语音输入、语音控制的目的。随着各种电子产品、移动产品的大量涌现,利用语音识别技术可以大大改善人机交互的方式。嵌入式语音识别技术,可以应用于多种基于Windows、WinCE、Linux等的应用系统、移动设备,可以通过语音来达到控制、查询和有限输入等“声控”目的。
为顺应市场的潮流和推动语音识别技术的产业化,自动化所专门针对各种电子产品和移动电子产品,开发了一套基于连续语音识别技术的可变词汇、非特定人、命令词语音识别引擎 Pattek ASR/ESR, 这是一个具有良好接口的语音识别SDK引擎,该引擎在各种噪声环境、各种口音下,识别率具有稳定的识别率,且支持汉语、英语以及混合语言,支持Push-to-talk, Click-to-talk 和全声控等多种工作模式的应用。
Pattek ASR3.0/ESR主要特性
1、 用户无需实现训练,为说话人无关系统,具有很好的抗口音能力;
2、 识别准确率高,在常规语音拨号词表下(500左右)首选识别率可以达到95%;
3、 卓越的抗噪性能:在大街上和汽车内等嘈杂的环境下仍能保持实用化的准确率;
4、 占用系统资源少:系统程序空间98K,运行空间100K,模型空间270K,总共约475K;
5、 能可以实现真正的Hand free操作,人与麦克风只要保持在30cm距离,系统都能正常工 作;
6、 系统在要求下处于监控状态,能主动抓住系统所需要辨识的关键词和句型,而有效地拒绝非关键词和非定义句型;
7、 句型可以由用户自行定义;
8、 支持多个词表之间的切换和增词、减词功能;
9、 任意提供多个识别候选,提高二次交互的准确率等;
10、 具有良好的识别操作实时性,识别可以实时完成;
11、 系统具有良好的实用性,可以在各种环境中使用,识别效果良好;
12、 产品代码极其优化,占有很少的存储空间和运行空间。
Pattek ASR3.0/ESR主要性能指标
Pattek ASR3.0/ESR嵌入式系列识别引擎采用标准C语言编写,支持移植到任何第三方操作系统,实现强大的语音人机交互功能。已经实施移植过的支持的操作系统包括微软的WM5、PPC2002、2003,SmartPhone2002、2003等;Symbian联盟的Symbians60,嵌入式Linux如移软Mphone系统、博动OPNA系统,类Linux环境Nucles,低端运行环境REX,基带专用系统MTK等。
Pattek ASR3.0/ESR 引擎可以根据CPU的性能特点进行裁减,在超过20MIPS运行能力的芯片上均可正常运行。如Intel的Xscale,PXA, TI的OMAP和TMS-54x/55x DSPs AD,高通的基于ARM9的5500系列,Philips Dragon Fly,展讯的6600M系列,MTK 62系列, ARM7/ARM9,BroadCOM等。下表为主要参数:
|
|
内容描述 |
缺省支持 |
扩展支持 |
|
录音数据 |
采样率 |
8k |
16k等,可定制 |
|
数据表示 |
16bit |
支持采样精度10-16bit |
|
通道数 |
单声道 |
|
|
最大录音时间 |
3秒 |
可定制 |
|
识别命令集 |
词编码 |
GB2312 |
Unicode等 |
|
词形式 |
汉字、数字、拼音 |
英语 |
|
命令集最大个数 |
2 |
可定制 |
|
命令集名称最大长度 |
10 |
可定制 |
|
RAM资源 |
分配方式 |
动态分配、静态分配 |
|
|
ASR初始化内存 |
13k |
|
|
ASR词表内存 |
3-4k(每100词) |
|
|
ASR一次识别过程所需内存 |
63k(识别完释放) |
可调整 |
|
TTS内存 |
5k(一次支持20汉字) |
可定制 |
|
ROM资源 |
ASR程序(lib库) |
72k |
平台相关、优化 |
|
TTS程序 |
80k |
平台相关、优化 |
|
ASR数据 |
283k |
优化 |
|
TTS数据 |
671k |
优化 |
|
识别速度 |
20MIPS CPU、通常词表 |
不超过2倍实时 |
平台相关 |