语音识别技术的相关信息

语音识别技术的相关信息,第1张

语音识别的研究工作大约开始于上世纪50年代,当时AT&T的Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

20世纪60年代,计算机的应用推动了语音识别的发展。这一时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

20世纪70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

20世纪80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T的Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。采用ANN和HMM模型建立的语音识别系统,性能相当。

进入20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

我国语音识别研究工作一直紧跟国际水平,国家也给予了高度重视。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

语音识别系统可有不同的分类方式。

(1)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。

(2)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

(3)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取等问题。

随着AI快速发展的今天,语音识别也成为众多设备的标配,语音识别开始被越来越多人的关注,国外微软、苹果、谷歌,国内的科大讯飞、思必弛、云知声等厂商都在研发语音识别新策略新算法,似乎人类与语音的自然交互渐行渐近。

语音识别是以语音的研究为对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。

一套完整的语音识别系统,工作过程分为7步:

1对语音信号进行分析和处理,除去冗余信息。

2提取影响语音识别的关键信息和表达语言含义的特征信息。

3紧扣特征信息,用最小单元识别字词。

4按照不同语言的各自语法,依照先后次序识别字词。

5把前后意思当作辅助识别条件,有利于分析和识别。

6按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。

7结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正

语音识别是计算语言学的跨学科子领域,利用其开发方法和技术,能够通过计算机识别和翻译口语。也被称为自动语音识别技术(ASR),计算机语音识别或语音到文本(STT)技术。它融合了语言学、计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“注册”),其中个体说话者将文本或孤立的词汇读入系统。该系统分析该人的特定声音,并使用它来微调对该人语音的识别,从而提高准确性。不使用训练的系统被称为“说话者无关”[1]系统。使用训练的系统被称为“说话者相关”。

语音识别应用包括语音用户界面,例如语音拨号(例如“呼叫总部”)、呼叫路由(例如“我想打对方付费电话”)、多用户设备控制、搜索(例如找到说出特定单词的播客)、简单的数据输入(例如输入信用卡号码)、结构化文档的准备(例如放射学报告)、确定说话者特征,[2]语音到文本处理(例如文字处理器或电子邮件)和飞机(通常称为直接语音输入)。

术语 voice recognition[3][4][5]或者speaker identification[6][7]指的是识别说话者,而不是他们在说什么。识别说话人可以简化为在已经对特定人语音训练的系统中翻译语音的任务,或者作为安全过程的一部分来验证说话人的身份。

从技术角度来看,语音识别有着悠久的历史,并且经历了几次重大创新浪潮。近年来,该领域受益于深度学习和大数据技术的进步。这些进步不仅体现在该领域发表的学术论文激增上,更重要的是体现在世界范围内的各行各业在设计和部署语音识别系统时均采用了各种深度学习方法。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7585014.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存