一文看懂语音合成：模拟人类语言，暗藏哪些商机？2024年_知识

语音合成技术给我们带来了很多惊喜，你知道自己每天都在与它们打交道吗？而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商用，其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。

婴儿牙牙学语，男女互诉爱意。在肺部、气管和声带的共同作用下，声音出现，喉内肌肉协调作用下，我们说出能够代表自己想法的字符，再赋予其愤怒或喜悦或悲伤的情感，人类的语音就此形成。

18世纪末，一个因土耳其行棋傀儡的骗局将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦，花费了人生最后20年的时间，试图模拟人类的语音。他做了一个布满孔洞的空箱，空箱连接着一个奇异形状的鼓风机，鼓风机被压动后将使得内置的簧片振动，这一过程模拟了人类的发声，也确实发出了声音，而这也成就了人类最早的语音合成机械之一。

让机器更像人类，是无数科学家的梦想。这样的梦想被多方位的推进，从机器的外形上、内核的思考运算上，以及对外表达的说话上。

如今，电子设备取代了空盒子，算法则比簧片更能够协调发声。在技术发展下，声音的波动被计算机捕捉、计算、指引，最终发出声音。这一项带着前人梦想的技术，不再单单出现在**和小说里，也承载起了巨大的市场走进千家万户，这就是语音合成。

从Siri开始的热潮，语音合成潜力无限

同时，Siri的热潮也拉开了语音合成技术运用的大门。

2014年微软推出了"小娜"与"小冰"，这是将Siri所拥有的语音识别技术及语音合成技术分开来，小娜负责理解复杂的口语指令并进行执行，而小冰主要能够和人类友好地聊天。

随后，这样的运用逐步增多：2014 年底，亚马逊发布了 Echo 智能音箱，语音助理 Alexa也随之亮相；一年半后，Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。

国内的巨头也不遑多让，京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱，也纷纷进入了国人的家居生活。

Siri的热潮同步开启的，不仅仅是语音合成技术在硬件上的应用，也包括一系列更具想象力的交互场景，带来了巨大的商机。

2015年春节，本就搭载了语音导航的高德地图与郭德纲合作，推出了高德地图欢笑版。用户打开高德地图，不仅能够听到导航播报，还能听到郭德纲的极具特色的段子。这一次尝试，让高德地图一度跃至苹果App Store榜单第2名。

在今年新冠肺炎疫情期间，"宅经济"大行其道，"听书"市场也快速爆发，有声阅读成为新的阅读潮流。

除此以外，短视频中的AI配音，让视频内容者省去大量配音时间；对已故知名艺人的声音采集，实现过去与现在的交互，圆了一代粉丝的梦想……

我们可以看到，语音合成技术的未来拥有巨大的想象空间，根据赛迪智库数据，预计到2021年智能语音市场规模将达195亿元。在这其中，智能语音就由语音识别技术（ASR）和语音合成技术（TTS）共同组成。

而这两项技术也正在被头部企业迅速推进，市场之下，语音合成已经不仅仅代表人类过去的梦想，更是代表着更"大一统"的科技格局，毕竟，这一技术改变着人类与机器的交互方式，也将改变未来人类的机器使用习惯，代表着全新的机会与入口。

从过去到现在，语音合成技术一览

1773年，俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦（Christian Kratzenstein）制造了一个特别的设备，通过共鸣管和风琴管的连接，几乎可以完美的发出 a、e、i、o、u 这五个元音。

十多年后，前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后，多位发明家基于这一机器进行改进，都是试图通过物理机模拟人说话发音。

这样的尝试已经令人难以想象，不过，即使这样的物理机发展得登峰造极，也无法模拟出我们说出的每一个音节、无法拥有人说话的音质，也无法停顿、无法带有情绪。

因此，另一种方式出现——拼接系统，让说话人录制语音存入系统，在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声，虽然拼接处的瑕疵难以消除，但是随着如今大数据时代的来临，大语料库的出现，让拼接出的语音逐步真人化，直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时，对语音的识别不再是识别一个简单的词和短词组，而是基于统计的方法，运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知，最终给到用户最高可能性的连接。在这其中，典型的模型是隐含马尔可夫模型（HMM），用来描述如何在可变长的时序特征序列上打词标签。

2017年3月，行业的引领者Google 提出了一种新的端到端的语音合成系统：Tacotron。端到端语音合成是在参数合成技术上演进而来的，把两段式预测统一成了一个模型预测，即拼音流到语音特征流的直接转换，省去了主观的中间特征标注，克服了误差积累，也大幅度提高了语音合成的质量。

然而，为了实现真正像人一样的发音，语音合成系统必须学会语调、重音、节奏等表达因素，这一问题，Tacotron也并未解决。

谷歌曾共享了两篇新论文试图解决这一问题，第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"（prosody embedding）的概念。论文中为 Tacotron 增加了一个韵律学编码器，该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开，并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下，学习的不再是时间对齐的精确的韵律学元素，而是较高层的说话风格模式，并且可以迁移于任意不同的短语之中。

如果论文提到的模型实现，那么我们便可以迫使 Tacotron 使用特定的说话风格，不需要参考语音片段，并能创造出语音长度多样化的不同语句，并带有情绪。

在不远的将来，或许我们就将听到，来自机器的人类声音。

国内：积极商用，进展瞩目

在语音合成的重要研究中，因为国内起步较晚，所以我们很少看到突破性的技术发展。但是，即便停留在艰难的探索初期，巨头们之于语音合成仍旧趋之若鹜。

我们也惊喜地看到，不少企业在近期通过语音合成的商用落地，展现出了自己的技术实力。

① 京东数科：AI主播"小妮"上岗

京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀，在2018年就开始组建机器人的团队，研究覆盖生命科学、传感器材料乃至运动力学与人机交互。

在全面的机器人开发体系下，今年5月，京东数科推出了令人瞩目的AI主播"小妮"，这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的，在听感、表情、头部动作乃至口型上，小妮都极像真人。从文字到语音，小妮通过自研的轻量级对抗语音合成技术进行转化；而小妮特色鲜明的声音及极具真实性的呼吸和停顿，则是来源于在多人数据上结合深度神经网络进行个性化建模……

更为重要的是，小妮的出现打通了语音、图像、视频，在语音生成视频的阶段，她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。

而除了主播领域以外，AI虚拟数字人还可以用智能客服及招聘领域。在未来，我们可以预见到，AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展，或许也将出现超乎我们想象的AI运用。

② 科大讯飞：为多家企业提供底层技术支持

早在之前，科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年，来自科大讯飞地一款彩色墨水屏阅读器正式面世，一方面，阅读器可以进行常见的新闻播报、语音读书，满足用户的基础要求；另一方面，阅读器结内置了神秘AI主播，可以对话用户、助力用户解决问题。同时，科大讯飞也为多家企业提供底层技术支撑，覆盖智能手机、智能汽车等多个领域。

③ 腾讯云：语音累计音色种类达24种

而对于拥有国内最大流量池——微信、QQ的腾讯而言，这家企业则选择为内容创业者提供服务。

今年9月，腾讯云语音合成团队正式开放面向全量用户的合成音频平台，该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用，用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时，腾讯云还发布了全新地11种音色，其中甚至包括粤语这样的方言在内，目前累计音色种类达24种。

④ 百度：百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度，在语音合成上的推进也不容小觑。

去年，已经开放三年的百度发布了语音引擎。这是一套非常全面的系统，覆盖内容非常广泛，包括硬件模组、开发板以及语音交互场景解决方案等。在这其中，百度也专门围绕语音合成的成功进行了发布，推出了6个在线语音合成精品音库和5个离线语音合成精品音库。

未来语音合成将更接近人类的语言

立足现在，我们不禁畅想，未来的语音合成将是什么样，又将出现在哪些地方？

在技术上，毫无疑问，未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成：文本分析、韵律生成和合成语音，而在这三方面，行业的发展都还有待提高。

在这其中，韵律生成是行业面临的共同问题，如何可以让语音合成更像人类？更具表达力？作为声学模型，还有大量个性化、情感化的变化因素需要学习。而值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广度地运用。我们也相信，随着大量语料的有效使用，这一切问题也都将解决，未来，语音合成必将更加"传神"。

而随之而来的，我们的生活也将被改变。

一方面，在科技带来革新的同时，传统也将受到冲击。在上文中，小妮被运用与客服以及招聘的部分环节，那么很明显，在不远的未来，具有重复性的语音性质的工作将受到巨大影响。

而另一方面，更为智能的未来也将到来，在将来，人与机器的交互方式或许将被彻底改变，到那时，全新的商业机会也将藏于其中。

为了迎接这一时代，巨头趋之若鹜，而普通人也同样该砥砺前行。

#智能语音##语音合成#

不错的。

普通话三分钟命题评分细则：

（1）语音标准程度，共25分。分六档：

一档：语音标准，或极少有失误。扣0分、1分、2分。

二档：语音失误在10次以下，有方音但不明显。扣3分、4分。

三档：语音错误在10次以下，但方音比较明显；或语音错误在10次-15次之间，有方音但不明显。扣5分、6分。

四档：语音错误在10-15次之间，方音比较明显。扣7分、8分。

五档：语音错误超过15次，方音明显。扣9分、10分、11分。

六档：语音错误多，方音重。扣12分、13分、14分。

（2）词汇语法规范程度，共10分。分三档：

一档：词汇、语法规范。扣0分。

二档：词汇、语法偶有不规范的情况。扣1分、2分。

三档：词汇、语法屡有不规范的情况。扣3分、4分。

（3）自然流畅程度，共5分，分三档：

一档：语言自然流畅，扣0分。

二档：语言基本流畅，口语化较差，有背稿子的表现。扣05分、1分。

三档：语言不连贯，语调生硬。扣2分、3分。

（4）说话不足3分钟，酌情扣分：缺时1分钟以内（含1分钟），扣1分、2分、3分；缺时1分钟以上，扣4分、5分、6分；说话不满30秒（含30秒），本测试项成绩计为0分。

（5）离题、内容雷同，视程度扣4分、5分、6分。

（6）无效话语，累计占时酌情扣分：累计占时1分钟以内（含1分钟），扣1分、2分、3分；累计占时1分钟以上，扣4分、5分、6分；有效语料不满30秒（含30秒），本测试项成绩计为0。

注：本细则参考自《普通话水平测试专用教材》。

情感语录扎心伤感语音

情感语录扎心伤感语音，在这个广阔的世界上，并不是所有人都能够走到终点，然而缘分也分深浅，当缘分抵不过时间的考验时，两个人始终都要分开，就像是两条相交的线，一起欣赏情感语录扎心伤感语音的内容。

情感语录扎心伤感语音1

世上最心痛的距离，不是你冷漠的说你已不在意，而是你放手了，我却永远活在遗憾里，不能忘记！

人们都说失去后才知道珍惜，其实珍惜后的失去比什么都痛。

有时候，不小心知道了一些事,才发现自己所在乎的事是那么可笑。

通常，每一个内心强大的女人背后都有一个让她成长的男人，一段让她大彻大悟的感情经历，一个把自己逼到绝境最后又重生的蜕变过程。

有些人一直没机会见，等有机会见了，却又犹豫了，相见不如不见。

有些事一直没机会做，等有机会了，却不想再做了。

有些话埋藏在心中好久，没机会说，等有机会说的时候，却说不出口了。

有些爱一直没机会爱，等有机会了，已经不爱了。

有些路，注定要一个人走，即使再坎坷，也不吵不闹，更不会流泪。

你不能去强迫别人来爱自己，只能去努力让自己成为值得爱的人，其余的事情则是靠缘分。

世上最心痛的距离，不是我活在遗憾里，不能忘记，而是你始终不懂我的悲哀，不明白我内心的孤寂！

有多少我爱你，最后成了对不起。有多少对不起，最后都是没关系。有多少没关系，最后说了谢谢你。

你看，悲伤的爱情也有悲伤的美丽：从我爱你开始，到对不起结束。从没关系再见，到谢谢你爱过。爱情复杂至极却也简单到死，也不过是：我爱你~对不起~没关系~谢谢你。

上天不给我的，无论我十指怎样紧扣，仍然走漏；给我的，无论过去我怎么失手，都会拥有。

很多时候，我们说放下了，其实并没有真的放下，我们只是假装很幸福，然后在寂静的角落里孤独地抚摸伤痕。

有时候，我们就像鱼缸里的鱼，想说的很多，一开口就化成了一串省略号。。。。。。最后都默默的留在了心里。。。

思念就像无法说出口的“我想你” 看不见摸不着却压在心底最难受。

有些话你不经意的说出了口，我却认真的难过了好久，只是因为我在乎你。

说再见的人，往往在下一秒钟就能重新遇见；而那不曾说过再见的人，也许就走出彼此生命就是永远。

世上最心痛的距离，不是你不懂我的悲哀，不明白我的孤寂，而是我即使痛彻心扉，也不能放声哭泣！

有时候觉得“可我就是喜欢你”比"要是你喜欢我就好了"更加悲凉。

时间不是让人忘了痛，而是让人习惯了痛。

情感语录扎心伤感语音2

抖音情感语录扎心语录

1、当所有人都以为我过得风生水起的`时候，我只是一个人走了一段又一段艰难的路。

2、我们可不可以像那场雪，一起飘，一起落，一起走到最后。

3、我们都在时光里跌跌撞撞地成长，然后一点点离开最初的模样。

4、我没有刻意的想你，只是这风不太像话，吹过街道然后跋山涉水，带来了一缕你的味道。

5、那个让我怦然心动的瞬间是真的，现在惊不起一丝波澜也是真的。

6、故事的开头总是这样，适逢其会，猝不及防。故事的结局总是这样，花开两朵，天各一方。

7、爱情里最心酸的，莫过于分开后，我瞒着所有人继续爱你。

8、一个人在变得铁石心肠之前，也曾付出了全部的温柔和善意吧。

9、好多话忍着憋着后来就懒得说了，好多事失望多了后来就不在意了。

10、距离之所以可怕，是因为你根本不知道对方是把你想念，还是把你忘记。

11、一个人生活久了，遇到点温暖，那颗假装孤傲的心，便会溃不成军。

12、过去的人就像是氧化了的苹果，你记得当初有多美好，却恢复不了当初的面貌，所以别频频回头。

13、说好今年冬天下雪你就来看我，可谁知道雪还没下，我们却再也不会相见了。

14、你原本只是我生命中的过客，后来却成了记忆的常客，只是我再也不会为一个人哭到沙哑。

15、明知道你对每个人都是如此，我却偏偏不知死活的动了心。

16、择其所爱，爱其所择，前四个字是前半生，后四个字，便是余下的岁月了。

17、认识我的人以为我很静，了解我的人以为我很疯，只有懂我的人才知道其实我很忧伤。

18、这世上没有无缘无故的爱，也没有无缘无故的的恨，突如其来的脾气，往往是积攒很久了的委屈。

19、有时候觉得自己像个神经病。既纠结了自己，又打扰了别人。

20、你过你的生活就好，安静的住在我心里就好。不打扰，是我爱你最后的方式。

21、你一定没有过注意过我满脸微笑说不介意时眼里的绝望。

22、我会脆弱，我不坚强，我经不起来来回回的辜负，扛不住反反复复的背叛。

23、广告总是在最精彩的时候出现，你总是在我爱的最深的时候离开。

24、我真怕我给你的是心，你还我的是刀子。友情也好，爱情也罢。

25、先红了脸，后来红了眼。终究不过一场梦，梦醒，各自南北。

26、一起的时候需要两个人做决定，分开时只需一个人。

27、世界上最心痛的感觉，不是失恋，而是我把心给你的时候，你却在欺骗我。

28、白了满头青丝，染了一身顽疾，终未遇见你归期。

当您心情不好时，以下是一些建议的语音内容：

"我知道现在可能感觉很糟糕，但请相信自己有能力度过这个困难时期。每个人都会遇到低谷期，关键是要勇敢面对并寻求支持。"

"试着将注意力从负面情绪转移到积极的事物上。想想那些让您感到幸福和满足的时刻，或者计划一个让自己愉快的活动。"

"与亲朋好友分享您的感受。他们可能会给您提供支持、安慰和建议。有时候，仅仅说出自己的烦恼就能让心情变得更好。"

"尝试进行深呼吸练习或冥想。这可以帮助您放松身心，减轻压力和焦虑。"

"保持健康的生活习惯，如规律作息、均衡饮食和适量运动。这些都有助于改善心情。"

"给自己设定一些短期目标，逐步实现它们。这会让您感受到成就感，并帮助您重新找回自信。"

"最后，请记住，心情不好的日子总会过去。相信自己具备应对挑战的能力，并保持乐观的心态。"

这些建议仅供参考，您可以根据自己的实际情况调整语音内容。希望这些建议能对您有所帮助。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7737715.html

一文看懂语音合成：模拟人类语言，暗藏哪些商机？

发表评论

评论列表（0条）