语音情感识别和脸部情感识别相比,各有哪些优势?2024年_知识

语音情感识别和脸部情感识别相比,各有方便、技术成熟、直观、难以伪造的优势。语音识别技术的应用通常是在人机交互上，让机器通过是被和理解语音信号之后转化为相应的文本和命令然后进行执行。人脸识别网络技术使用通用的摄像机作为识别数据信息资源获取装置，以非接触的方式在识别研究对象未察觉的情况下完成识别发展过程。语音情感识别和脸部情感识别各具有以下优势：

1、语音情感识别优势。和脸部情感识别技术相比，语音识别技术的优势似乎更加明显，语音识别技术不会遗失和忘记数据，不用记忆，在应用的时候也比较方便。语音识别技术比较成熟，用户的接受度也很高，声音输入设备造价也很具有优势，在隐私问题上，语音识别技术也比较有保障，所以推广使用还是很有市场的。

2、脸部情感识别优势。人脸识别系统使用可以方便，人脸识别技术是以人脸图像为基础的，最直观的信息来源，便于人工确认和审核。人脸识别技术是独一无二的，与语音情感识别技术相比，人脸识别技术具有准确率高、难以伪造、误识别率和拒识率低的特点。

你好！很高兴为你解答:1、你这个问题属于科技社会学，或者科学伦理学，我比较适合来回答。

2、让我们把目光投向美国加州，看下TOP AI实验室围绕深度学习、人脑、情绪正在干什么。然后我们再分析世界会怎么样。

A：2014年，谷歌收购一家公司叫Deepmind这家公司有个AlphaGo，下围棋打败了李世石；还有个AlphaStar，没黑没白打游戏，打败人类职业选手。还有个AlphaFold,是预测基因（蛋白质）结构的，因为科学家需要知道那些蛋白质错误的折叠，导致了一些疾病，比如帕金森、阿尔兹海默氏症，并寻找到有效的药物。另外，科学家可以改造细菌的基因工程，来消灭污染垃圾等。

Deepmind不能赚钱，很烧钱。六年过去了，Alphago和AlphaStar,AlphaFold没啥大突破。近期，Deepmind启动了一个智能生物体，或者叫人工生命的概念。实现什么功能呢？比如机器人可以通过组装碎片快速复制自己，建造一个机器人集群。

在这些近期的论文中，有一个词语叫“注意力机制”。attention！好莱坞**战争片经常这么喊，立正！但这里不是立正。

比如天空飞过去一只鸟儿，你的注意力追随着小鸟，天空在你的视觉系统中，就成为了一个背景（background)信息。计算机视觉中的注意力机制（attention)的基本思想，就是想让AI学会注意力，能够忽略无关信息而关注重点信息。

这个系统没有学习到人类的情感，但它在学习忽略一些东西，这是一种算法机制。

B：好了，钢铁侠该出场了。

马斯克认为谷歌的Deepmind在胡搞，AI很危险，人类早晚要吃AI的亏。你不听？那我也成立一个AI深度学习实验室，与你们的AI抗衡。2015年，他和孵化器Y Combinator总裁山姆·奥特曼（Sam Altman）创立了OpenAI,召集了一批投资人。不为挣钱，只烧钱。2019年，微软主导了OpenAI

OpenAI开发的系统也打游戏，秒杀人类选手，这个不说了。有点新鲜的本领是，能够通过一段文字生成，会根据文字给你温馨的、冷酷的、蠢萌的、抽象的各种风格的。比如，他可以给我搭配一周七天的穿衣搭配，根据我的七天行程表需要出现场合的不同来提供最好的选择。

当然，这个系统还不会开玩笑、恶作剧、撒谎。

马斯克离开了OpenAI, 专注于他的脑机接口公司，Neuralink。呃，抱歉，他也不专注。他还有特斯拉、SpaceX、无聊的高速胶囊火车挖洞公司、光伏瓦片公司。

近期刚推出一个硬件，硬币大小，可以植入头骨，读取或改写脑电波信息，也就是脑机交互。

回到这个问题上来，当AI有了人类的情感，那么在此之前，它首先要读懂情绪、表情、情感，深度学习情感，然后才是运用它。表达愤怒、怜悯，撒谎，表现出恐惧或高傲。

马斯克仅仅是一个开始。

C：再列举北京、杭州实验室AI识别人类情绪的实践了。中国也没闲着，反而比加州这几个实验室更聪明。加州这几个实验室是亏钱，看着风光，巨量窟窿，因为这些技术没人买单。中国几大实验室通过数字政务、数字交通、数字医疗、AI教育、AI司法、AI警务获得足够的资本来支撑技术研发。

3、好，世界会变得怎么样？

转基因技术备受争议，但中国是全球最大转基因农作物种植国和消费国。

大数据技术备受争议，中国是全球大数据商业应用最发达最成功的市场和国家。

AI依靠快速的学习，很快会掌握撒谎、作弊、欺诈、虚伪等人类独有的情感技能，学会表达关怀、体贴、严厉、冷酷等情感，并走进各种应用场景。但这只是AI应用的九牛一毛，并且人类会制定各种规则，防止AI情感世界中可能的欺诈与恶行。

但是，不谈AI，人类社会现在消灭欺诈与作恶了吗？没有。一个机器人欺骗我与一个人欺骗我，哪个更可怕？暂且不知道。

4、科技是工具，人类在进步，不会被机器奴役。

人们期盼着能拥有并使用更为人性化和智能化的计算机。在人机交互中，从人操作计算机，变为计算机辅助人；从人围着计算机转，变为计算机围着人转；计算机从认知型，变为直觉型。显然，为实现这些转变，人机交互中的计算机应具有情感能力。情感计算研究就是试图创建一种能感知、识别和理解人的情感，并能针对人的情感做出智能、灵敏、友好反应的计算系统。

情感被用来表示各种不同的内心体验（如情绪、心境和偏好），情绪被用来表示非常短暂但强烈的内心体验，而心境或状态则被用来描述强度低但持久的内心体验。情感是人与环境之间某种关系的维持或改变，当客观事物或情境与人的需要和愿望符合时会引起人积极肯定的情感，而不符合时则会引起人消极否定的情感。

情感具有三种成分：⑴主观体验，即个体对不同情感状态的自我感受；⑵外部表现，即表情，在情感状态发生时身体各部分的动作量化形式。表情包括面部表情（面部肌肉变化所组成的模式）、姿态表情（身体其他部分的表情动作）和语调表情（言语的声调、节奏、速度等方面的变化）；⑶生理唤醒，即情感产生的生理反应，是一种生理的激活水平，具有不同的反应模式。

概括而言，情感的重要作用主要表现在四个方面：情感是人适应生存的心理工具，能激发心理活动和行为的动机，是心理活动的组织者，也是人际通信交流的重要手段。从生物进化的角度我们可以把人的情绪分为基本情绪和复杂情绪。基本情绪是先天的，具有独立的神经生理机制、内部体验和外部表现，以及不同的适应功能。人有五种基本情绪，它们分别是当前目标取得进展时的快乐，自我保护的目标受到威胁时的焦虑，当前目标不能实现时的悲伤，当前目标受挫或遭遇阻碍时的愤怒，以及与味觉（味道）目标相违背的厌恶。而复杂情绪则是由基本情绪的不同组合派生出来的。

情感测量包括对情感维度、表情和生理指标三种成分的测量。例如，我们要确定一个人的焦虑水平，可以使用问卷测量其主观感受，通过记录和分析面部肌肉活动测量其面部表情，并用血压计测量血压，对血液样本进行化验，检测血液中肾上腺素水平等。

确定情感维度对情感测量有重要意义，因为只有确定了情感维度，才能对情感体验做出较为准确的评估。情感维度具有两极性，例如，情感的激动性可分为激动和平静两极，激动指的是一种强烈的、外显的情感状态，而平静指的是一种平稳安静的情感状态。心理学的情感维度理论认为，几个维度组成的空间包括了人类所有的情感。但是，情感究竟是二维，三维，还是四维，研究者们并未达成共识。情感的二维理论认为，情感有两个重要维度：⑴愉悦度（也有人提出用趋近-逃避来代替愉悦度）；⑵激活度，即与情感状态相联系的机体能量的程度。研究发现，惊反射可用做测量愉悦度的生理指标，而皮肤电反应可用做测量唤醒度的生理指标。

在人机交互研究中已使用过很多种生理指标，例如，皮质醇水平、心率、血压、呼吸、皮肤电活动、掌汗、瞳孔直径、事件相关电位、脑电EEG等。生理指标的记录需要特定的设备和技术，在进行测量时，研究者有时很难分离各种混淆因素对所记录的生理指标的影响。情感计算研究的内容包括三维空间中动态情感信息的实时获取与建模，基于多模态和动态时序特征的情感识别与理解，及其信息融合的理论与方法，情感的自动生成理论及面向多模态的情感表达，以及基于生理和行为特征的大规模动态情感数据资源库的建立等。

欧洲和美国的各大信息技术实验室正加紧进行情感计算系统的研究。剑桥大学、麻省理工学院、飞利浦公司等通过实施“环境智能”、“环境识别”、“智能家庭”等科研项目来开辟这一领域。例如，麻省理工学院媒体实验室的情感计算小组研制的情感计算系统，通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据，然后由一个“情感助理”来调节程序以识别人的情感。如果你对电视讲座的一段内容表现出困惑，情感助理会重放该片段或者给予解释。麻省理工学院“氧工程”的研究人员和比利时IMEC的一个工作小组认为，开发出一种整合各种应用技术的“瑞士军刀”可能是提供移动情感计算服务的关键。而目前国内的情感计算研究重点在于，通过各种传感器获取由人的情感所引起的生理及行为特征信号，建立“情感模型”，从而创建个人情感计算系统。研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。

情境化是人机交互研究中的新热点。自然和谐的智能化的人机界面的沟通能力特征包括：⑴自然沟通：能看，能听，能说，能触摸；⑵主动沟通：有预期，会提问，并及时调整；⑶有效沟通：对情境的变化敏感，理解用户的情绪和意图，对不同用户、不同环境、不同任务给予不同反馈和支持。而实现这些特征在很大程度上依赖于心理科学和认知科学对人的智能和情感研究所取得的新进展。我们需要知道人是如何感知环境的，人会产生什么样的情感和意图，人如何做出恰当的反应，从而帮助计算机正确感知环境，理解用户的情感和意图，并做出合适反应。因此，人机界面的“智能”不仅应有高的认知智力，也应有高的情绪智力，从而有效地解决人机交互中的情境感知问题、情感与意图的产生与理解问题，以及反应应对问题。

显然，情感交流是一个复杂的过程，不仅受时间、地点、环境、人物对象和经历的影响，而且有表情、语言、动作或身体的接触。在人机交互中，计算机需要捕捉关键信息，觉察人的情感变化，形成预期，进行调整，并做出反应。例如，通过对不同类型的用户建模（例如，操作方式、表情特点、态度喜好、认知风格、知识背景等），以识别用户的情感状态，利用有效的线索选择合适的用户模型（例如，根据可能的用户模型主动提供相应有效信息的预期），并以适合当前类型用户的方式呈现信息（例如，呈现方式、操作方式、与知识背景有关的决策支持等）;在对当前的操作做出即时反馈的同时，还要对情感变化背后的意图形成新的预期，并激活相应的数据库，及时主动地提供用户需要的新信息。

情感计算是一个高度综合化的技术领域。通过计算科学与心理科学、认知科学的结合，研究人与人交互、人与计算机交互过程中的情感特点，设计具有情感反馈的人机交互环境，将有可能实现人与计算机的情感交互。迄今为止，有关研究已在人脸表情、姿态分析、语音的情感识别和表达方面取得了一定的进展。

目前情感计算研究面临的挑战仍是多方面的：⑴情感信息的获取与建模，例如，细致和准确的情感信息获取、描述及参数化建模，海量的情感数据资源库，多特征融合的情感计算理论模型；⑵情感识别与理解，例如，多模态的情感识别和理解；⑶情感表达，例如，多模态的情感表达（图像、语音、生理特征等），自然场景对生理和行为特征的影响；⑷自然和谐的人性化和智能化的人机交互的实现，例如，情感计算系统需要将大量广泛分布的数据整合，然后再以个性化的方式呈现给每个用户。

情感计算有广泛的应用前景。计算机通过对人类的情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并有效减轻人们使用电脑的挫败感，甚至帮助人们理解自己和他人的情感世界。计算机的情感化设计能帮助我们增加使用设备的安全性，使经验人性化，使计算机作为媒介进行学习的功能达到最佳化。在信息检索中，通过情感分析的概念解析功能，可以提高智能信息检索的精度和效率。

展望现代科技的潜力，我们预期在未来的世界中将可能会充满运作良好、操作容易、甚至具有情感特点的计算机。

自注意力机制是注意力机制的一种，有关注意力机制的介绍可以参考我的前一篇博客： Seq2Seq中的Attention机制。

Attention机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是2014年google mind团队的这篇论文《Recurrent Models of Visual Attention》，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是第一个将attention机制应用到NLP领域中。接着attention机制被广泛应用在基于RNN/CNN等神经网络模型的各种NLP任务中。2017年，google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力（self-attention）机制来学习文本表示。自注意力机制也成为了大家近期的研究热点，并在各种NLP任务上进行探索 [1] 。

Seq2Seq中的Attention是在Decoder阶段，如果用在机器翻译中的话就是着重考虑输出与输入的对应关系 ，比如将英文 walk by river bank 翻译成中文的时候，翻译走这个字就只需将attention放在 walk 即可，其它三个单词对翻译走这个词是没有帮助的，所以我们不需要关注它们。 而self-attention就不同，它是关注 walk 与 by , river , bank 的内在联系 。在翻译的时候，self-attention会去联系上下文语境，然后决定 bank 到底该翻译为银行还是河岸。

对于两个词向量而言，对它们做点积，如果结果越大表明它们越相似，结果越小表明它们差别越大（两向量不相关，点积为0）。比如"river"和"bank"两个词向量可能比较相似，因为它们都表示自然界中的两个环境，因此它们的点积相较于其它词向量的点积可能更大。

我们将输入与输入的转置作点积，会得到一个新的矩阵，该矩阵为各个词向量之间的相关性，如Fig1所示：

为了避免点积之后获得太大的值，需要对点积之后的矩阵进行放缩，这里通常采用的是softmax激活函数，对每一列进行放缩，放缩之后每一列中的数相加和等于1，如Fig2所示。

Tab1 Scalar product

最后我们会得到如Tab1所示的词向量之间的相关性矩阵。从图中可以看到，"river"和"bank"的相关性比较高，所以它的颜色较深。Softmax为非线性激活函数，我们可以对self-attention进行叠加，让它成为一个深度self-attention网络模型。

将输入词向量与相关性矩阵相乘，会得到Contextualized embeddings向量，如Fig3所示。

回顾一下的计算过程可以发现， self-attention的输出就是所有输入的权重和 ，而权重不是参数，而是输入本身。因此，self-attention的输入与输出的维度是一样的。

在搜索栏中输入一个问题，这个叫 query ，然后搜索算法会根据你输入的问题的关键字 keys 来匹配你可能想要的结果，而匹配到的结果就叫做 values 。把这一关系放在Attention中，输入为 query ，通过计算 query 与各个 key 的相似性，得到每个 key 对应 value 的权重系数，然后对 value 进行加权求和，即得到最终attention的数值 [4] 。其整个过程如Fig4所示。

首先是Object Recognition。是因为模型结合了CNN，RNN 和 Reinforcement Learning，来解决问题。并且在其上对它进行很大程度了改进，并引入了weakly supervised的因素；然后是Image Caption。Xu在ICML上的 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention可谓应用Attetion来解image caption的经典。再是NLP中的MachinTranslation 前面的工作都是用时序地进行Attention来关注一幅图像的不同位置区域。类比sequence问题，也就顺理成章地用在Machine Translation上了。划重点来说attention机制听起来高达上，其实就是学出一个权重分布，再拿这个权重分布施加在原来的特征之上，就可以叫attention。当然这个加权可以是保留所有分量均做加权（即soft attention）；也可以是在分布中以某种采样策略选取部分分量（即hard attention）。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/4044004.html

语音情感识别和脸部情感识别相比,各有哪些优势?

发表评论

评论列表（0条）