情感计算的人机交互中的“情感计算”2024年_知识

传统的人机交互，主要通过键盘、鼠标、屏幕等方式进行，只追求便利和准确，无法理解和适应人的情绪或心境。而如果缺乏这种情感理解和表达能力，就很难指望计算机具有类似人一样的智能，也很难期望人机交互做到真正的和谐与自然。由于人类之间的沟通与交流是自然而富有感情的，因此，在人机交互的过程中，人们也很自然地期望计算机具有情感能力。情感计算（Affective Computting）就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力，最终使计算机像人一样能进行自然、亲切和生动的交互。有关人类情感的深入研究，早在19世纪末就进行了。然而，除了科幻小说当中，过去极少有人将“感情”和无生命的机器联系在一起。只有到了现代，随着数字信息技术的发展，人们才开始设想让机器（计算机）也具备“感情”。从感知信号中提取情感特征，分析人的情感与各种感知信号的关联，是国际上近几年刚刚兴起的研究方向（图1）。

人的情绪与心境状态的变化总是伴随着某些生理特征或行为特征的起伏，它受到所处环境、文化背景、人的个性等一系列因素的影响。要让机器处理情感，我们首先必须探讨人与人之间的交互过程。那么人是如何表达情感，又如何精确地觉察到它们的呢？人们通过一系列的面部表情、肢体动作和语音来表达情感，又通过视觉、听觉、触觉来感知情感的变化。视觉察觉则主要通过面部表情、姿态来进行；语音、音乐则是主要的听觉途径；触觉则包括对爱抚、冲击、汗液分泌、心跳等现象的处理。

情感计算研究的重点就在于通过各种传感器获取由人的情感所引起的生理及行为特征信号，建立“情感模型”，从而创建感知、识别和理解人类情感的能力，并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统，缩短人机之间的距离，营造真正和谐的人机环境（图2）。在生活中，人们很难保持一种僵硬的脸部表情，通过脸部表情来体现情感是人们常用的较自然的表现方式，其情感表现区域主要包括嘴、脸颊、眼睛、眉毛和前额等。人在表达情感时，只稍许改变一下面部的局部特征（譬如皱一下眉毛），便能反映一种心态。在1972年，著名的学者Ekman提出了脸部情感的表达方法（脸部运动编码系统FACS）。通过不同编码和运动单元的组合，即可以在脸部形成复杂的表情变化，譬如幸福、愤怒、悲伤等。该成果已经被大多数研究人员所接受，并被应用在人脸表情的自动识别与合成（图3）。

随着计算机技术的飞速发展，为了满足通信的需要，人们进一步将人脸识别和合成的工作融入到通信编码中。最典型的便是MPEG4 V2视觉标准，其中定义了3个重要的参数集：人脸定义参数、人脸内插变换和人脸动画参数。表情参数中具体数值的大小代表人激动的程度，可以组合多种表情以模拟混合表情。

在目前的人脸表情处理技术中，多侧重于对三维图像的更加细致的描述和建模。通常采用复杂的纹理和较细致的图形变换算法，达到生动的情感表达效果。在此基础上，不同的算法形成了不同水平的应用系统（图4，图5）人的姿态一般伴随着交互过程而发生变化，它们表达着一些信息。例如手势的加强通常反映一种强调的心态，身体某一部位不停地摆动，则通常具有情绪紧张的倾向。相对于语音和人脸表情变化来说，姿态变化的规律性较难获取，但由于人的姿态变化会使表述更加生动，因而人们依然对其表示了强烈的关注。

科学家针对肢体运动，专门设计了一系列运动和身体信息捕获设备，例如运动捕获仪、数据手套、智能座椅等。国外一些著名的大学和跨国公司，例如麻省理工学院、IBM等则在这些设备的基础上构筑了智能空间。同时也有人将智能座椅应用于汽车的驾座上，用于动态监测驾驶人员的情绪状态，并提出适时警告。意大利的一些科学家还通过一系列的姿态分析，对办公室的工作人员进行情感自动分析，设计出更舒适的办公环境。在人类的交互过程中，语音是人们最直接的交流通道，人们通过语音能够明显地感受到对方的情绪变化，例如通过特殊的语气词、语调发生变化等等。在人们通电话时，虽然彼此看不到，但能从语气中感觉到对方的情绪变化。例如同样一句话“你真行”，在运用不同语气时，可以使之成为一句赞赏的话，也可以使之成为讽刺或妒忌的话。

目前，国际上对情感语音的研究主要侧重于情感的声学特征的分析这一方面。一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。例如，当一个人发怒的时候，讲话的速率会变快，音量会变大，音调会变高等，同时一些音素特征（共振峰、声道截面函数等）也能反映情感的变化。中国科学院自动化研究所模式识别国家重点实验室的专家们针对语言中的焦点现象，首先提出了情感焦点生成模型。这为语音合成中情感状态的自动预测提供了依据，结合高质量的声学模型，使得情感语音合成和识别率先达到了实际应用水平。虽然人脸、姿态和语音等均能独立地表示一定的情感，但人在相互交流的过程中却总是通过上面信息的综合表现来进行的。所以，惟有实现多通道的人机界面，才是人与计算机最为自然的交互方式，它集自然语言、语音、手语、人脸、唇读、头势、体势等多种交流通道为一体，并对这些通道信息进行编码、压缩、集成和融合，集中处理图像、音频、视频、文本等多媒体信息。

目前，多模态技术本身也正在成为人机交互的研究热点，而情感计算融合多模态处理技术，则可以实现情感的多特征融合，能够有力地提高情感计算的研究深度，并促使出现高质量、更和谐的人机交互系统。

在多模态情感计算研究中，一个很重要的研究分支就是情感机器人和情感虚拟人的研究。美国麻省理工学院、日本东京科技大学、美国卡内基·梅隆大学均在此领域做出了较好的演示系统。目前中科院自动化所模式识别国家重点实验室已将情感处理融入到了他们已有的语音和人脸的多模态交互平台中，使其结合情感语音合成、人脸建模、视位模型等一系列前沿技术，构筑了栩栩如生的情感虚拟头像，并正在积极转向嵌入式平台和游戏平台等实际应用（图6）。情感状态的识别和理解，则是赋予计算机理解情感并做出恰如其分反应的关键步骤。这个步骤通常包括从人的情感信息中提取用于识别的特征，例如从一张笑脸中辨别出眉毛等，接着让计算机学习这些特征以便日后能够准确地识别其情感。

为了使计算机更好地完成情感识别任务，科学家已经对人类的情感状态进行了合理而清晰的分类，提出了几类基本情感。目前，在情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果。例如：在情感语音的声学分析的基础上，运用线性统计方法和神经网络模型，实现了基于语音的情感识别原型；通过对面部运动区域进行编码，采用HMM等不同模型，建立了面部情感特征的识别方法；通过对人姿态和运动的分析，探索肢体运动的情感类别等等。

不过，受到情感信息的捕获技术的影响，并缺乏大规模的情感数据资源，有关多特征融合的情感理解模型的研究还有待深入。随着未来的技术进展，还将提出更有效的机器学习机制。情感计算与智能交互技术试图在人和计算机之间建立精确的自然交互方式，将会是计算技术向人类社会全面渗透的重要手段。未来随着技术的不断突破，情感计算的应用势在必行，其对未来日常生活的影响将是方方面面的，目前我们可以预见的有：

情感计算将有效地改变过去计算机呆板的交互服务，提高人机交互的亲切性和准确性。一个拥有情感能力的计算机，能够对人类的情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并有效减轻人们使用电脑的挫败感，甚至帮助人们便于理解自己和他人的情感世界。

它还能帮助我们增加使用设备的安全性（例如当采用此类技术的系统探测到司机精力不集中时可以及时改变车的状态和反应）、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化，并从我们身上收集反馈信息。例如，一个研究项目在汽车中用电脑来测量驾车者感受到的压力水平，以帮助解决所谓驾驶者的“道路狂暴症”问题。

情感计算和相关研究还能够给涉及电子商务领域的企业带来实惠。已经有研究显示，不同的图像可以唤起人类不同的情感。例如，蛇、蜘蛛和枪的能引起恐惧，而有大量美元现金和金块的则可以使人产生非常强烈的积极反应。如果购物网站和股票交易网站在设计时研究和考虑这些因素的意义，将对客流量的上升产生非常积极的影响。

在信息家电和智能仪器中，增加自动感知人们的情绪状态的功能，可以提供更好的服务。

在信息检索应用中，通过情感分析的概念解析功能，可以提高智能信息检索的精度和效率。

在远程教育平台中，情感计算技术的应用能增加教学效果。

利用多模式的情感交互技术，可以构筑更贴近人们生活的智能空间或虚拟场景等等。

情感计算还能应用在机器人、智能玩具、游戏等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。由于缺乏较大规模的情感数据资源，情感计算的发展受到一定的限制，而且多局限在语音、身体语言等具体而零散的研究领域，仅仅依靠这些还难以准确地推断和生成一个人的情感状态，并进行有效的情感交互。目前，科学家们正在积极地探索多特征融合的情感计算理论模型。很多人认为，今后几年情感计算将在这些方面需要取得突破：

更加细致和准确的情感信息获取、描述及参数化建模。

多模态的情感识别、理解和表达（图像、语音、生理特征等）。

自然场景对生理和行为特征的影响。

更加适用的机器学习算法。

海量的情感数据资源库。不久前，为了推动我国在这一领域的研究，探讨情感计算和智能交互技术的发展动态与趋势，促进我国科研人员在此领域的交流与合作，中国科学院自动化研究所、中国自动化学会、中国计算机学会、中国图象图形学会、中国中文信息学会、国家自然科学基金委员会和国家863计划计算机软硬件技术主题作为主办单位，在北京主办了第一届中国情感计算与智能交互学术会议。

事实证明，情感计算的概念尽管诞生不久，但已受到学术界和产业界的高度重视，相关领域的研究和应用正方兴未艾，国家自然科学基金委也将其列入重点项目的指南中。值得注意的是，近几年来，与情感计算有密切关系的普适计算和可穿戴式计算机的研究也已获得了蓬勃发展，并同样得到了国家的大力支持。这为情感信息的实时获取提供了极大的便利条件，也为情感计算在国内的发展提供了更好的发展平台。

可以先选择一下平台了解，然后确定自己直播的类别

适合女性直播的类别推荐：

1、娱乐才艺型女主播：这类型主播，有才艺傍身，弹琴、跳舞、唱歌、弹唱等；

2、自毁形象型女主播：常见的就是吃播为主的，对长相上没什么要求，但是要豁得出去，还能接受一些网络上的言语攻击；

3、情感路线型音频女主播：这类主播不露脸，但是有声音上的优势，通过声音做晚安/情感电台，开播跟粉丝们聊聊天，偶尔也会唱歌等

一、喜马拉雅FM

喜马拉雅FM是目前国内规模最大的、发展进度最快的一家音频分享平台。喜马拉雅FM支持台式电脑、笔记本电脑、Android等各类智能终端的下载。这款软件的一大优点是：1、具有海量的音频资源，包括音乐、新闻、有声书、外语、相声等等一些列的内容，可以满足广大用户的全方位需求；2、喜马拉雅将各类音频进行了合理分类，例如省市台、国家台、以及网络台等等；3：喜马拉雅拥有大量的独家音频，例如我们熟悉的郭德纲相声。

二、荔枝FM

荔枝FM是国内首款手机播客应用，应用的用户可以在自己的小小手机上创建自己的播客。荔枝APP主打文艺小清新的风格，受到了许多文青的欢迎，其中的情感版块较为出色。这款音频的首页风格偏向简洁清新风，页面基本没有广告，用户体验感较好。同时，这款APP也是追星族的心头好，APP中包含众多明星电台，例如李宇春、周杰伦以及华晨宇等明星。总体来说，荔枝APP是一款小清新风格的多重性能的音频软件。

三、蜻蜓FM

蜻蜓FM是中国首家网络音频APP。这款APP的包含的特色是：欢乐互动、电台闹钟、节目预约、小说随处听、录音回放、离线收听以及实时推荐等等。它的一大优点是：1、收录了中国大陆、港澳台地区以及海外地区的广播电台；2、用户能够享受免流量收听本地台的权利；3、拥有三千多个国外电台。总而言之，这款APP可以让用户充分的利用等车时、乘车时、饭后以及睡前等零碎时间，随时放松心情，获取资讯。

四、考拉FM

考拉FM是一款个性化的音频软件。软件包含的内容有体育、小说、汽车、新闻、军事、两性、笑话、音乐、儿童故事以及相声等等，它的一大特点是：能够根据用户的收听偏好进行精准的节目推送，能使用户在方便获取资讯的同时又节省大量的时间，同时它与和讯网、北京晚报、中国新闻周刊以及网易新闻等机构存在长期的合作关系，能保证平台资讯的优质化，是目前市面上较为专业的一款音频应用。

五、企鹅FM

企鹅FM是属于腾讯公司的音频软件，是网络电台服务正版之路的领先者。这款软件主打零流量的主题，同时，能够进行笑话段子、小说、新闻、娱乐八卦、音乐、情感故事、亲子教育等内容的收听。是一款适合闲暇时光，放松心情、释放压力的音频软件。

如果我们只谈论最纯粹的定义，所谓的“无损”意味着未压缩的音乐。无损音频是录音过程中未经修改的输出，是现有录音过程的最准确再现。这就意味着，在理论上，必须完美地记录声音的细节和空间感，从而带来音乐表演所需要表达的情感。

然而，问题是这种理论上的无损带来了对存储空间的过度占用，在很多情况下，这种占用是没有意义的，因为人们经常需要在有线空间中放置尽可能多的音频文件。我们常见的录音室质量无损音频格式是aiff和wav。众所周知，它们的体积并不小，因此所谓的“无损压缩”应运而生。无损压缩是无损的吗？对。由于无损压缩过程是可逆的，因此无损压缩方案也可以看作是无损的。

事实上，我们通常称之为“无损”的是指无损压缩音频，它的大小被缩小，以应付较窄的带宽传输，然后重新组合，同时保留所有信息。在某种程度上，它类似于常见的压缩文件-文件或多个文件可以压缩比以前小，但它可以恢复。

这种文件格式的压缩机制如下：它们使用压缩算法“挤出”音乐的静默部分，但不会压缩实际的音乐内容，也不会删除任何数据。这与mp3文件不同，这种有损音乐格式会删除音频文件中的大量信息。在这个我们根本不担心存储空间和网络速度的时代，这些复杂的处理似乎毫无意义，但在过去，让音乐文件尽可能小是一个非常现实的问题。

高分辨率音频？除了无损音频，现在我们还可以经常触及另一个术语：高分辨率音频。这两个名词的意思是一样的吗？不。高分辨率音频在信息量上比MP3甚至CD要好得多。它的设计使音频质量尽可能接近主板的质量，但其音量不会太大。事实上，业内很多公司都混淆了无损和高分辨率的概念。许多制造商喜欢把CD音频格式称为“无损”，而那些采样率高于CD格式的则称为“高分辨率”。然而，从技术上讲，只有原始的、未经修改和调整的录音才能称为“无损”。

不过，由于业界普遍给出了“无损”和“高分辨率”的新定义，我们不必太担心这些问题。一般来说，所谓高分辨率音频的模拟频率响应应至少为40khz，文件的位深和采样应至少为24位96khz。因此，很多人经常把高分辨率音频称为24/96。但是，您实际上可以找到24/192甚至24/384级别的音频文件。

位深和采样率我们刚才提到了位深和采样率这两个术语。你说他们是什么意思？让我们从数字开始。位深度用于定义所谓的动态范围，或者更确切地说，最大声音和最轻声音之间的差异。每个“位”表示动态范围内的6db（分贝），因此16位深度表示其动态范围的差为96db，同样，24位深度为144db。毫无疑问，动态范围越大越好，因为两种极端响度的差别越大，意味着人们在听一些音乐，特别是古典音乐时会经历更多的情绪起伏——当然，这需要播放设备的支持。那我们谈谈抽样率吧。模拟音频是由波形表示的，所以当它转换成数字信号时，麦克风会在固定的时间间隔对其进行采样。采样频率是采样率。例如，1Hz表示每秒采样一次。

1是否击中用户心理？

起标题的第一步是要了解自己、了解用户，精确定位用户想看、想听什么，才能写出直接心理的标题。

例如：

青蛙乐队《在希望的田野上》：80后都爱哼唱的经典追梦歌曲

青蛙乐队《午夜剧》：主唱彭钧声线美妙，旋律直戳人心

第一个标题面向大众人群，直接定位“80后”群体，择取“追梦”这个普世角度切入；第二个标题则使用“主唱、声线、旋律”这类音乐专业术语，面向专业音乐人、音乐爱好者的小众群体。二者的用户群体差异明显。

2是否踩中关键词？

在标题中呈现高频实体词，能够有效帮助机器快速识别内容，进行内容分类、定位群体。

例如：

夫妻长期两地分居，女人能坚持多久？听听中年女人的心声

「晚上夜听」相遇，一切都是天意

第一个标题含有“夫妻、女人、中年女人”等实体词，机器可以快速识别是婚姻、女性话题，定位用户是夫妻、中年女人群体；“长期两地分居”也明确了音频要讲述的情感话题，传递了足够的信息量，因此获得较高的展现量和点击率。第二个标题文艺风，是传统的情感电台类节目，偏抒情化而非具象化。机器对于“夜听、天意”这类词语无法快速理解，就不知道该怎么推荐了。

3是否踩中热词？

在标题上放上什么样的关键词，有个小技巧，就是“蹭热点”！尽量选择一些大众熟知、知名度高的热词，会比放上一些小众、冷僻词汇，更能吸引点击。

例如：

赵丽蓉逝世前细节曝光：拒绝进食，自己缝寿衣，网友：令人敬佩

央视张宏民年近花甲未婚？国脸私下酷爱打太极？

这两个标题都属于娱乐类，前者放上“赵丽蓉”这个大众熟知的明星，而且标题描绘她逝世前的动作，呈现极强的画面感；后者放上“张宏民”，很多人并不知道是谁，推荐量、点击率都相对降低很多。所以建议大家在写标题时，尽可能突出热词。

头条号后台 - 「个人中心」 - 「功能实验室」，有一个“ 热词分析 ”功能可以帮助创作者判断哪些词汇是热词。在这里可以看到近期的热点事件、飙升事件，也可以输入关键词看到它们对应的热度指数，择取使用热度较高的词汇。

4是否表述生动、有画面感？

关键词虽然重要，但是踩中关键词、热词一定会获得高推荐量吗？不一定。踩中关键词、热词可以帮助提升推荐几率，但是如果用户不买账，这篇内容依然会推不出去。所以，堆砌关键词可能会传递更多信息点，但标题表达一定会很生硬，引发用户反感。

所以我们需要使用数字、细节、对比、提问、冲突、共鸣等技巧，让标题表述更生动、更有画面感，吸引更多点击。

例如：

中国⼈为什么如此爱烧烤，他们⾛32座城市500多烧烤摊找到了答案（使用数字）

精英⾼材⽣杀害36⼈，坐上电椅前还与专家讨论犯罪⼼理学（呈现细节）

我⽉薪三万，拒绝给⼥友买两万的包（巧用对比）

20万华人被美国遣返, 既没有中国籍又失去美国籍, 他们该怎么办？（巧用提问）

得了⼄肝，医⽣说没事！保险公司却说有事，怎么办？（制造冲突）

真实古代欧洲：不爱洗澡，以脏为美（挑战刻板印象）

⼼疼〈延禧攻略〉的阿哥！乾隆教育理念：⼥孩富着养，男孩往死⾥养（引发共鸣）

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7972951.html

情感计算的人机交互中的“情感计算”

发表评论

评论列表（0条）