从心理学解读人机交互|人机交互系统2024年_知识

　　不少人都翘首以盼，计算机会变得越来越聪明，在不久的将来，它就能像人一样具有情感，与人进行自然、亲切和生动的智能交互。　认知科学（Cognitive Science）是在心理学、计算机科学、人工智能、神经科学、科学语言学、科学哲学以及其他基础科学（如数学、理论物理学）共同感兴趣的界面上，即理解人类的、乃至机器的智能的共同兴趣上，涌现出来的高度跨学科的新兴科学。认知科学试图依靠众多学科的共同努力，理解心智的性质，可能的话，在此基础上制造出能思维的机器。而认知心理学由于关注和研究人的心智活动，在认知科学中发挥着重要的作用。

认知心理学: 人脑与计算机类比

认知心理学是20世纪60年代兴起的心理学研究取向，它不仅研究心智活动的“软件”（即心智活动的过程，如人对信息的编码、储存和提取），而且研究心智活动的“硬件”（即心智活动的结构，如认知功能的脑定位或脑机制），提出了极富特色的理论，促进了对人类心智活动的细微剖析和准确理解，成为现代心理学的主流方向。

信息加工系统（Information-Processing System）也被称为符号操作系统（Symbol Operation System）或物理符号系统（Physical Symbol System）。一个完整的物理符号系统具有信息的输入（Input）、输出（Output）、存储（Store）、复制（Copy）、建立符号结构（Build Symbol Structure）和条件性迁移（Conditional Transfer）六种功能。物理符号系统假设提出，任何一个系统，如果能够表现出智能的话，就必能执行上述六种功能; 反之，任何系统如果具有这六种功能，就能表现出智能。其推论自然是: 人具有智能，人一定是个物理符号系统; 计算机是个物理符号系统，计算机一定能表现出智能。既然人是一个物理符号系统，计算机也是一个物理符号系统，那么我们就可以用计算机来模拟人的智能活动。认知心理学所做的，就是试图用物理符号系统假设中的基本规律来解释人类复杂的心理现象。

心智的计算-表征理解（Computa-tional-Representational Understanding of Mind，简称CRUM）是一种对心智问题的理解方式，认为对思维最恰当的理解是将其视为心智中的表征结构以及在这些结构上进行操作的计算程序。心智表征属于系统的内部状态，是相对于外部事件或事件的语义加以界定的，是一种形式化的符号表达式; 而所有与系统有关的语义内容，都依照深层的符号表达式及其变换的形式和符号关系结构加以规定，这是一种物理符号操作，是一种计算。表征与计算二者的关系密不可分，因为一定的计算总是建立在一定的表征之上，表现为对表征的某种操作和转换; 而一定的计算也总是会产生某种新的表征。

认知心理学研究心智结构和信息加工过程的方法主要由四个步骤构成，即理论、模型、程序和平台。一个认知理论首先要假定一套表征结构和一套在这些结构上进行操作的加工过程; 然后，通过与由数据结构和算法构成的计算机程序进行类比，设计一个计算模型使得这些表征结构和过程更为精确。有关表征的模糊概念可以用准确的关于数据结构的计算概念予以补充，而心理过程则可由算法来定义; 为了测试该模型，必须用一种编程语言将其在一个软件程序中实现; 最后，该程序应该可以在各种软硬件平台上运行。实际上，无论是信息加工取向对规则和搜索策略等进行的抽象的串行的分析，还是联结主义取向强调的分布式表征和平行加工，各种心智结构和信息加工过程均可采用上述方法进行研究。理论、模型、程序、平台一起构成了认知心理学的基本研究构架。大量研究都遵循着这个途径，并通过实验将各个步骤贯穿起来。

情感计算: 人与计算机交互

显然，情感交流是个复杂的过程，不仅受时间、地点、环境、人物对象和经历的影响，而且有表情、语言、动作或身体的接触。情感计算研究试图通过不断加深对人的情感状态和机制的理解，创建一种能感知、识别和理解人的情感，并能针对人的情感做出智能、灵敏、友好反应的计算系统。

作者简介:傅小兰

研究员，现任中国科学院心理研究所副所长，研究领域为认知心理学，主要关注人的基本认知过程、信息加工动态机制、知识表征、认知绩效以及人机交互中的心理与行为问题。担任脑与认知科学国家重点实验室副主任，中国心理学会常务理事、副秘书长、中国人类工效学会理事、认知工效学专业委员会副主任委员，全国人类工效学标准化技术委员会副主任委员等。

情感计算研究有助于提高计算机感知情境，理解人的情感和意图，做出适当反应的能力。情境化是人与计算机交互研究中的新热点。在人与计算机的交互中，计算机需要捕捉关键信息，觉察人的情感变化，形成预期，进行调整，做出反应。例如，通过对不同类型的用户建模（例如: 操作方式、表情特点、态度喜好、认知风格、知识背景等），以识别用户的情感状态，利用有效的线索选择合适的用户模型（例如，根据可能的用户模型主动提供相应有效信息的预期），并以适合当前类型用户的方式呈现信息（例如: 呈现方式、操作方式、与知识背景有关的决策支持等）; 在对当前的操作做出即时反馈的同时，还要对情感变化背后的意图形成新的预期，并激活相应的数据库，及时主动地提供用户需要的新信息。

情感计算是一个高度综合化的技术领域。目前情感计算研究面临的挑战仍是多方面的: （1）情感信息的获取与建模，例如细致和准确的情感信息获取、描述及参数化建模，海量的情感数据资源库，多特征融合的情感计算理论模型; （2）情感识别与理解，例如多模态的情感识别和理解; （3）情感表达，例如多模态的情感表达（图像、语音、生理特征等），自然场景对生理和行为特征的影响; （4）自然和谐的人性化和智能化的人计交互的实现，例如情感计算系统需要将大量广泛分布的数据整合，然后再以个性化的方式呈现给每个用户。

情感计算有广泛的应用前景。计算机通过对人类的情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并有效减轻人们使用电脑的挫败感，甚至帮助人们理解自己和他人的情感世界。计算机的情感化设计能帮助我们增加使用设备的安全性，使经验人性化，使计算机作为媒介进行学习的功能达到最佳化。在信息检索中，通过情感分析的概念解析功能，可以提高智能信息检索的精度和效率。

在电子商务领域，在设计购物网站和股票交易网站等时充分利用人的情感因素的作用，以改变客流量。多模式的情感交互技术能构筑更贴近人们生活的智能空间或虚拟场景，而机器人、智能玩具、游戏等产业则能构筑出更加拟人化的风格和更加逼真的场景。

传统的人机交互，主要通过键盘、鼠标、屏幕等方式进行，只追求便利和准确，无法理解和适应人的情绪或心境。而如果缺乏这种情感理解和表达能力，就很难指望计算机具有类似人一样的智能，也很难期望人机交互做到真正的和谐与自然。由于人类之间的沟通与交流是自然而富有感情的，因此，在人机交互的过程中，人们也很自然地期望计算机具有情感能力。情感计算（Affective Computting）就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力，最终使计算机像人一样能进行自然、亲切和生动的交互。有关人类情感的深入研究，早在19世纪末就进行了。然而，除了科幻小说当中，过去极少有人将“感情”和无生命的机器联系在一起。只有到了现代，随着数字信息技术的发展，人们才开始设想让机器（计算机）也具备“感情”。从感知信号中提取情感特征，分析人的情感与各种感知信号的关联，是国际上近几年刚刚兴起的研究方向（图1）。

人的情绪与心境状态的变化总是伴随着某些生理特征或行为特征的起伏，它受到所处环境、文化背景、人的个性等一系列因素的影响。要让机器处理情感，我们首先必须探讨人与人之间的交互过程。那么人是如何表达情感，又如何精确地觉察到它们的呢？人们通过一系列的面部表情、肢体动作和语音来表达情感，又通过视觉、听觉、触觉来感知情感的变化。视觉察觉则主要通过面部表情、姿态来进行；语音、音乐则是主要的听觉途径；触觉则包括对爱抚、冲击、汗液分泌、心跳等现象的处理。

情感计算研究的重点就在于通过各种传感器获取由人的情感所引起的生理及行为特征信号，建立“情感模型”，从而创建感知、识别和理解人类情感的能力，并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统，缩短人机之间的距离，营造真正和谐的人机环境（图2）。在生活中，人们很难保持一种僵硬的脸部表情，通过脸部表情来体现情感是人们常用的较自然的表现方式，其情感表现区域主要包括嘴、脸颊、眼睛、眉毛和前额等。人在表达情感时，只稍许改变一下面部的局部特征（譬如皱一下眉毛），便能反映一种心态。在1972年，著名的学者Ekman提出了脸部情感的表达方法（脸部运动编码系统FACS）。通过不同编码和运动单元的组合，即可以在脸部形成复杂的表情变化，譬如幸福、愤怒、悲伤等。该成果已经被大多数研究人员所接受，并被应用在人脸表情的自动识别与合成（图3）。

随着计算机技术的飞速发展，为了满足通信的需要，人们进一步将人脸识别和合成的工作融入到通信编码中。最典型的便是MPEG4 V2视觉标准，其中定义了3个重要的参数集：人脸定义参数、人脸内插变换和人脸动画参数。表情参数中具体数值的大小代表人激动的程度，可以组合多种表情以模拟混合表情。

在目前的人脸表情处理技术中，多侧重于对三维图像的更加细致的描述和建模。通常采用复杂的纹理和较细致的图形变换算法，达到生动的情感表达效果。在此基础上，不同的算法形成了不同水平的应用系统（图4，图5）人的姿态一般伴随着交互过程而发生变化，它们表达着一些信息。例如手势的加强通常反映一种强调的心态，身体某一部位不停地摆动，则通常具有情绪紧张的倾向。相对于语音和人脸表情变化来说，姿态变化的规律性较难获取，但由于人的姿态变化会使表述更加生动，因而人们依然对其表示了强烈的关注。

科学家针对肢体运动，专门设计了一系列运动和身体信息捕获设备，例如运动捕获仪、数据手套、智能座椅等。国外一些著名的大学和跨国公司，例如麻省理工学院、IBM等则在这些设备的基础上构筑了智能空间。同时也有人将智能座椅应用于汽车的驾座上，用于动态监测驾驶人员的情绪状态，并提出适时警告。意大利的一些科学家还通过一系列的姿态分析，对办公室的工作人员进行情感自动分析，设计出更舒适的办公环境。在人类的交互过程中，语音是人们最直接的交流通道，人们通过语音能够明显地感受到对方的情绪变化，例如通过特殊的语气词、语调发生变化等等。在人们通电话时，虽然彼此看不到，但能从语气中感觉到对方的情绪变化。例如同样一句话“你真行”，在运用不同语气时，可以使之成为一句赞赏的话，也可以使之成为讽刺或妒忌的话。

目前，国际上对情感语音的研究主要侧重于情感的声学特征的分析这一方面。一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。例如，当一个人发怒的时候，讲话的速率会变快，音量会变大，音调会变高等，同时一些音素特征（共振峰、声道截面函数等）也能反映情感的变化。中国科学院自动化研究所模式识别国家重点实验室的专家们针对语言中的焦点现象，首先提出了情感焦点生成模型。这为语音合成中情感状态的自动预测提供了依据，结合高质量的声学模型，使得情感语音合成和识别率先达到了实际应用水平。虽然人脸、姿态和语音等均能独立地表示一定的情感，但人在相互交流的过程中却总是通过上面信息的综合表现来进行的。所以，惟有实现多通道的人机界面，才是人与计算机最为自然的交互方式，它集自然语言、语音、手语、人脸、唇读、头势、体势等多种交流通道为一体，并对这些通道信息进行编码、压缩、集成和融合，集中处理图像、音频、视频、文本等多媒体信息。

目前，多模态技术本身也正在成为人机交互的研究热点，而情感计算融合多模态处理技术，则可以实现情感的多特征融合，能够有力地提高情感计算的研究深度，并促使出现高质量、更和谐的人机交互系统。

在多模态情感计算研究中，一个很重要的研究分支就是情感机器人和情感虚拟人的研究。美国麻省理工学院、日本东京科技大学、美国卡内基·梅隆大学均在此领域做出了较好的演示系统。目前中科院自动化所模式识别国家重点实验室已将情感处理融入到了他们已有的语音和人脸的多模态交互平台中，使其结合情感语音合成、人脸建模、视位模型等一系列前沿技术，构筑了栩栩如生的情感虚拟头像，并正在积极转向嵌入式平台和游戏平台等实际应用（图6）。情感状态的识别和理解，则是赋予计算机理解情感并做出恰如其分反应的关键步骤。这个步骤通常包括从人的情感信息中提取用于识别的特征，例如从一张笑脸中辨别出眉毛等，接着让计算机学习这些特征以便日后能够准确地识别其情感。

为了使计算机更好地完成情感识别任务，科学家已经对人类的情感状态进行了合理而清晰的分类，提出了几类基本情感。目前，在情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果。例如：在情感语音的声学分析的基础上，运用线性统计方法和神经网络模型，实现了基于语音的情感识别原型；通过对面部运动区域进行编码，采用HMM等不同模型，建立了面部情感特征的识别方法；通过对人姿态和运动的分析，探索肢体运动的情感类别等等。

不过，受到情感信息的捕获技术的影响，并缺乏大规模的情感数据资源，有关多特征融合的情感理解模型的研究还有待深入。随着未来的技术进展，还将提出更有效的机器学习机制。情感计算与智能交互技术试图在人和计算机之间建立精确的自然交互方式，将会是计算技术向人类社会全面渗透的重要手段。未来随着技术的不断突破，情感计算的应用势在必行，其对未来日常生活的影响将是方方面面的，目前我们可以预见的有：

情感计算将有效地改变过去计算机呆板的交互服务，提高人机交互的亲切性和准确性。一个拥有情感能力的计算机，能够对人类的情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并有效减轻人们使用电脑的挫败感，甚至帮助人们便于理解自己和他人的情感世界。

它还能帮助我们增加使用设备的安全性（例如当采用此类技术的系统探测到司机精力不集中时可以及时改变车的状态和反应）、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化，并从我们身上收集反馈信息。例如，一个研究项目在汽车中用电脑来测量驾车者感受到的压力水平，以帮助解决所谓驾驶者的“道路狂暴症”问题。

情感计算和相关研究还能够给涉及电子商务领域的企业带来实惠。已经有研究显示，不同的图像可以唤起人类不同的情感。例如，蛇、蜘蛛和枪的能引起恐惧，而有大量美元现金和金块的则可以使人产生非常强烈的积极反应。如果购物网站和股票交易网站在设计时研究和考虑这些因素的意义，将对客流量的上升产生非常积极的影响。

在信息家电和智能仪器中，增加自动感知人们的情绪状态的功能，可以提供更好的服务。

在信息检索应用中，通过情感分析的概念解析功能，可以提高智能信息检索的精度和效率。

在远程教育平台中，情感计算技术的应用能增加教学效果。

利用多模式的情感交互技术，可以构筑更贴近人们生活的智能空间或虚拟场景等等。

情感计算还能应用在机器人、智能玩具、游戏等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。由于缺乏较大规模的情感数据资源，情感计算的发展受到一定的限制，而且多局限在语音、身体语言等具体而零散的研究领域，仅仅依靠这些还难以准确地推断和生成一个人的情感状态，并进行有效的情感交互。目前，科学家们正在积极地探索多特征融合的情感计算理论模型。很多人认为，今后几年情感计算将在这些方面需要取得突破：

更加细致和准确的情感信息获取、描述及参数化建模。

多模态的情感识别、理解和表达（图像、语音、生理特征等）。

自然场景对生理和行为特征的影响。

更加适用的机器学习算法。

海量的情感数据资源库。不久前，为了推动我国在这一领域的研究，探讨情感计算和智能交互技术的发展动态与趋势，促进我国科研人员在此领域的交流与合作，中国科学院自动化研究所、中国自动化学会、中国计算机学会、中国图象图形学会、中国中文信息学会、国家自然科学基金委员会和国家863计划计算机软硬件技术主题作为主办单位，在北京主办了第一届中国情感计算与智能交互学术会议。

事实证明，情感计算的概念尽管诞生不久，但已受到学术界和产业界的高度重视，相关领域的研究和应用正方兴未艾，国家自然科学基金委也将其列入重点项目的指南中。值得注意的是，近几年来，与情感计算有密切关系的普适计算和可穿戴式计算机的研究也已获得了蓬勃发展，并同样得到了国家的大力支持。这为情感信息的实时获取提供了极大的便利条件，也为情感计算在国内的发展提供了更好的发展平台。

我感觉如果人类可以赋予AI机器人一定程度甚至人类所有的情感，那么，人类的科技一定将是突飞猛进的发展，如果AI有了人的情感，这个世界变化越来精彩。

现在情感计算在未来将改变传统的人机交互模式，实现人与机器的情感交互。从感知智能到认知智能的范式转变，从数据科学到知识科学的范式转变，人工智能也将在未来交出一个更好的回答。

机器是否具有情感是机器人性化程度高低的关键因素之一。让人工智能理解人类情感的研究由此而生。

很长时间以来，是否具备情感，是区分人与机器的重要标准之一。换言之，机器是否具有情感是机器人性化程度高低的关键因素之一。试图让人工智能理解人类情感也并不是新近的研究。

自此，情感计算这一新兴科学领域，开始进入众多信息科学和心理学研究者的视野，从而在世界范围内拉开了人工智能走向人工情感的序幕。

其中，语音是表达情感的主要方式之一。人类总是能够通过他人的语音轻易地判断他人的情感状态。语音的情感主包括语音中所包含的语言内容，声音本身所具有的特征。显然，机器带有情感的语音将使消费者在使用的时候感觉更人性化、更温暖。

从情感计算的决策来看，大量的研究表明，人类在解决某些问题的时候，纯理性的决策过程往往并非最优解。在决策的过程中，情感的加入反而有可能帮助人们找到更优解。因此，在人工智能决策过程中，输入情感变量，或将帮助机器做出更人性化的决策。

此外，情感智能可以让机器更加智能，具有情感的机器不仅更通用、更强大、更有效，而且将更趋近于人类的价值观。在人类科学家长期的努力下，横亘在人脑与电脑之间的“情感”鸿沟正在被跨越。

如今，随着大量统计技术模型的涌现和数据资源的累积，情感计算在应用领域的落地日臻成熟。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7911416.html

从心理学解读人机交互|人机交互系统

发表评论

评论列表（0条）