科技日新月异,我们或多或少都在新闻、报章杂志中看过外貌激似真人的人型机器人。
例如,日本石黑浩(Hiroshi Ishiguro)教授建造与自己如同双胞胎的机器人、第一个获得公民权的 机器人苏菲亚(Sophia) ,以及日本长崎奇怪饭店(Henn na Hotel)的人型机器人房务。
石黑浩教授,以及他创造的双胞胎机器人。(Flickr,Ars Electronica)现今科技之进步确实让人瞠目结舌,有一些机器人甚至拥有柔软的矽胶皮肤呢!
但也许很多人跟我一样,在看到这些人型机器人时有种诡异、不寒而栗的感觉,尤其是那些越接近真人的机器人,越令人毛骨悚然!
事实上,这样的不舒服感受有个专有名词可以解释,叫做 「恐怖谷理论」 (亦称诡异谷,Uncanny Valley)。
什么是恐怖谷理论?「恐怖谷」最早由日本机器人学教授 Masahiro Mori 于 1970 年提出1。该理论以一曲线(下图)说明,人们面对越像自己(人类)的对象,好感度会越高。
恐怖谷理论(翻译自Piwek、McKay ,与Pollick 之期刊论文)但是当对方的样貌是几乎和自己(人类)一样,却又出现几个 意外的「非人」特征 时(像是,关节处显露的机械构造),好感度就会骤降,掉到曲线图中的谷底。
只有当对象是跟我们完全一样、是活生生的人类时,好感度才会攀升至最高点。
我们看着机器人几乎和真人无异的外貌,以及难免显露的非人特征,像是机器人僵硬的表情、显露的机械构造,或是空洞的眼神,内在观感极为容易被带入恐怖谷中,抗拒感油然而生。
看着苏菲亚做出各式各样的表情,你是觉得亲切,还是「有点怪怪的」呢?(Giphy)此外,对于静态、动态的对象,此理论也做出不同假定:动态的对象会比静态的带来更强烈的恐惧感。
显而易见地,会动的僵尸比静止的尸体恐怖好几百倍啊!
我们的恐惧,究竟从何而来?自 1970 年以来,学者也试着对恐怖谷提出不同解释。
首先,Mori 本人认为这样「恐怖」的感觉来自于一种生存的本能,因为这些似人非人的讯息通常透露着生存上的「危险」,像是看见尸体、残缺的人体躯干等等,大脑会反射性地产生恐怖的感受、让自身避开此情境。
提出恐怖谷理论的 Mori 认为,这是人类感知到危险的心理反应。(Giphy)Bartneck 与同事3则是用「框架理论」(Framing theory)来解释此曲线,他们认为这样令人反感的情绪来自于与自身「基模」(schema)相冲突的 物。
也就是说,当我们第一眼看到一个极似真人的人型机器人,脑中关于「人类」的基模会被促发,此基模包含我们对于人类此概念的丰富的知识,因此一旦察觉到任何「非人」的讯息,都会造成认知上的强烈冲突、预期落空,进而产生反感。
此解释更近一步得到功能性磁振造影(functional Magic Resonance Imaging,fMRI)的证据4,以及贝氏数学模型(Bayesian model)的结果5支持。
然而时至今日,研究人员对于恐怖谷产生的真正原因、甚至恐怖谷是否存在,都尚未达成共识。
除了恐怖谷,还有恐怖悬崖!事实上,Mori当初是根据自身研究经验、个人观点提出这个恐怖谷「假说」,并非根据实证资料推论出的结果。
因此,有些研究者在亲自进行实验、数据分析后,竟得到完全不一样的曲线!
例如,Bartneck与其团队3为了验证恐怖谷理论的正确性,采用一系列不同对象的照片,包含:
他们让 58 位受试者分别观看这些,并回答「它有多像人」、「我对它的喜好程度」等等的问题。
你觉得它们像人吗?你喜欢它们吗?(撷取自原始论文 3)研究团队原先预期,受试者应该最不喜欢绿皮肤真人、拟人机器人的照片,因为这两种照片跟真人照片几乎没有差别,仅有少数非人的特征。
殊不知,统计数据的结果显示,虽然动物型机器人的拟人程度最低,却是最受喜爱的对象;人形机器人虽拟人程度位居倒数第二位,受喜爱程度仅次于动物机器人。
完整的喜好排名为:动物型机器人、人形机器人、电绘人像、绿皮肤真人、拟人机器人, 最后才是真人 。
在这个排名中,最令他们惊讶的是,人们对绿皮肤真人与拟人机器人的好感度,不但没有比较低,甚至还高于真人模特儿的照片!而且对人形机器人的照片的喜好同样也高于真人照片。
这样的数据,与Mori的理论大相径庭。
基于这样的数据结果,他们推测真实的曲线可能并非恐怖谷,而是 恐怖悬崖(Uncanny cliff) ,并且建议机器人设计者不应一味追求高度拟人化外观,而应注重外型与功能间的平衡。
Bartneck与研究团队的「恐怖悬崖」(翻译自原始论文 3)然而 Bartneck 研究中令人较为存疑的是,受试者评定真人照片的拟人化程度竟比其他照片都还要低!究竟 58 人的评分是否具代表性? Bartneck 团队从 ELLE 时尚杂志选用的真人照片是否偏误?都有待商讨厘清。
此外,也因为人类拥有丰富的社交经历,对「真人」的喜好较明确,也受个人经历、文化等因素影响。因此,单一、特定的人类照片或许无法代表概括性的「人类」此一种类。
细数那些「背叛」恐怖谷理论的研究比起「恐怖」的情绪,也有研究团队提出了几乎相反的结果。
Cheetham、Suter,和 Jancke6发现,当我们无法用肉眼判断这张图到底是真人,还是电绘人像(avatar)时,这些越似人非人的脸,越与人们的正向情绪连结,因此,该研究团队认为恐怖谷实际上应该是 「快乐谷」(Happy valley) 。
会动的,一定比较可怕吗?(Giphy)最后,虽然有研究利用「静态」验证了恐怖谷的曲线,但是当 物改成「动态短片」呈现时,曲线反而趋于平坦,与 Mori 原先假定的「动态物体将带来更为极端的恐怖谷现象」完全相反2。
然而我们在解释单一研究结果时,仍不能忘了:不同实验素材(例如,研究者选用的、影片)、不同受测对象(例如,受试者是大学生?西方人?)都会对结果产生影响。
另外不可忽略的是, Mori 教授在 1970 提出恐怖谷理论时是以日文撰写,他当时用「亲合感」 (shinwa-kan)来描述本文中的「好感度」,英文里较适切的翻译为「affinity」或是「likability」。
但有许多研究中都选用「familiarity」,而 familiarity 一字强调的是过去经验,而非情感连结,使测量的效度受到质疑1,3。
哼哼,咱人类可不只是外貌协会!虽然要统一总结个别研究的结果并不容易,但研究者目前仍普遍认同:要打造能自然与人社交的机器人,一味追求外观的拟人化并非一个明智的解法,反而更需着重在外观与功能上的平衡1,3,7。
因为似人的外貌,会让使用者期待能以似人的社交方式与之互动,然而要模拟人类社交互动是一项极具挑战性的工作,例如,机器人的细微表情、情感表达、语言理解、表达、认知历程、身体律动等等都须加以控制、设计。
除了外貌以外,机器人的运动方式、语言表达等等功能,也都需要经过精心的设计和考量。(Giphy)从我们目前有的人型机器人来看,此项挑战似乎尚未成功过,即使是那些乍看下与真人无异的机器人,一但开口、与人互动,不自然与漏洞百出的应对便显而易见。
在人机互动中,我们能探讨的面向仍相当多,像是机器人的语言能力、情绪表达、行为模式、互动者人格特质、个人经历,绝非是「外观拟人化程度」一项因素能决定整体互动品质的8,9。
当机器人总是被贴上「毁灭世界」的标签此外,我们对机器人的态度、好感度也受到媒体文化制约著,许多人不喜欢机器人可能是因为**经常把机器人塑造成「 人类物种的威胁 」。
曾在访谈中开玩笑要毁灭人类的苏菲亚,被全球媒体热烈的报导。
然而,运用科技本身无善恶之分,好与坏终究在于使用者。
更何况,我们目前现有的机器人跟科幻**中的、一般人期待的都差距非常、非常多。
像是在日本长崎的奇怪饭店(Henn na Hotel),虽在四年前目标成为世界上第一家由机器人组成的饭店,却在2019年因为大多数机器人无法妥善回应房客期待、错误百出,而决定逐渐转回聘用人类员工。
怪奇饭店曾以「世界上第一家由机器人组成的酒店」而声名大噪。(Flickr,MIKI Yoshihito)即使现有的社交机器人大多只能做为辅助工具,无法全取代人力,但是研发机器人对人们生活品质的益处,仍是显而易见的。
例如,在人口老化社会中,机器人能补足长照资源不足的问题,取代大部分劳力工作,减轻照顾者的负担10。
想让机器人更贴近人类?千万不可只注重外表回到本文所探讨的问题中心,人型机器人是否会无一避免地掉入恐怖谷中?就目前的研究证据来看,我们似乎尚未能给出一个肯定的答案。如同大多研究问题,正反方的证据同时存在于文献中。
再者,恐怖谷曲线很可能会因个人偏好、生活经历而有所不同。
如 Mori 将「日本人形木偶」(bunraku puppet)放在相当靠近真人亲合度的位置。虽然在 Mori 的理论原文中,他也承认这样的木偶其实说不上是高度拟人化的,但是当在看木偶戏时,会不自觉忘却木偶非人的外观特征,深深融入故事情境与人物情感中。
对于日本人、爱看木偶戏的人而言,可能会对日本的木偶更亲切。(Flickr,Leonardo Boiko)相对地,我们每个人会觉得亲近、惧怕的对象、特征,也与我们人生经历紧紧连结,这为探讨拟人化外表与互动者好感度关联的议题上,增添了许多变项与困难。
然而,不管恐怖谷存在与否,都提醒了机器人设计者,不该一味追求高度拟人但可能造成反效果的外貌。
皮克斯动画「瓦力」(WALL-E)里的瓦力跟伊芙、迪士尼「大英雄天团」(Big Hero 6)里的杯面,它们长得都完全不像人类,却仍深得观众的喜爱。
明明杯面(左)和瓦力(右)都很不像人类,却得到非常多观众的喜爱。(Wikipedia)要打造良好人机关系、提高大众对机器人的接受度,或许该更强调于情绪表达9、互动模式11、社交技能7,以及使用者在长期人机互动中的心理历程12,13,毕竟,人类在社交互动中也不是单看外表的肤浅生物吧!
备注humanoid 和 android 虽然时常混用,用来指称似人的机器人,但事实上两词定义有些微不同。
参考文献Te-Yi Hsieh|现为英国University of Glasgow 博士生,主修 Neuroscience and Psychology。研究领域介于心理学、机器人学、神经科学的交界处。
欲知更多作者的研究相关资讯可关注: //so-bots/ Twitter: @TeYiHsieh
人们期盼着能拥有并使用更为人性化和智能化的计算机。在人机交互中,从人操作计算机,变为计算机辅助人;从人围着计算机转,变为计算机围着人转;计算机从认知型,变为直觉型。显然,为实现这些转变,人机交互中的计算机应具有情感能力。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并能针对人的情感做出智能、灵敏、友好反应的计算系统。
情感——人际通信交流的重要手段
情感被用来表示各种不同的内心体验(如情绪、心境和偏好),情绪被用来表示非常短暂但强烈的内心体验,而心境或状态则被用来描述强度低但持久的内心体验。情感是人与环境之间某种关系的维持或改变,当客观事物或情境与人的需要和愿望符合时会引起人积极肯定的情感,而不符合时则会引起人消极否定的情感。
情感具有三种成分:⑴主观体验,即个体对不同情感状态的自我感受;⑵外部表现,即表情,在情感状态发生时身体各部分的动作量化形式。表情包括面部表情(面部肌肉变化所组成的模式)、姿态表情(身体其他部分的表情动作)和语调表情(言语的声调、节奏、速度等方面的变化);⑶生理唤醒,即情感产生的生理反应,是一种生理的激活水平,具有不同的反应模式。
概括而言,情感的重要作用主要表现在四个方面:情感是人适应生存的心理工具,能激发心理活动和行为的动机,是心理活动的组织者,也是人际通信交流的重要手段。从生物进化的角度我们可以把人的情绪分为基本情绪和复杂情绪。基本情绪是先天的,具有独立的神经生理机制、内部体验和外部表现,以及不同的适应功能。人有五种基本情绪,它们分别是当前目标取得进展时的快乐,自我保护的目标受到威胁时的焦虑,当前目标不能实现时的悲伤,当前目标受挫或遭遇阻碍时的愤怒,以及与味觉(味道)目标相违背的厌恶。而复杂情绪则是由基本情绪的不同组合派生出来的。
情感可以测量应用深远广阔
情感测量包括对情感维度、表情和生理指标三种成分的测量。例如,我们要确定一个人的焦虑水平,可以使用问卷测量其主观感受,通过记录和分析面部肌肉活动测量其面部表情,并用血压计测量血压,对血液样本进行化验,检测血液中肾上腺素水平等。
确定情感维度对情感测量有重要意义,因为只有确定了情感维度,才能对情感体验做出较为准确的评估。情感维度具有两极性,例如,情感的激动性可分为激动和平静两极,激动指的是一种强烈的、外显的情感状态,而平静指的是一种平稳安静的情感状态。心理学的情感维度理论认为,几个维度组成的空间包括了人类所有的情感。但是,情感究竟是二维,三维,还是四维,研究者们并未达成共识。情感的二维理论认为,情感有两个重要维度:⑴愉悦度(也有人提出用趋近-逃避来代替愉悦度);⑵激活度,即与情感状态相联系的机体能量的程度。研究发现,惊反射可用做测量愉悦度的生理指标,而皮肤电反应可用做测量唤醒度的生理指标。
情感是一种内部的主观体验,但总是伴随着某种外部表现,即表情。面部表情、姿态表情、语调表情三种表情被称之为体语,构成了人类的非言语交往方式。面部表情是指通过眼部、颜面和口部肌肉的变化来表现各种情感状态。面部表情不仅是人们常用的较自然的表现情感的方式,也是人们鉴别情感的主要标志。研究表明,人脸的不同部位具有不同的表情作用,例如,眼睛对表达忧伤最重要,口部对表达快乐与厌恶最重要,前额能提供惊奇的信号,而眼睛、嘴和前额等对表达愤怒很重要。使用特定的仪器可以对面部的微小表情变化进行研究,甚至可以区分真笑和假笑:人在真笑时面颊上升,眼周围的肌肉堆起,大脑左半球的电活动增加;而人在假笑时仅有嘴唇的肌肉活动,下颚下垂,大脑左半球的电活动不明显。脸部运动编码系统facs通过不同编码和运动单元的组合,可以在脸部形成复杂的表情变化,其成果已经被应用于人脸表情的自动识别与合成。还有mpeg-4 v2视觉标准,定义了3个重要的参数集,即人脸定义参数、人脸内插变换参数和人脸动画参数,其表情参数具体数值的大小代表人激动的程度,可以组合多种表情以模拟混合表情。目前面部表情的研究侧重于对三维图像的更细致的描述和建模,也注重使用复杂的纹理和较细致的图形变换算法,以达到生动的情感表达效果。
人的姿态即身体表情,一般伴随着交互过程而发生变化,并表达着一些信息。而语调表情是通过语音的高低、强弱、抑扬顿挫来表达说话人的情感。在人际交往中,语音是人们最直接的交流通道。通过语音人很容易就能感受到对方的情感变化,就像“你真行!”这句话,既可以表示赞赏,也同样可以表示讽刺或妒忌。情感语音研究目前主要侧重于情感的声学特征的分析。语音中的情感特征往往通过语音韵律的变化表现出来(如当一个人发怒时,讲话的速率可能变快,音量变大,音调变高等),但也可同时通过一些音素特征(如共振峰、声道截面函数等)表现出来。中国科学院心理研究所、中国科学院自动化研究所、清华大学计算机系等机构都在从事相关研究。
在人机交互研究中已使用过很多种生理指标,例如,皮质醇水平、心率、血压、呼吸、皮肤电活动、掌汗、瞳孔直径、事件相关电位、脑电eeg等。生理指标的记录需要特定的设备和技术,在进行测量时,研究者有时很难分离各种混淆因素对所记录的生理指标的影响。
情境化是人机交互研究中的新热点
情感计算研究的内容包括三维空间中动态情感信息的实时获取与建模,基于多模态和动态时序特征的情感识别与理解,及其信息融合的理论与方法,情感的自动生成理论及面向多模态的情感表达,以及基于生理和行为特征的大规模动态情感数据资源库的建立等。
欧洲和美国的各大信息技术实验室正加紧进行情感计算系统的研究。剑桥大学、麻省理工学院、飞利浦公司等通过实施“环境智能”、“环境识别”、“智能家庭”等科研项目来开辟这一领域。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人的情感。如果你对电视讲座的一段内容表现出困惑,情感助理会重放该片段或者给予解释。麻省理工学院“氧工程”的研究人员和比利时imec的一个工作小组认为,开发出一种整合各种应用技术的“瑞士军刀”可能是提供移动情感计算服务的关键。而目前国内的情感计算研究重点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而创建个人情感计算系统。研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。
情境化是人机交互研究中的新热点。自然和谐的智能化的人机界面的沟通能力特征包括:⑴自然沟通:能看,能听,能说,能触摸;⑵主动沟通:有预期,会提问,并及时调整;⑶有效沟通:对情境的变化敏感,理解用户的情绪和意图,对不同用户、不同环境、不同任务给予不同反馈和支持。而实现这些特征在很大程度上依赖于心理科学和认知科学对人的智能和情感研究所取得的新进展。我们需要知道人是如何感知环境的,人会产生什么样的情感和意图,人如何做出恰当的反应,从而帮助计算机正确感知环境,理解用户的情感和意图,并做出合适反应。因此,人机界面的“智能”不仅应有高的认知智力,也应有高的情绪智力,从而有效地解决人机交互中的情境感知问题、情感与意图的产生与理解问题,以及反应应对问题。
显然,情感交流是一个复杂的过程,不仅受时间、地点、环境、人物对象和经历的影响,而且有表情、语言、动作或身体的接触。在人机交互中,计算机需要捕捉关键信息,觉察人的情感变化,形成预期,进行调整,并做出反应。例如,通过对不同类型的用户建模(例如,操作方式、表情特点、态度喜好、认知风格、知识背景等),以识别用户的情感状态,利用有效的线索选择合适的用户模型(例如,根据可能的用户模型主动提供相应有效信息的预期),并以适合当前类型用户的方式呈现信息(例如,呈现方式、操作方式、与知识背景有关的决策支持等);在对当前的操作做出即时反馈的同时,还要对情感变化背后的意图形成新的预期,并激活相应的数据库,及时主动地提供用户需要的新信息。
电脑能像人一样具有情感
计算智能领域“百花齐放”,进化计算、遗传算法、混沌理论、粗集理论、情感计算、免疫计算等研究方兴未艾。不少人都翘首以盼,计算机会变得越来越聪明,在不久的将来,电脑就能像人一样具有情感,与人进行自然、亲切和生动的智能交互。
情感计算是一个高度综合化的技术领域。通过计算科学与心理科学、认知科学的结合,研究人与人交互、人与计算机交互过程中的情感特点,设计具有情感反馈的人机交互环境,将有可能实现人与计算机的情感交互。迄今为止,有关研究已在人脸表情、姿态分析、语音的情感识别和表达方面取得了一定的进展。情感计算研究将不断加深对人的情感状态和机制的理解,并提高人机界面的和谐性,即提高计算机感知情境、理解人的情感和意图并做出适当反应的能力。
目前情感计算研究面临的挑战仍是多方面的:⑴情感信息的获取与建模,例如,细致和准确的情感信息获取、描述及参数化建模,海量的情感数据资源库,多特征融合的情感计算理论模型;⑵情感识别与理解,例如,多模态的情感识别和理解;⑶情感表达,例如,多模态的情感表达(图像、语音、生理特征等),自然场景对生理和行为特征的影响;⑷自然和谐的人性化和智能化的人机交互的实现,例如,情感计算系统需要将大量广泛分布的数据整合,然后再以个性化的方式呈现给每个用户。
情感计算有广泛的应用前景。计算机通过对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们理解自己和他人的情感世界。计算机的情感化设计能帮助我们增加使用设备的安全性,使经验人性化,使计算机作为媒介进行学习的功能达到最佳化。在信息检索中,通过情感分析的概念解析功能,可以提高智能信息检索的精度和效率。在电子商务领域,在设计购物网站和股票交易网站等时能充分利用人的情感因素的作用,以改变客流量。多模式的情感交互技术能构筑更贴近人们生活的智能空间或虚拟场景,而机器人、智能玩具、游戏等产业则能构筑出更加拟人化的风格和更加逼真的场景。
展望现代科技的潜力,我们预期在未来的世界中将可能会充满运作良好、操作容易、甚至具有情感特点的计算机。
这年头,如果不是去少林寺或者遁入空门出家,估计很难在大街上见到什么和尚了。除非你出席一些葬礼丧事,偶尔会看到一两个过来装个样子帮逝者超度念经。
有些比较敬业的,或许还能在葬礼来上一段。据说出场价格也是不菲,果然这行当比活人的钱好赚太多了。
不过,这群高僧高枕无忧的日子估计也快到头了。据美国 Odditycentral 网站 8 月 18 日报道。一家日本公司近日推出了「机器人葬礼服务」计划,让机器人主持葬礼,还能诵经念佛,比请真正的僧人价格便宜得多。
要想知道这只念经机器人的来头,恐怕就要从它的前前前世说起啦。
早在 2014 年,日本软银机器人公司研发的一种名为「胡椒」(Pepper)的人形机器人,自称是第一种能够阅读人类感情的机器人。
之所以被描述为「情感机器人」,因为 Pepper 能够通过人类的面部表情和语调判断出人类的情感。
比如你一杆进洞,它会给你拍手叫好。
或者陪你玩玩剪刀石头布,当然这个对它来说比较小儿科。
由于基于云端的面部和语音识别,Pepper 执行完每一项任务后,都会对使用者有着进一步的了解,程序员也会更多地了解如何以编程的方式来读出这些情绪,来使得 Pepper 变得更加聪明。
到了 2015 年,Pepper 正式投入市场应用,服务于多个行业。比如在银行中当柜员,在寿司店当服务员,甚至在养老院通过面部识别软件分辨来访的客人,为其提供信息,还能和老人聊天。(???所以我们人类干嘛还要工作)
把各行各业的饭碗都端个底儿掉之后,Pepper 渐渐开始打死者的算盘了。在最近日本举办的丧葬产业大会上,一家叫 Nissei Eco 的日本公司展示了改进版本的软银 Pepper 机器人,以僧侣的装扮在展会上诵佛念经。
Nissei Eco 公司承认,这项业务目前主要还是面向不信教、对生死看得开的客人使用,更多是希望尝试在丧葬业中引入更多新的技术,让其随时代变化而改变。
把一个有血有肉的人类交给一个机器来为其超度,这听起来多少有些奇怪。不过在这个近乎「暴利」的行当,机器人胜在价格比人类祭祀要便宜不少。
随着机械技术发展、自动化程度提高,许多以往必须由人类才能做的工作逐渐被机器取代。但从道德层面上讲,机器人很难取代掉人类一些情感上的东西。
这也是人们难以全然接受机器人的主要原因,或许哪天机器人被赋予情感,人们的看法会有所改观吗?
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)