是什么为什么差什么怎么

是什么为什么差什么怎么,第1张

这是一个比较笼统和抽象的问题,需要更具体的背景和情境才能进行解答。如果是在某个具体的问题上,比如某个产品的性能和质量等方面存在问题,那么就可以具体分析是什么问题、为什么存在这个问题以及如何解决这个问题。如果是在某个学科或领域上,比如数学、物理、社会学等,也可以具体说明是什么概念、为什么这个概念很重要以及如何应用这个概念。总之,要回答这个问题需要更具体的信息和情境,才能给出更准确和详细的解答。

根据以往求职者在桂聘网分享的求职经历看,

从去年开始,许多校招季的金字招牌也都纷纷在面试环节中增加了AI面试/Digital Interview。不少招聘平台更是以智能面试系统为业务增长点,扮演起了技术传火者的角色。

而对于应聘者来说,知道自己将要面对的是AI这个不知疲惫、么得感情,还明察秋毫的“拦路虎”,恐怕不少人都会感到亚历山大。尤其是应届生,以往还有学长学姐们的言传身教指路,可面对“AI面试官”这个新事物,市面上还真没太多有效经验可供参考。

今天就来聊聊,AI面试的考察边界到底在哪里,以及怎样“攻略”它。

AI泛滥背后,用人机构的阳谋

如果你看到心仪的企业或岗位需要先过AI这一关,不要方张,战略上藐视、战术上重视,往往是“攻略”下AI面试官的前提条件。

之所以这么说,是因为市面上有太多借AI之名、行宣传之实的“金主爸爸”。其中,以最贴近大众规模市场的快消品领域为重灾区。最先在校招等环节中打出“AI面试”招牌的,大多都是这类,比如食品饮料(可口可乐)、日化用品(宝洁、联合利华)等等。

一方面,这些企业岗位大多没有特别的专业限制,又身披跨国500强的光环,简历筛选压力非常大;同时,校招也是一次非常好的在年轻人中“博关注”的好时机,很多公司都会打出“寻找未来管理者”的口号,竞争极其激烈,Open Question、AI面试、游戏测评等创意型招聘方式也能有效地帮助其扩大自身地影响力,强化品牌形象。

这也决定了,其AI面试系统需要满足两个核心诉求:

第一,推出的时机是不是够快,这样才能在宣传上“先声夺人”;第二,数据的多样性和算法的鲁棒性是不是够高,以避免因歧视、通过率等引爆应聘者的负面情绪。

因此,这些品牌企业所采用的AI面试解决方案,大多是经由第三方算法公司结合市面上一些较为成熟的AI技术应用打磨而成的体验。这一意味着,AI面试系统只能在初步粗略筛选上起到一定的辅助作用,很难从根本上决定能不能得到offer,反而能规避初面时面试官基于感性判断(如颜值、口音、毕业院校等)所带来的偏差,让更多人岗匹配的应聘者拥有机会;而另一方面,基于深度神经网络模型的训练逻辑,以及当前NLP、人脸识别、情感算法等的技术天花板,也让应聘者有机会针对AI系统的考察点按图索骥、逐个击破。

下面我们不妨来一一认识一下这些能力不同的特殊面试官。

攻略难度一星:问答AI面试

这种产品往往是将NLP自然语言理解技术与声音识别算法相结合,以问答形式来获取一些岗位匹配相关的关键信息。

日本人才公司En Japan就让即将毕业的大学生对着一台只会发问的手机,进行了长达一个小时、一问一答的面试,包含126个问题。眼见求职者到最后已经被虐的无语凝噎了……

此类“面试官”一是借助声音算法,统计语音、语调等,对应聘者的反应速度、心理情绪等进行分析;另外借助NLP算法,对回答进行关键词和语义分析,结合与企业业务和岗位需求的相关问题,比如快消品必问的“宝洁八大问”及其变种,进行匹配度的初始判断。

面对这些仅凭声音与语言特征来选人的面试官,由于其参数都是人为设定的,预先剔除了一些隐含的感性偏好,因此在判断上也会相对公正,攻略起来也能有的放矢。

首先我们知道,这些面试软件大多是提前设置好问题和答案的标准问题。比如前面提到的En Japan测试软件,就是收集了往期15年的面试问答训练而成,主要涉及了基本信息、工作技能、性格特征等。与人类面试官有时还会聊聊家常缓和气氛,或是提出刁钻问题施加压力等不同,AI面试系统往往只会一板一眼地交互和提问,只要在参加面试前多做功课,了解用人机构的企业文化、用人理念,是快节奏、重创意还是全球化等,合理调整和并有意识训练自己的语音,就能够规避许多意外状况的发生。

同时, 就和高考前老师反复提醒“字写得漂亮能多得印象分”一样,在回答AI问题时最好也投其所好,尽量使用一些符合机器逻辑来组织语言。由于AI主要是基于语音实时转移、关键词提取匹配、语义理解来判断求职者是否和岗位描述想匹配。因此,搞清楚一些必要的硬指标hard skill,并有针对性地在陈述中适当点到一些关键词,比如领导力、国家级项目、转化率、团队意识等等,更有助于AI的匹配和筛选。

只要按图索骥,也许会觉得AI比现场面试更easy呢。

攻略难度二星:视频AI面试

如果你看中的企业实力更强、或者更懂技术,那么正面撞上视频AI这样的进阶版面试官,概率也就更大了。

简而言之,视频AI面试就是在智能问答的基础上,AI还会实时分析应聘者的面部表情、肌肉动作等,来判断应聘者的答案真伪、性格倾向,多维度考察候选人是否接近企业的理想人选。

听完不少同学的心恐怕凉了半截,岂不是连翻白眼、东张西望之类的表情语言也有可能“出卖”自己了,现在去看点《lie to me》(微表情心理学为主题的美剧)之类的还能抢救一下吗

想要攻略这样懂得察言观色的面试官,除了必备的网络检查、仪容仪表(见人类面试官也是要注意到吧喂),恐怕还得从技术认知上打场有准备之仗。

可以放心的是,利用AI实现面部表情的情感识别,在算法上还不具备充分的科学依据,即使是微软、谷歌、IBM这样的AI巨擘,其情感识别算法也并不严谨,应用到招聘场景中很可能产生严重误导。因此,求职软件监测情绪过滤求职者的做法也被视为是不恰当的。

比如偶尔的皱眉并不等于“愤怒”情绪,也不意味着面试者必然具备难以合作等特质。视频面试更多发挥作用的地方,其实是识别那些表现最好的人。

以高盛、摩根大通、毕马威、联合利华、欧莱雅等大型集团所采用的HireVue或Sonru为例,其原理就是通过对15000个特征的识别,包括选择的语言、运用的语汇、眼神表现、声音大小等等,再将这些特质综合起来,根据以往“成功”候选人的特征数据库,判断一个人的反应、情感和认知能力等。最后借由排名算法,让一定比例的最优秀候选人进入下一轮。

据了解,目前希尔顿集团已经利用其算法面试了43000多个职位,在全球范围内,HireVue系统每个季度都提供100万次面试和超过15万次录用前评估。

而正如其技术负责人所说,“人类语言、肢体语言和表达的极端复杂性,需要对算法偏见和潜在有害影响非常非常小心”,如果客户在一些题目中把90%的求职者都筛掉了,那就说明“考察点的范围过小”,并会对此作出改变。

了解了这个视频AI面试的基本原则之后,会发现并不需要对AI小心翼翼、锱铢必较。我们固然可以找到一些投算法所好的小tips,但更建议大家照常发挥,因为每一点习惯都可能影响你未来工作的愉悦感。

比如只有10%-30%的分数权重是由面部表情决定的,其他大部分则取决于面试者的言语表现。在语汇中,多使用一些符合目标企业偏好的特征词。求职者喜欢说被动词还是主动词,常用“我”还是“我们”,是否频繁使用技术性词汇等,会影响系统对匹配度的评估。

再比如声音的音调,如果有的人说话真的很慢,可能不适合从事电话咨询之类的工作,而如果太快用户也来不及挺懂。运用同理心找到心仪岗位最适合的状态,或许“感觉”比数据更靠谱。

攻略难度三星:会读心的AI

听到这里是不是已经感受到求职者的凄凉了?先别急着悲伤,如果你“不幸”面试的是读取你的社交网络的AI面世系统,那你只能在算法之下“裸奔”一圈之后,去买个**安慰一下自己了。

在这一关,AI往往会根据一些复杂数据来分析求职者的日常行为,进而推导出其与岗位的匹配度。就在前不久,加州初创公司Predictim就利用NLP技术和计算机视觉技术,对保姆岗位应聘者的Facebook、Instagram和Twitter历史进行扫描,进而预测她们是否可能欺负或骚扰他人,是否可能对儿童态度恶劣等等。

当然,这样的面试官很快就被业界联合抵制了。Facebook认为该公司违反了一项禁止开发人员使用这些信息审查求职者的禁令,因此大大限制了该公司在脸书和Instagram上获取用户数据的途径。Twitter也中断了Predictim对其API的访问,理由是禁止其将Twitter数据用于监控目的。

类似的算法风险也曾发生在求职平台LinkedIn身上,原因是第三方网站HiQ收集了LinkedIn的数据,以预测员工可能在何时离职。

之所以科技大厂们都态度鲜明地与此类AI面试系统划分界限,主要是一是机器学习无法可靠地解释语调和言语中的细微差别,比如讽刺或笑话,在面试场景中应用十分不稳定;同时此类算法还无法监督,即具有黑箱性,一些原本可能敬业的员工很可能在不知道原因或无法做出解释的情况下失去工作机会。

另外,将面试成功的决定性因素交给AI,显然也不符合技术伦理。如果一个企业出于决策者偏好/偏见,直接采用小范围、单一化的数据集进行训练,AI面试的公正性也就荡然无存了,甚至还可能加剧企业在年龄、种族等的歧视和排斥问题。正如加州大学洛杉矶分校(UCL)人机交互教授安娜·考克斯(Anna Cox)所说,“任何数据集都会有偏差,这将排除那些真正擅长这项工作的人。”

目前看来,让AI分析招聘面试过程中的复杂要素,还是一个争议中前行的未来。

不过,技术的车轮正在加速。IBM就宣布要使用Watson(沃森)主动搜索内部培训系统的数据,了解员工培训以及学习情况,判断他们是否具备升职潜力,以此进行内部考核。而从这样相对结构化的数据中推倒到面试招聘环节,或许也在向广大求职者们走来。

可以说,过去我们看到一些机械化程度高、数据结构化的领域,文书、翻译、识别等被AI取代。如今,面试这样充满交流的感性色彩的领域也未能幸免。所幸的是,技术的魔法正在褪去,手握知识之剑的人类,终将找到自己与AI“共事”的最佳方式。在一次次较量与交锋中去迭代和优化它,最终走出人机磨合的阵痛。

  先说一下我关于Magic Leap的信息来源:

  1、2014年11月10日,Magic Leap在2014年9月融了5个亿以后,来Stanford招人,开了一个Info Session,标题是“The World is Your New Desktop”(世界就是你的新桌面)多么霸气!当时是Magic Leap感知研究的高级副总裁(VP of Perception)Gary Bradski和计算视觉的技术负责人(Lead of Computer Vision)Jean-Yves Bouguet来作演讲。Gary是计算机视觉领域的****,在柳树车库(Willow Garage)创造了OpenCV(计算视觉工具库),同时也是Stanford顾问教授。Jean-Yves原来在Google负责谷歌街景车(Street View Car)的制造,是计算视觉技术的大牛。他们加入Magic Leap是非常令人震惊的。我参加了这次Info Session,当时Gary来介绍Magic Leap在感知部分的技术和简单介绍传说中的数字光场Cinematic Reality的原理,并且在允许录影的部分都有拍照记录。本文大部分的干货来自这次演讲。

  2、我今年年初上了Stanford计算摄影和数字光场显示的大牛教授Gordon Wetzstein的一门课:EE367 Computational Imaging and Display(计算影像和显示器):其中第四周的Computational illumination,Wearable displays和Displays Blocks(light field displays)这三节都讲到Magic Leap的原理。现在大家也可以去这个课程网站上看到这些资料,EE367 / CS448I: Computational Imaging and Display

  顺便介绍一下Gordon所在的Stanford计算图形组,Marc Levoy(后来跑去造Google Glass的大牛教授)一直致力于光场的研究,从Marc Levoy提出光场相机,到他的学生Ren Ng开创Lytro公司制造光场相机,到现在Gordon教授制造光场显示器(裸眼光场3D显示器),这个组在光场方面的研究一直是世界的领头羊。而Magic Leap可能正在成为光场显示器的最大应用。(相关内容可参考:Computational Imaging Research Overview)

  3、今年参加了光场影像技术的研讨会Workshop on Light Field Imaging ,现场有很多光场技术方面的展示,我和很多光场显示技术的大牛交流了对Magic Leap的看法。特别的是,现场体验了接近Magic Leap的光场技术Demo,来自Nvidia的Douglas Lanman的Near-Eye Light Field Displays 。(相关内容可参考:Near-Eye Light Field Displays)

  4、今年年中去了微软研究院Redmond访问,研究院的首席研究员Richard Szeliski(计算机视觉大神,计算机视觉课本的作者,Computer Vision: Algorithms and Applications)让我们试用了Hololens。感受了Hololens牛逼无比的定位感知技术。有保密协议,本文不提供细节,但提供与Magic Leap原理性的比较。

  下面是干货:

  首先呢,科普一下Magic Leap和Hololens这类AR眼镜设备,都是为了让你看到现实中不存在的物体和现实世界融合在一起的图像并与其交互。从技术上讲,可以简单的看成两个部分:

  对现实世界的感知(Perception);

  一个头戴式显示器以呈现虚拟的影像 (Display) 。

  我会分感知部分和显示部分来分别阐释Magic Leap的相关技术。

  一、显示部分

  先简单回答这个问题:

  Q1 Hololens和Magic Leap有什么区别?Magic Leap的本质原理是什么?

  在感知部分,其实Hololens和Magic Leap从技术方向上没有太大的差异,都是空间感知定位技术。本文之后会着重介绍。Magic Leap与Hololens最大的不同应该来自显示部分,Magic Leap是用光纤向视网膜直接投射整个数字光场(Digital Lightfield)产生所谓的Cinematic Reality(**级的现实)。Hololens采用一个半透玻璃,从侧面DLP投影显示,虚拟物体是总是实的,与市场上Espon的眼镜显示器或Google Glass方案类似,是个2维显示器,视角还不大,40度左右,沉浸感会打折扣。

  本质的物理原理是:光线在自由空间中的传播,是可以由4维光场唯一表示的。成像平面的每个像素中包含到这个像素所有方向的光的信息,对于成像平面来讲,方向是二维的,所以光场是4维的。平时成像过程只是对四维光场进行了一个二维积分(每个像素上所有方向的光的信息都叠加到一个像素点上),传统显示器显示这个2维的图像,是有另2维方向信息损失的。而Magic Leap是向你的视网膜直接投射整个4维光场, 所以人们通过Magic Leap看到的物体和看真实的物体从数学上是没有什么区别的,是没有信息损失的。理论上,使用Magic Leap的设备,你是无法区分虚拟物体和现实的物体的。

  使用Magic Leap的设备,最明显的区别于其他技术的效果是人眼可以直接选择聚焦(主动选择性聚焦)。比如我要看近的物体,近的物体就实,远的就虚。注意:这不需要任何的人眼跟踪技术,因为投射的光场还原了所有信息,所以使用者直接可以做到人眼看哪实哪,和真实物体一样。举个例子:在虚拟太阳系视频的27秒左右(如下面这个gif图),摄影机失焦了,然后又对上了,这个过程只发生在摄影机里,和Magic Leap的设备无关。换句话说,虚拟物体就在那,怎么看是观察者自己的事。这就是Magic Leap牛逼的地方,所以Magic Leap管自己的效果叫Cinematic Reality。

  Q2 主动选择性聚焦有什么好处?传统的虚拟显示技术中,为什么你会头晕?Magic Leap是怎么解决这个问题的?

  众所周知,人类的眼睛感知深度主要是靠两只眼睛和被观察物体做三角定位(双目定位,triangulation cue)来感知被观察物体的与观察者的距离的。但三角定位并不是唯一的人类感知深度的线索,人脑还集成了另一个重要的深度感知线索:人眼对焦引起的物体锐度(虚实)变化(sharpness or focus cue) 。但传统的双目虚拟显示技术(如Oculus Rift或Hololens)中的物体是没有虚实的。举个例子,如下图,当你看到远处的城堡的时候,近处的虚拟的猫就应该虚了,但传统显示技术中,猫还是实的,所以你的大脑就会引起错乱,以为猫是很远的很大的一个物体。但是这和你的双目定位的结果又不一致,经过几百万年进化的大脑程序一会儿以为猫在近处,一会儿以为猫在远处,来来回回你大脑就要烧了,于是你要吐了。而Magic Leap投影了整个光场,所以你可以主动选择性聚焦,这个虚拟的猫就放在了近处,你看它的时候就是实的,你看城堡的时候,它就是虚的,和真实情况一样,所以你不会晕。演讲中Gary调侃对于Jean-Yves这种带10分钟Oculus就吐的家伙来说,现在他一天带16个小时Magic Leap都不会晕。

  补充:有人问为什么网上说虚拟现实头晕是因为帧率不够原因?

  帧率和延时虽然是目前的主要问题,但都不是太大的问题,也不是导致晕得决定性因素。这些问题用更快的显卡,好的IMU和好的屏幕,还有头部动作预测算法都能很好解决。我们要关心一些本质的晕眩问题。

  这里要说到虚拟现实和增强现实的不同。

  虚拟现实中,使用者是看不到现实世界的,头晕往往是因为人类感知重力和加速度的内耳半规管感受到的运动和视觉看到的运动不匹配导致的。所以虚拟现实的游戏,往往会有晕车想吐的感觉。这个问题的解决不是靠单一设备可以搞定的,如果使用者的确坐在原定不动,如果图像在高速移动,什么装置能骗过你的内耳半规管呢?一些市场上的方案,比如Omni VR,或者HTC Vive这样的带Tracking的VR系统让你实际行走才解决这个不匹配的问题,但这类系统是受场地限制的。不过THE VOID的应用就很好的利用了VR的局限,不一定要跑跳,可以用很小的空间做很大的场景,让你以为你在一个大场景里就好了。现在大部分虚拟现实的体验或全景**都会以比较慢得速度移动视角,否则你就吐了。

  但是Magic Leap是AR增强现实,因为本来就看的到现实世界,所以不存在这个内耳半规管感知不匹配的问题。对于AR来讲,主要挑战是在解决眼前投影的物体和现实物体的锐度变化的问题。所以Magic Leap给出的解决方案是很好地解决这个问题的。但都是理论上的,至于实际工程能力怎么样就靠时间来证明了。

  Q3 为什么要有头戴式显示器?为什么不能裸眼全息?Magic Leap是怎么实现的?

  人类希望能凭空看到一个虚拟物体,已经想了几百年了。各种科幻**里也出现了很多在空气中的全息影像。

  但其实想想本质就知道,这事从物理上很难实现:纯空气中没有可以反射或折射光的介质。显示东西最重要的是介质。很多微信上的疯传,以为Magic Leap不需要眼镜,我估计是翻译错误导致的,视频中写了Shot directly through Magic Leap tech,很多文章错误的翻译成“直接看到”或“裸眼全息",其实视频是相机透过Magic Leap的技术拍的。

  目前全息基本还停留在全息胶片的时代(如下图,我在光场研讨会上看到的这个全息胶片的小佛像),或者初音未来演唱会那种用投影阵列向特殊玻璃(只显示某一特定角度的图像,而忽略其他角度的光线)做的伪全息。

  Magic Leap想实现的是把整个世界变成你的桌面这样的愿景。所以与其在世界各个地方造初音未来那样的3D全息透明屏做介质或弄个全息胶片,还不如直接从人眼入手,直接在眼前投入整个光场更容易。其实Nvidia也在做这种光场眼镜。

  Nvidia采用的方法是在一个二维显示器前加上一个微镜头阵列Microlens array来生成4维光场。相当于把2维的像素映射成4维,自然分辨率不会高,所以这类光场显示器或相机(Lytro)的分辨率都不会高。本人亲测,效果基本就是在看马赛克画风的图案。

  而Magic Leap采用完全不同的一个方法实现光场显示,它采用光纤投影。不过,Magic Leap用的光纤投影的方式也不是什么新东西。在Magic Leap做光纤投影显示(Fiber optic projector)的人是Brian Schowengerdt,他的导师是来自华盛顿大学的教授Eric Seibel,致力于做超高分辨率光纤内窥镜8年了。简单原理就是光纤束在一个1mm直径管道内高速旋转,改变旋转的方向,然后就可以扫描一个较大的范围。Magic Leap的创始人比较聪明的地方,是找到这些做高分辨率光纤扫描仪的,由于光的可逆性,倒过来就能做一个高分辨率投影仪。如图,他们6年前的论文,1mm宽9mm长的光纤就能投射几寸大的高清蝴蝶图像。现在的技术估计早就超过那个时候了。

  而这样的光纤高分辨率投影仪还不能还原光场,需要在光纤的另一端放上一个微镜头阵列microlens array,来生成4维光场。你会疑问这不就和Nvidia的方法一样了么?不,因为光纤束是扫描性的旋转,这个microlens array不用做得很密很大,只要显示扫描到的区域就好了。相当与把大量数据在时间轴上分布开了,和通讯中的分时一样,因为人眼很难分辨100帧上的变化,只要扫描帧率够高,人眼就分辨不出显示器是否旋转显示的。所以Magic Leap的设备可以很小,分辨率可以很高。

  他本人也来Stanford给过一个Talk,Near-to-Eye Volumetric 3D Displays using Scanned Light。这个Talk讲的应该就是Magic Leap早期的原型。(相关内容可参考: Fiber Scanned Displays)

  二、感知部分

  Q4 首先为什么增强现实要有感知部分?

  是因为设备需要知道自己在现实世界的位置(定位),和现实世界的三维结构(地图构建),才能够在显示器中的正确位置摆放上虚拟物体。举个最近的Magic Leap Demo视频的例子,比如桌子上有一个虚拟的太阳系,设备佩戴者的头移动得时候,太阳系还呆在原地,这就需要设备实时的知道观看者视角的精确位置和方向,才能反算出应该在什么位置显示图像。同时,可以看到桌面上还有太阳的反光,这就要做到设备知道桌子的三维结构和表面信息,才能正确的投射一个叠加影像在桌子的影像层上。难点是如何做到整个感知部分的实时计算,才能让设备穿戴者感觉不到延时。如果定位有延时,佩戴者会产生晕眩,并且虚拟物体在屏幕上漂移会显得非常的虚假,所谓Magic Leap宣称的**级的真实(Cinematic Reality)就没有意义了。

  三维感知部分并不是什么新东西,计算机视觉或机器人学中的SLAM(Simultaneous Localization And Mapping,即时定位与地图构建)就是做这个的,已经有30年的历史了。设备通过各种传感器(激光雷达,光学摄像头,深度摄像头,惯性传感器)的融合将得出设备自己在三位空间中的精确位置,同时又能将周围的三位空间实时重建。

  最近SLAM技术尤其火爆,去年到今年两年时间内巨头们和风投收购和布局了超级多做空间定位技术的公司。因为目前最牛逼的3大科技技术趋势:无人车,虚拟现实,无人机,他们都离不开空间定位。SLAM是完成这些伟大项目基础中的基础。我也研究SLAM技术,所以接触的比较多,为了方便大家了解这个领域,这里简单提几个SLAM界最近的大事件和人物:

  1、(无人车)Stanford的机器人教授Sebastian Thrun是现代SLAM技术的开创者,自从赢了DARPA Grand Challenge的无人车大赛后,去了Google造无人车了。SLAM学术圈的大部分研究派系都是Sebastian徒子徒孙。

  2、(无人车)Uber在今年拿下了卡耐基梅隆CMU的NREC(国家机器人工程研发中心),合作成立高等技术研发中心ATC。这些原来做火星车的定位技术的研究人员都去Uber ATC做无人车了。

  3、(虚拟现实)最近Surreal Vision被Oculus Rift收购,其中创始人Richard Newcombe是大名鼎鼎的DTAM,KinectFusion(HoloLens的核心技术)的发明人。Oculus Rift还在去年收购了13th Labs(在手机上做SLAM的公司)。

  4、(虚拟现实)Google Project Tango 今年发布世界上第一台到手就用的商业化SLAM功能的平板。Apple五月收购Metaio AR,Metaio AR 的 SLAM 很早就用在了AR的app上了。Intel 发布Real Sense,一个可以做SLAM的深度摄像头,在CES上Demo了无人机自动壁障功能和自动巡线功能。

  5、(无人机)由原来做Google X Project Wing 无人机的创始人MIT机器人大牛Nicholas Roy 的学生Adam Bry创办的Skydio,得到A16z的两千万估值的投资,挖来了Georgia Tech的SLAM大牛教授Frank Dellaert 做他们的首席科学家。(相关内容:http://wwwccgatechedu/~dellaert/FrankDellaert/Frank_Dellaert/Frank_Dellaerthtml)

  SLAM作为一种基础技术,其实全世界做SLAM或传感器融合做得好的大牛可能不会多于100人,并且大都互相认识。这么多大公司抢这么点人,竞争激烈程度可想而知,所以Magic Leap作为一个创业公司一定要融个大资,才能和大公司抢人才资源。

  Q5 Magic Leap的感知部分的技术是怎么样的?

  这张照片是Gary教授在Magic Leap Stanford 招聘会中展示了Magic Leap在感知部分的技术架构和技术路线。可以看到以Calibration为中心,展开成了4支不同的计算机视觉技术栈。

  1、从图上看,整个Magic Leap感知部分的核心步骤是Calibration(图像或传感器校准),因为像Magic Leap或Hololens这类主动定位的设备,在设备上有各种用于定位的摄像头和传感器, 摄像头的参数和摄像头之间关系参数的校准是开始一切工作的第一步。这步如果摄像头和传感器参数都不准,后面的定位都是无稽之谈。从事过计算机视觉技术的都知道,传统的校验部分相当花时间,需要用摄像头拍摄Chess Board,一遍一遍的收集校验用的数据。但Magic Leap的Gary,他们发明了一种新的Calibration方法,直接用一个形状奇特的结构体做校正器,摄像头看一遍就完成了校正,极为迅速。这个部分现场不让拍照。

  2、有了Calibration部分后,开始最重要的三维感知与定位部分(左下角的技术栈),分为4步。

  21 首先是Planar Surface Tracking(平面表面跟踪)。大家可以在虚拟太阳系的Demo中看到虚拟太阳在桌子上有反光,且这个反光会随着设备佩戴者的移动而改变位置,就像是太阳真的悬在空中发出光源,在桌子表面反射产生的。这就要求设备实时地知道桌子的表面在哪里,并且算出虚拟太阳与平面的关系,才能将太阳的反光的位置算出来,叠在设备佩戴者眼镜相应的位子上,并且深度信息也是正确的。难点在平面检测的实时性和给出平面位置的平滑性(否则反光会有跳变)从Demo中可以看出Magic Leap在这步上完成得很好。

  22 然后是Sparse SLAM(稀疏SLAM);Gary在Info Session上展示了他们实时的三维重构与定位算法。为了算法的实时性,他们先实现了高速的稀疏或半稀疏的三维定位算法。从效果上看,和目前开源的LSD算法差不了太多。

  23 接着是Sensors; Vision and IMU(视觉和惯性传感器融合)。

  导弹一般是用纯惯性传感器做主动定位,但同样的方法不能用于民用级的低精度惯性传感器,二次积分后一定会漂移。而光靠视觉做主动定位,视觉部分的处理速度不高,且容易被遮档,定位鲁棒性不高。将视觉和惯性传感器融合是最近几年非常流行的做法。

  举例:

  Google Tango在这方面就是做IMU和深度摄像头的融合,做的很好;大疆的无人机Phantom 3或Inspire 1将光流单目相机和无人机内的惯性传感器融合,在无GPS的情况下,就能达到非常惊人的稳定悬停;Hololens可以说在SLAM方面是做得相当好,专门定制了一个芯片做SLAM,算法据说一脉相承了KinectFusion的核心,亲自测试感觉定位效果很赞(我可以面对白色无特征的墙壁站和跳,但回到场中心后定位还是很准确的,一点都不飘。)

  24 最后是3D Mapping and Dense SLAM(3D地图重建)。下图展示了Magic Leap山景城办公室的3D地图重建:仅仅是带着设备走了一圈,就还原了整个办公室的3D地图,并且有很精致的贴图。书架上的书都能重建的不变形。

  因为AR的交互是全新的领域,为了让人能够顺利地和虚拟世界交互,基于机器视觉的识别和跟踪算法成了重中之重。全新人机交互体验部分需要大量的技术储备做支持。

  接下来的三个分支,Gary没有细讲,但是可以看出他们的布局。我就随便加点注解,帮助大家理解。

  31 Crowdsourcing众包。用于收集数据,用于之后的机器学习工作,要构建一个合理的反馈学习机制,动态的增量式的收集数据。

  32 Machine Learning & Deep Learning机器学习与深度学习。需要搭建机器学习算法架构,用于之后的识别算法的生产。

  33 Scenic Object Recognition场景物体识别。识别场景中的物体,分辨物体的种类,和特征,用于做出更好的交互。比如你看到一个小狗的时候,会识别出来,然后系统可以把狗狗p成个狗型怪兽,你就可以直接打怪了。

  34 Behavior Recognition行为识别 。识别场景中的人或物的行为,比如跑还是跳,走还是坐,可能用于更加动态的游戏交互。顺便提一下,国内有家Stanford校友办的叫格林深瞳的公司也在做这个方面的研究。

  跟踪方面

  41 Gesture Recognition手势识别。用于交互,其实每个AR/VR公司都在做这方面的技术储备。

  42 Object Tracking物体追踪。这个技术非常重要,比如Magic Leap的手捧大象的Demo,至少你要知道你的手的三维位置信息,实时Tracking,才能把大象放到正确的位子。

  43 3D Scanning三维扫描。能够将现实物体,虚拟化。比如你拿起一个艺术品,通过三维扫描,远处的用户就能够在虚拟世界分享把玩同样的物体。

  44 Human Tracking人体追踪。比如:可以将现实中的每个人物,头上可以加个血条,能力点之类。

  51 Eye Tracking眼动跟踪。Gary解释说,虽然Magic Leap的呈像不需要眼动跟踪,但因为要计算4维光场,Magic Leap的渲染计算量巨大。如果做了眼动跟踪后,就可以减少3D引擎的物体渲染和场景渲染的压力,是一个优化的绝佳策略。

  52 Emotion Recognition情感识别。如果Magic Leap要做一个Her**中描绘的人工智能操作系统,识别主人得情感,可以做出贴心的情感陪护效果。

  53 Biometrics生物识别。比如要识别现实场景中的人,在每个人头上显示个名字啥的。人脸识别是其中一种,国内有家清华姚班师兄弟们开得公司Face++就是干这个干的最好的。

  总结:简单来讲感知这个部分Magic Leap其实和很多其他的公司大同小异,虽然有了Gary的加盟,野心非常的宽广,但这部分竞争非常激烈。

  Q6: 就算Magic Leap已经搞定了感知和显示,那么接下来的困难是什么?

  1、计算设备与计算量

  Magic Leap要计算4维光场,计算量惊人。不知道Magic Leap现在是怎么解决的。如果Nvidia不给造牛逼的移动显卡怎么办?难道自己造专用电路?背着4块泰坦X上路可不是闹着玩的。

  下图是,今年我参加SIGGraph 2015里,其中一个VR演示,每个人背着个大电脑包玩VR。10年后的人类看今天的人类追求VR会不会觉得很好笑,哈哈。

  2、电池!电池!电池!所有电子设备的痛

  3、一个操作系统

  说实话,如果说“世界就是你的新桌面”是他们的愿景,现在的确没有什么操作系统可以支持Magic Leap愿景下的交互。他们必须自己发明轮子。

  4、为虚拟物体交互体验增加物理感受

  为了能有触感,现在交互手套,交互手柄都是 VR 界大热的话题。从目前的专利上看,并没有看出Magic Leap会有更高的见地。说不定某个Kickstarter最后能够独领风骚,Magic Leap再把他收了。

AI技术如今已经越来越先进,多个领域都出现了使用AI技术创作的作品。而在音乐领域,也开始出现一些以AI技术为基础的音乐作品和艺术家。这些音乐作品和艺术家都得到了很大的关注和追捧,也引起了人们对于未来AI歌手的热议和探讨。

AI歌手是指使用人工智能技术和算法生成的虚拟歌手。与真人歌手相比,AI歌手没有感情和情感体验,它们的演唱声音、音质、音高和音调等方面都由AI技术生成。AI歌手是一种全新的音乐形式,它可以创造出一些与传统音乐不同的、独特的音乐体验。AI歌手的出现也引发了许多关于其未来发展的问题和猜测。

在我看来,AI歌手在未来可能会成为主流,但这需要满足一定的条件和前提。首先,AI歌手需要有足够的音乐素材和曲库,保证其能够提供多样化、丰富的音乐作品。其次,AI歌手需要有足够的粉丝和用户支持,这可以通过机器学习和数据分析技术来实现。最后,AI歌手需要有足够好的表现和演出能力,才能受到大众的认可和追捧。

目前,我们已经看到了一些使用AI技术创造的虚拟歌手在音乐领域已经取得了不小的成功。例如日本的虚拟歌手初音未来、美国的虚拟乐队Gorillaz、还有像AI孙燕姿这样的虚拟歌手。他们的音乐作品既包含了新颖的创意和思路,又具有很高的专业水平和艺术性。这些虚拟歌手的成功是由于AI技术的发展和普及。

如果未来AI歌手能够得到更多的关注和支持,那么它们可能会逐渐取代传统的真人歌手成为主流。相比较真人歌手,AI歌手具备无情无私的特点,可以快速准确地创作出一种歌曲风格,制作出一份作品甚至一个演唱会,而且可以在旋律、音色、曲风等方面做出更精细的调整,这都是真人歌手所无法比拟的。除此之外,AI歌手的演出成本也远低于真人歌手,更容易被公司和广告商们接受和赞同,从而广泛推广。

但是,作为AI技术应用的一种体现,AI歌手也面临着一些问题和挑战。首先,AI歌手的音乐表现力有限,其创意和感情表达都有一定的局限性。即便有了复杂的语义分析算法和情感识别技术,也难以完全取代真人歌手在音乐表达上的能力。其次,AI歌手的知名度和影响力目前还不如真人歌手,尤其是在现场演唱、互动和社交等方面存在很大瓶颈。

综上所述,AI歌手是人工智能技术在音乐领域中的一种新形态,它已经成为一些人关注和讨论的话题。虽然AI歌手在某些方面具有明显优势,但在音乐领域中其与真人歌手还存在着差距和局限。因此,在未来AI歌手能否成为主流,还需要进一步发展和探讨。我们应该积极拥抱和支持人工智能技术的应用,同时也要保持对真实音乐、真人歌手的敬畏和关注。

人工智能的英文缩写就是经常提到的AI,它源昌就是咱们利用计算机编程制造出一个智能的系统,并安装到所应用的机械上来模拟咱们人类的各种工作搏模和行为。简单地说就是让机器来实现原来只有人类才能完成的这种复杂的工作,就是赋予这个机械一种思维。其实这个想法很早就被人提出了,是在1956年的时候。像之前挑战各个围棋大师的阿尔法狗就是人工智能机器人,还有咱们看到的**终结者和机械战警等就是人类对人工智能最终形态的幻想。计算机视觉岗位和人工智能似乎“风马牛不相及”,这也是人工智能领域非常火热的就业方向之一。拍照的时候,相机可以自动地将人脸的画面进行识别和检测;P图的时候,可以针对人脸进行相应的美化处理(眼睛变大、涂腮红)等等。当雹银扒冷冰冰的机器能够感知到具体的影像,并且对此进行识别时,人工智能相当于为机器安上了一双眼睛,这种“神奇”的技术手段在岗位需求中自然会占有先机。《dh06odhkulscn/article/694518html》

《dh06flhrqbdcn/article/071983html》

《dh06exlnlhrcn/article/849523html》

《dh06qioixmrcn/article/894256html》

《dh06sasocsvcn/article/935678html》

《dh06uhastyucn/article/935046html》

《dh06uhastyucn/article/704859html》

《dh06ughdirscn/article/152836html》

《Android智能穿戴设备开发实战详解》怎么样

Google推出了针对可穿戴智能设备的新版Android操作系统。

从目前的市场情况来看,这款新操作系统率先应用在一些智能手表之中。

到目前为止,还没有看到两款不同的可穿戴设备搭载了相同的操作系统,这种结果也就意味着,针对一款智能手表的应用与服务不会运行在另一款智能手表上。

事实上,AndroidWear已经让其它智能手表操作系统——例如,索尼为Smartwatch2打造的基于Android的定制操作系统等显得有点多余。

像三星Tizen(搭载在Gear智能手表之中)之类的操作系统似乎已难以吸引开发者的关注。

在此方面,谷歌已经做得非常出色。

不过,AndroidWear在初步发布之后,并非有关此系统工作模式以及其功能相关的所有事物都非常完美。

还是有很多优缺点的,这里就不赘述了。

什么是智能可穿戴设备,怎样算的上是智能

智能可穿戴设备是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如智能手表、智能手环、智能眼镜、智能服饰等。

广义的智能可穿戴设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能(例如智能手表或智能眼镜等),以及只专注于某一类应用功能,需要和其它设备(如智能手机)配合使用(如各类进行体征监测的智能运动手环、智能首饰等)。--OFweek可穿戴设备网

智能穿戴设备利用脑意念可控制玩具,它是怎么做到的?

在一些魔术表演中,人类通过意念可以控制身边物体移动,虽然这种意念控制具有欺骗性,但是通过科学的方式还是有可能达到。事实上,当人脑陷入思考或者接受外界刺激的时候,会释放出一定能量的脑电波,通过检测这些脑电波,能够有效获取人的内在情绪以及读懂人脑所下达的指令。

以前的脑电技术主要集中在医疗康复领域,而未来脑电技术将有更多行业级别的运用,涉及交互方式的改变,其对智能家居以及VR产业都有推进作用。在今年的CESAsia上就出现了不少与脑电波密切相关的产品。

如今的VR产品设计者开始考虑如何将人机更好的进行交互,在现有的一些VR设备中,通过特定技术捕捉使用者动作或者面部表情进行场景交互体验,然而这些技术却在获取人类真实情感中有一定难度。

未来一旦这项技术能够得到运用,将能够提升现有机器人以及VR设备的交互体验。

改变交互方式

目前VR产业中较为常用的交互技术包括动作捕捉、触觉反馈、眼球追踪、语音交互等技术。一些VR头显厂商如Oculus、索尼、HTCVive等采用虚拟现实手柄作为标准的交互模式。这样的交互设备显然是用来进行一些高度特化的游戏类应用的(以及轻度的消费应用),能够满足早期游戏类玩家的消费群体基本需求。然而,这些交互方式都难以精准的将人类的情绪带入人机交互当中。

“中国脑计划”被我国“十三五”规划纲要列入国家重大科技项目。其主要研究方向是以探索大脑秘密、攻克大脑疾病为导向的脑科学研究和以建立和发展人工智能技术为导向的类脑研究。当前我国已经有企业具备脑电核心算法和技术并已经达到世界前沿国家的同等水平,这些核心的算法可以运用到医疗领域,教育领域,VR领域,智能家居领域,智能驾驶领域,群体大数据等领域,这背后可以拉动的产业发展和尚未挖掘的经济价值是非常大的。

“包括传感器、面目识别、眼球追踪都是输入的终端,但是这种输入无法让内容感受到你人的情绪变化,比如说你看到一个惊险刺激的动作片子,你很兴奋、很害怕,但是内容不知道。结合脑电技术,VR设备能够感受人的情绪变化,去调节我们,让我们的变得更加跟随用户的心情而动。”创达云睿智能科技有限公司CEO贺超说道。

过去人机交互技术在不断改变、简化,未来穿戴互联网人机结合方式类似于在《钢铁侠》中所描述的那样,机器和人的脑电将会互相结合交互,对于脑波式、瞳孔,包括表情,各种人工智能的算法都会结合在一起,给人最大的智能体验。

“VR本身是在内容上的缺失,而内容决定了VR将来的走向。脑电能够将内容和人之间、用户之间的交互的接口,又通过我们识别脑电进行分析,检测到我们的情绪,包括我们对内容的想象。比如说我们期望有内容的主角,有更多的运动方向,内容的操控,整个都可以在VR引进上实现。”贺超说。

作为人机交互的方式之一,通过戴在设备获取脑电,并将脑电信息输入设备做人类的情绪、情感识别,同时进行运动操控,对游戏或者是内容,进行上下左右等方向操控。

云睿智能正尝试开发VR内容与脑电技术结合产品,未来产品将会提供开放接口与教育产业、游戏产业进行对接。“在游戏、教育团队培训等方面,目前利用脑电技术的行业性VR解决方案是将内容教材植入到VR设备,使用者的学习、治疗效果可以通过他的脑电数据判断出来。”贺超告诉记者。

存在技术融合壁垒

市面上的大部分脑波智能穿戴产品运作原理基本依靠记录人脑电图,通过不同脑波频率判断人所进入的状态。与传统在医疗军事领域的脑波设备相比,这些脑波穿戴产品体积更小、成本更低、佩戴更加方便,无需专人辅导,用户就可以自行操作。同时,与移动互联网结合,配合一系列App可以增强用户体验,同时也打开了许多脑电波民用化的可能性。然而在行业上的应用还主要在于提供参考性的指标,而脑电技术要与消费产品深度融合,还需要克服一定的技术壁垒。

尽管脑电技术研究已经发展90年,然而要想在行业中得以应用,在收集分析脑电信息的精确度以及设备的便携性上都必须有所提升。

“现在的脑机接口一个很大的问题是个体差异问题。有人上去以后控制轮椅可以100%准确,另外一个上去可能50%都不到,这是个体大脑决定。”全国工程生物学会副理事长尧德中教授介绍道。

目前,脑电的信号采集设备主要分为三类:植入式、半植入式以及民用非植入式的脑电电极。这三种植入方式采集方式在效果以及适用领域上各有不同。

植入式的设备通常是将微纳米的电极植入在头皮下,由于干扰较少,其收集到的数据精度高,但是对使用者身体造成一定程度伤害,只能在治疗、科研领域使用。

而最主流非植入式由于需要利用电极与头皮接触进行脑电信息采集,采集时虽然不需要像植入式那样给使用者带来痛苦,但也需要将生理盐水以及导电液涂在头皮上,对于日常消费类使用会产生不小的麻烦。而金属杆电极的半植入方式,虽然在使用方便不损耗,成本费用也比较低廉。但是金属对信号的干扰性,对信息提取产生一定困难。

由于植入式电极所带来的不便,脑电技术要想向消费级产业发展必须要使用非植入的方式,而目前非植入电极所收集到的脑电波的精确度对比植入式来讲还有很大差距。脑电技术如今主要在医疗康复领域,一些健康类的智能穿戴设备都有对脑电技术的引进,然而检测的结果只能作为参考。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3976158.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-19
下一篇2023-08-19

发表评论

登录后才能评论

评论列表(0条)

    保存