对话翁嘉颀：畅聊竹间智能情感计算技术与商业落地|CCF-GAIR2018|半岛·BOB官方网站

发布时间：2024-12-26 02:49:01　　点击量：856

本文摘要：(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，、香港中文大学（深圳）主办，获得了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。

(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，、香港中文大学（深圳）主办，获得了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。CCF-GAIR 2018 沿袭前两届的顶尖阵容，获取 1 个主会场和 11 个专场（仿生机器人，机器人行业应用于，计算机视觉，智能安全性，金融科技，智能驾驶，NLP，AI+，AI芯片，IoT，投资人）的非常丰富平台，意欲给三界参会者从产学研多个维度，呈现更加丰前瞻性与落地性结合的会议内容与现场体验。在自然语言处置专场上，竹间智能CTO翁嘉颀应邀作为“自然语言处置的落地难题及应用于未来”圆桌辩论嘉宾，共享了自己的观点。会后，对翁嘉颀展开了一对一的采访。

竹间智能正式成立于2016年，主要是做到文本分析、大自然语义解读、情感计算出来。竹间智能主要有两条产品线，一条是类脑对话机器人，包括了客服机器人、导购机器人、金融机器人、营销机器人、个人助理、品牌IP机器人等；一条是多模态情感识别系统，还包括情绪辨识分析系统、人脸表情识别系统、印象分析系统、广告效果分析系统、呼叫中心质检系统、课堂情绪分析系统等。目前大多做到对话式人工智能的公司专心于文本，而竹间智能的多模态情感辨识则还包括了文本、语音、人脸表情等多个模块。

此次专访翁嘉颀也主要环绕着情感计算技术和商业化落地两个方面。在翁嘉颀显然，嵌入式分成三个层次，最底层是自然语言处置，第二层是意图解读，第三层是解读背后的涵义，目前业界还逗留在前两个阶段，要做第三个阶段，情感计算出来不可避免。情感计算出来的难题在于不仅要精确解读单个模态的情绪，当多个模态的情绪发生冲突时，还要精确判断哪个情绪才是现实的，比如当一个人的语音情绪是高兴的，但是面部表情毕竟气愤的，那他是高兴还是气愤呢？更加无以的地方在于，当AI得知人的情绪之后，如何展开反应，如何去恳求心情低下的人？竹间智能以电影《Her》里的智能机器人赛曼莎为原型，指出机器人应当能看懂人脸表情、听不懂人类对话，从一开始就致力于多模态情感计算出来。且创始人简仁贤从一开始就不只是注目在手机、音箱里的智能语音助手，也注目卖场、零售等场景，在这些场景中，只有文字和语音的交互似乎过于，视觉必不可少。

然而，目前除了零售场景外，情感计算出来的落地场景还必须探寻，却是很多私人的场合，比如家庭里，就很难拒绝接受有机器人加装了摄像头。翁嘉颀指出现在语文和文本技术需要在特定领域老大人解决问题，特定领域是所指我要订酒店、订立餐馆参观，能与人展开大自然对话，而需要让人去按照机器人的逻辑说出。未来，每个人都会有自己的智能助理，需要解读你的情感、你的意图、老大你照顾日常生活。而每个企业也不会有客服机器人，以后很有可能就是用户的智能助理和企业的客服机器人做事。

在这些场景里，大公司和创业公司都有机会，没公司能解决问题所有的技术和场景。以下为专访原文，展开了不转变本意的编辑和整理。：您目前在竹间智能负责管理哪些工作？重新加入竹间之前您的工作经历是怎么样的？翁嘉颀：我从1982年开始专门从事计算机，27年前认识人工智能，当然那个年代做到人工智能只不过做到不来，因为那时候的人工智能早已整个走下坡了。

当时绝大部分做到AI的人都转到做到搜索引擎，因为搜索引擎跟文本分析有一定的关系。我在搜索引擎领域做到了大约11年，现在我又返回人工智，这一次AI应当不至于再行泡沫化，它是知道需要步入人类的生活。

我大约在两年半之前重新加入竹间智能，目前兼任公司CTO，负责管理技术部分，还包括设计竹间目前整个对话的架构、模块怎么体现、模块如何交互等，以及整个对外项目的落地：能明确说道一下有哪些模块吗？翁嘉颀：聊天机器人大约分三类，第一种是功能型的机器人，像SIRI、微信语音助手，可以坎天气、可以坎股票、可以去设置一些警告；第二种是知识型的，你可以回答他陆奇去哪儿工作了？（这个是昨天仅次于的新闻，他重新加入拼成多多了），可以回答陆奇离开了百度之后，股票究竟跌到了多少（三天大约跌到了18个点）；第三种是闲谈，可以与人类展开情感对话，展开情景式聊天。如果你跟机器人说道你爱情了，那我们要想要机器人该如何恢复，如何去掌控整个对话的上下文的话题。我负责管理的是整个对话的流程掌控，比如用户说道了一句话，机器人必须辨别应当是继续执行任务、获取科学知识、还是打开闲谈，因为每个模块都可以触达。

这个跟搜索引擎一样，百度的搜索引擎背后大约有300多个模块，谷歌背后大约500多个模块，今天问一句话，它只不过300多个模块都出来答案，出来答案之后，那我该如何把答案统合，做到个排序。第一页应当看见哪些，第二页看见哪些？那聊天机器人也是，聊天机器人更加苛刻，因为我没有办法问100句话，我不能问一句话。这时候我应当中选哪句话来问，让它不会较为生动一点，又没那么呆板，但是问又会过于离谱。

这是整个对话掌控在做到的事情。：现在有像微软公司小冰一样同时发展智商情商的对话机器人，也有一些创业公司做到得更加横向，主攻任务型，或者是科学知识图谱领域。竹间智能在往哪个方向发展？翁嘉颀：微软公司小冰将智商与情商融合的概念是对的，竹间智能的创始人简仁贤也是微软公司小冰的创始人之一，他在2015年从微软公司出来创立竹间智能（Emotibot），公司名字的命名就是“情感机器人”的意思。竹间智能只不过比微软公司小冰还早于一年半做到情感机器人。

情商跟情感并不是一个意思，情商它的意思是我知道去解读你，我会侮辱你，我会冷冰冰的去问一个东西，那这个当然还包括情感计算出来在那边。在文字情绪方面，有些企业做到了于是以、胜、中3种分类，微软公司小冰有可能做到了6种，而竹间智能在文字情绪上面做到了22种分类，不会更加精准地观测无趣、妒忌这些情绪。光是文字情绪是过于的，我们还做到语音、表情情绪。

例如，一个人说道我中考录了500分，这时候你并不知道应当回应恭贺还是恳求，这时你就必须告诉语气。一般来说，语音的情绪不会比文字的情绪的最重要度更加强劲，信号更加反感。

人脸表情的情绪要简单一些，因为我讲话谈到一半的时候，我的脸有可能是变形的，我的嘴巴恰好张开，这个时候抓拍下来，不代表我现在是吃惊的。那么，文字、语音、表情混搭在一起，就更为简单了。像我常荐的一个例子，我面带着微笑，回来我的同事说道你死定了，面部表情的情绪和文字的情绪是冲突的，这时候应当怎么办？这是一个多模态情感的概念，就是你目前的情绪是文字、语音，再行再加人脸表情，整个混搭在一起，然后各有各的权重，一般来说文字的比重不会略为较低一点，语音不会是最低的，人脸表情却是分列在中间。刚的那个例子，我面带微笑说道你死定了，只不过这个还要看上下文，如果前面两个我们都在打趣，我忽然面带微笑说道你死定了，那还是打趣，如果前面两个我们显然在争吵，我忽然面带微笑说道你死定了，那认同是在威胁你，所以这个情绪情感只不过不是只看文字。

：情感计算出来这个概念最近大家说道得较为多，能说道说道您对这个概念的解读吗？翁嘉颀：情感计算出来是由MIT教授Rosalind Picard明确提出来的，他是情感计算出来的始祖。然后以目前来说，我一般把嵌入式分为三个层次，最底下的层次叫作自然语言处置，比如“我肚子饿”、“等会儿想要不吃东西”，这两句话，它的句法分析是不一样的，这是最底下的一层。第二层叫作意图的解读，这两句话虽然不一样，但是它意图是完全一致的。它的意图有可能代表说道，我想点店内，或者我要去找附近的什么餐馆。

然后，第三层是背后的意思，目前还没有人能做，像我在今天这个场合，我们第一次见面，我如果忽然跟你说道我肚子饿，我坚信你的心里感觉会过于好。你总会实在说道，我是不是来要饭的？那如果我跟一个女同事说道我肚子饿，她搞不好实在说道我是不是契约她过来睡觉，是不是有不当的企图？在有所不同的场景、跟有所不同的人、在什么样的状况我谈某种程度的一句话，它只不过背后代表的意思是不一样的。目前大家都还在做到第一层和第二层，我如何把句子分对，我如何让句法结构是对的。

在这方面，国内哈工大有很多专家。第二层意图解读这个也很多人在做到。目前可以做大约能用的地步，我对电视、音箱谈说道“来首谁谁的歌”，它告诉我是要听音乐。那我跟音箱说道，“谁谁的歌好好听”，也不代表我要听得他的歌，我只是说道以后不要再放他的歌给我听得，现在能做正确理解这些句子的意图。

第三层，背后的意思。我谈肚子饿，这句话究竟背后确实的意思是什么？那要跑到这一步，情感计算出来不可避免，整个场景、情境你不可避免。：现在竹间智能有将文字、语音、人脸都融合到一起来做到情感计算出来的落地场景吗？翁嘉颀：谈一个我们老大夏普电视做到新零售的例子，夏普有个新开业的商场分店，那个商场里边总共有五家买电视的。

开业的前三天，夏普的营业额90万，另外四家特一起营业额只四十几万，夏普一家就多达其他四家的总和，这是怎么做的？我们在卖场的入口敲了一个大的电视屏，可以抓拍每个路经的人的脸，能辨识出有男/女、长头发/较短头发、岁数、表情、颜值等，很多人会停下来来看。然后我们根据用户画像，展开有所不同的商品和优惠活动的引荐。这样使得进店的客流就是别人的五倍以上。入到店里后，我们有无人的智能货架，上面加装了平板、摄像头，当摄像头看见一个长头发的女生回头过来，智能货架就不会主动交谈，说道，“这位女士，你的头发十分漂亮，我这里有洗发、护法、润发的产品，你是不是兴趣？”如果说摄像头辨识到女生脸上有黑斑，还不会自动引荐遮瑕膏等产品。

如果对方对此了，则不会之后话题；如果摄像头找到消费者的脸色显得更加漂亮，它就不会暂停话题。所以我们看见，这个案例里的交互还包括了有人脸、语音和文字。：现在的对话式人工智能主攻语音，竹间智能为什么一开始就推崇视觉？翁嘉颀：我们的对话式人工智能的点子主要来自于电影《Her》，里面的智能助手赛曼莎可以仅有方面地感官用户的状态，能看见用户的表情听见用户说道的话。

任何人的交流，语音固然最重要，但是很多时候只不过一句话都不用说，一个表情就早已充足了。比如你碰到一家门店，看见某个产品遮住反感的表情，那只不过就早已表达出来了你显然不讨厌这个产品。所以那时候在做到的时候，一开始跟上，我们就有图像处理、语音处置，有文字的处置，当时老板（简仁贤）早已想好他未来要的场景。

不只是有手机上的嵌入式、音箱上的嵌入式，还要还包括入到卖场里边。那么视觉就是必不可少的部分。所以一开始老板的野心就较为大。

：文字、语音、人脸的多模态情感计算出来的难题在哪儿？翁嘉颀：较为大的难题当然是几种情绪相冲突的时候应当怎么办？你如果说文字里是高兴，语音也是高兴，人脸表情也是高兴，那没问题，小学生也告诉这是高兴。它语音是气愤，文字是高兴，比如我很气愤的去说道，“我今天很高兴”，你听得了以后你实在是什么意思呢？要解决问题这个问题，首先是文字、人脸和语音的情绪辨识要精确，再行一个就是几个情绪相冲突的时候，我究竟该以谁居多？一般来说，语音情绪占到的比重更大，但是如果说语音情绪是气愤，但是信心程度只有三四分，文字说道你是高兴，信心程度99分。这个时候应当怎么办？还有一个最重要的点是整个情境，虽然有三个多模态的辨别，但是如果只有部分段，也是过于精确，我还要看倒数的情境，因为人情绪变化不至于太快，你当然有时候瞬间不会惊艳，瞬间不会爆怒，但是不代表说道，你一生气下一秒忽然就逆高兴，所以整个倒数的情绪要去考虑到，这个是较为大的一个难题。

最后，一个最好的地方是，智能助手找到你气愤或者哀伤，该如何去安抚你、恳求你，情绪辨别完了之后，该怎么对此？：多模态情绪计算出来的方案在你们现在的业务里能占太大的比例？翁嘉颀：目前来说，智能客服绝大部分没视觉，然后智能电视、冰箱、音箱也都没摄像头，却是你在家里面装有一堆摄象头，让人深感十分忧虑，这个认同侵害你的隐私。在公共场合，比如外面的卖场、银行，有摄像头也有监控，这个大家是拒绝接受的。

比如说我去试镜的时候，有一个摄像头对着我，然后我在这里讲话的时候，老大我做到着人脸分析，这个感觉有些怪怪的，但是有可能可以拒绝接受。人对摄像头的接受程度要看场景，而且或许要看年代吧，每个年代拒绝接受的东西都不一样，像现在七十几岁那一辈，知道不会用手机吗？不会用电脑，这个有可能接受度不低，大家会用APP吗？还是习惯拿电话一起谈，拿电话去沟通交流，而不是用app，用网络。有可能五六十岁这一代，他有可能不过于习惯用搜索引擎，因为他长大的那个年代没搜索引擎。然后四十几岁这一代，用APP的比例意味著没二十几岁这一代远比多。

所以这个还是要看，未来的一些变化，有些场景拒绝接受的，有些场景不拒绝接受。：像现在有一些音箱早已有屏幕了，有可能加到视觉吗？翁嘉颀：目前来说，特了有可能还买很差。一般来说如果特了一个摄像头的话，我还要再行特一个盖子，我可以把这个盖子盖起来，把摄像头遮盖。必需告诉他用户这儿有摄像头，而且还可以给他一个盖子，让他适当的时候可以把摄像头遮盖，这个用户可以拒绝接受。

要不你忽然特个摄像头，你的成本增加，反而买很差，让大家不会实在这个音箱在干嘛？而且音箱最少说道OK，我把它开动，摄像头就就让，而不是你在家里天花板上四处装进了摄像头，那个知道一点隐私都没。：如果它是一个机器人呢？具有跟人眼相近的眼睛。

翁嘉颀：我们看科幻电影的时候，大家是拒绝接受的，机器人可以在你家里走来走去？但是你知道挂一个这样的机器人，有摄像头在你家里边，你心里现在应当会过于难受。：竹间智能有机器人工厂（Bot Factory），协助企业自定义机器人，那么你们不会会让每个自定义的机器人具备它自己的个性？翁嘉颀：目前我们再行只做最简单的，机器人有机器人的属性。

机器人叫什么名字，是男生还是女生，今年几岁？晚上睡觉不睡？宽什么样子？爸爸是谁？妈妈是谁？来自于哪里？我们不会根据大家最常问的这些问题展开原作。此外，有些机器人的风格较为坦率，有些则较为可爱。这个我们目前有做到一些电源，像有些机器人可以谈笑话，有些机器人不能坎天气。

我们有尝试下一步，能无法有一个你自己的机器人，我拿你平时跟你朋友聊天的一些数据来展开训练，自学你讲话的方式，那你就有一个你的机器人，用你的风格在聊天。这一步在技术上是不切实际的，目前只是数据量的问题。我必须获得充足的数据，让那个机器人可以渐渐的相似你的不道德。

但这又牵涉到你愿不愿意把你的隐私公开出来，你跟你朋友聊天的那些对话，都是你的隐私。：这个你们有在实验了吗？翁嘉颀：我们两年前实验过，但是找到用户没这个耐性，因为你有可能要花上很多时间，你教教一个小朋友要教多少年？十几年，二十年，对不该？你有那么多耐性去教一个机器人吗？你大约教教个两天就没有耐性了，所以这是耐性的问题。

：现在像微软公司小冰，还在往人工智能创作方面发展，她不会写诗，不会唱歌、不会写出新闻。在这个方面，你们怎么想要？翁嘉颀：只不过写诗、对对联，这个可玩性相对来说不低。因为它只不过是在一个十分受限的方向解决问题。从冷笑话的观点来说，这些是很好的，大家不会实在很新鲜。

但是从简单的观点来说，做到这个东西如何协助解决问题、需要替我赚，目前还较为无以派上用场，当然小冰的定位是陪伴，就是让你会那么无趣。这填花哨的东西反而是好事，是有协助的。：竹间智能一开始就侧重商业化？翁嘉颀：对，因为我们必需往商业化这个地方回头，我做到一个很有意思的机器人，只不过是收不到钱的。

因为微软公司无所谓的，微软公司它有Windows、Offices这些盈利业务，就可以把小冰制成冷笑话有意思的。：现阶段来看，您希望对话式人工智能超过什么样的水平？翁嘉颀：我实在现在技术水平需要在特定领域老大人解决问题，特定领域是所指我要订酒店、订立餐馆，它能解读我的对话。订立餐馆的机器人，必须解读特定的话，比如，“七八个人有两个小孩”和“七八个人加上两个小孩”，这两句话，意思不一样。

人说出，一般来说会必要阐释，不会有各式各样的众说纷纭。比如，“我跟我爸妈要老大女朋友陪”，这代表必须几个座位呢？他不是告诉他你四个，他是告诉他你一段怪异的文字。那么，在这个领域，必须让机器人听不懂人类的这些话，而不是让人类去适应环境机器人，用机器人能听懂的方式问。

我实在未来，每个人有一个自己的机器人，那个机器人告诉你的爱好，你跟他说道老大我订立个店内吧，他告诉你讨厌不吃什么，不讨厌不吃什么，还告诉你昨天、前天不吃了什么，今天不要订立一模一样的。我跟他说道老大我打个电话给妈妈吧，他告诉妈妈所指的是谁。然后告诉你妈妈的电话，告诉几点打电话适合，他可能会警告你说道，现在太晚，妈妈早已睡了。

以后，每个企业有可能也不会有一个自己的机器人，比如麦当劳，有可能有个订餐的机器人，老大你负责管理订餐，那如果你有一个自己的机器人，麦当劳有一个机器人，未来有可能是机器人跟机器人交流。我只要跟我的手环说道，老大我点个巨无霸吧。

然后它告诉巨无霸是麦当劳，它就跑完去找麦当劳机器人，两个机器人，不一定是用人类的语言交流，它们不会用它们的方式互相交换信息，然后麦当劳就处置这个东西，就把这个定单完结丢弃了。：在这种未来图景里，大公司占有了终端优势，创业公司的机会在哪里呢?翁嘉颀：微信是一个很天然的入口，因为大家现在习惯关上微信，比如，我在微信上面说道，“我这个月刷卡翻了多少钱？”微信的机器人告诉你三张卡：招行、交行、浦发的卡，它就去找这三家机器人，老大你做到身份认证，你不必进三个银行的APP，微信的机器人能必要告诉他你三家银行的信息。

当然，入口很难是小公司需要去守住的，但是语义解读，微信一家搞不定，腾讯一家是搞不定的。我的语义解读包括说道每一家招行、工行、浦发，它后面也要有这个机器人去拒绝接受这些指令。或者拒绝接受一句自然语言。

这个东西只不过是每一家还必须协助的。涉及文章：竹间智能简仁贤：超越千篇一律的聊天机器人 | Chatbot的潮流探究自然语言处置的商业落地：从基础平台到数据算法 | CCF-GAIR 2018微软公司发大讨：要做到智商和情商兼备的语音助手少女歌手小冰教导记：不会作词作曲合唱的人工智能的问世原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：半岛·BOB官方网站,半岛bob·体育中国官方平台,半岛·体育中国官方网,半岛·体育官网入口,半岛·综合体育中国官网

本文来源：半岛·BOB官方网站-www.chengdurongyi.com

地址：河北省邯郸市东辽县央路大楼46号
电话：18888889999
手机：河北省邯郸市东辽县央路大楼46号