李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系

时间:2019-04-24 点击: 来源:互联网作者:匿名

简介：李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系 2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办，斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智能研讨会上表示，最近她所在的实验室正在做一项新研究，基于深度学习和视觉……

2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办，斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智能研讨会上表示，最近她所在的实验室正在做一项新研究，基于深度学习和视觉化语言模式了解不同物体之间的关系。

李飞飞表示，无论是动物智能还是机器智能，视觉都是非常重要的技术。视觉是人脑中最为复杂的系统，占有大脑中50%的认识单位。视觉反应速度非常快，只需要150微秒。这使得图像识别技术变得非常重要但又十分复杂。

过去8年时间，图像识别的错误率降低了10倍。2012年对GPU和深度识别技术的了解让这一领域实现了突破。但是，在一个图集中，要获得数据和物体之前关系的信息依然很难，目前所能做的工作都十分有限。李飞飞所在实验室正在为攻克这一领域展开新的研究。

她列举了一张图中的算法，这种算法可以预测不同物体之间的空间关系，进行对比，了解这种对称的关系，然后了解物体之间的动作，以及它们的之间位置关系。物体之间还能有什么样的数据集，提供一个标签，进行短句子描述。进行进一步了解视觉世界，而不仅仅是一系列的物体名称，实验室正在做相关量化研究。

以下是李飞飞演讲实录，enjoy：

今天我给大家带来的是最近的一些研究思路，今天我的演讲内容是关于视觉智能，动物世界当中有很多物种，机器人保养，而且有一种非常了不起，绝大多数动物都有眼睛，因此视觉是最为重要的一种感观的方法和认知方法，这是在动物的大脑当中，帮助动物在世界当中生存下来进行沟通，去操控和生存。

所以我们无论是讨论动物智能或者是机器智能的话，视觉是非常重要的基石。世界上所存在的这些系统当中，最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候，这个进化已经不断地让我们的视觉系统不断地发展，使得我们的视觉系统非常重要的去理解这个世界，而且这是我们大脑当中最为复杂的系统，而且有50%的大脑当中的这些认知的单位，都有着最为复杂、最为高级的感知系统，所以能够让我们知道人类的视觉系统非常了不起。

这是认知心理学家做过的一个最为著名的一个实验，这也就是告诉大家人类的视觉体系有多么了不起，大家看一下这个视频，你的任务是如果看到一个人的话就举手，这是一个智商测试。所以每个图景的时间是非常短的，也就是1/10秒，不仅这样，而且让大家看一个人的话，并没有告诉你是什么样的人，或者他站在哪里，什么样的姿势，穿什么样的衣服，然而大家仍然能很快地识别出这个人。

1996年的时候，Newl（音译）教授学生证明出视觉认知能力是人类大脑当中最为了不起的能力，因为速度非常快，而且大概是150微秒，在150微秒之内，我们的大脑能够区别非常复杂的图像。会把非常复杂的含动物和不含动物的图像区别出来，那个时候计算机没有接近人类的，这种工作激励着计算机科学家，希望解决最为基本的问题就是图像识别问题。

过了20年到现在，计算机领域和专家也在这个问题上发明了几代技术，这个就是我们所了解到的这些图集，当然也取得了非常大的进展和进步。这张图表是给大家总结一下，在过去的几年当中，在分类挑战当中一些标志性的项目，横轴是时间年份，左边纵轴指的是分类错误。我们能够看到它的错误是降低了10倍。8年的时间里错误率就降低了十倍，所以这八年当中经历了非常大的革命。

2012年的时候了解了GPU技术，以及深度识别技术，帮助世界了解在深层学习革命的一个发展，所以非常令人激动的领域，尤其过去几十年在人工智能的研究。作为科学家就会想一下在这个图集之外，还可以做到什么。

通过一个例子告诉大家，两张图片，包括一个动物和一个人，通过图像识别来看这两个图非常相似，但是他们的故事却是非常不同的，当然你肯定不想在右边的图的场景当中，我们在这就会出现一个非常重要的问题，就是人们能够做的，这也是最为重要、最为基础的一点图像识别功能，就是识别图像物体之间的关系，首先这个输入是图像本身，但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作，但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。

最近我们的实验当中做了这样一项工作，开始新的研究，预测根据深度学习，以及视觉化语言模式了解不同物体之间的关系。

这张图的算法能够预测不同物体之间的空间关系，进行对比，了解这种对称的关系，然后了解他们之间的动作，以及他们的之间位置关系。所以这就是一个更为丰富的方法，了解我们的视觉世界，而不仅仅是一系列的物体名称，这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。

一年前的时候，我们知道这个领域发展非常快，就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。

我们可以看一下，在他们之间的关系是什么，而且在这个图像当中不同物体的关系，能够让我们去更进一步了解这个问题，就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象，非常有限的信息，比如这是一个物体，COCO进一步学习，提供一个标签，进行短句子描述，视觉数据信息是非常复杂和非常多的，

根据途径出来一些问答，经过三年的研究，我们发现可以有更为丰富的方法来描述这些内容，通过这些不同的标签，描述这些物体，包括他们的性质、属性以及关系，ABB机器人保养，然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中，包括上千个标签，包括属性和关系，还有句子、问答信息，在我们这样一个信息库当中，能够非常精确地让我们来进行更加精确的研究，而不仅仅知道物体识别本身。

我们如何来去使用这样的图表呢？我们做过的一个工作，就是我们看一下这个场景的搜索，大家无论在百度还是在Google搜索中，搜索过图像或者图集，比如可以输入穿西装的男性，可以展现出很多的图，如果输入可爱的小狗的话，ABB 机器人培训，有很多类似的图会出现，这一点非常好。同时看一下他们解决了什么问题呢？是否解决了图像搜索的问题呢？我们输入一个句子，男性穿着西装，抱着可爱的小狗，瞬间结果不是特别好了。绝大多数搜索引擎的这种算法，在搜索图像的时候，可能很多还是仅仅使用物体本身的信息，他们只是简单地了解这个图有什么物体，但是这是不够的。

如果我想搜索一个坐在椅子上的男性的话，如果物体本身给我们一个人形象或者椅子形象再能加上更多的属性，加上更多的信息，这个结果就会更好一些。

TAG:

免责声明：本网部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题，请立即联系网站所有人，我们会予以更改或删除相关文章，保证您的权利。

上一篇：运送样本、发药、看病、做手术医院里机器人无处不在

下一篇：李开复：2018中国最大AI红利是政策

工业机器人维修相关阅读：

谷歌任命Google Cloud人工智能新主管接替李飞飞

动动嘴就能控制机器人！MIT新研究让机器人理解语境更懂你的话

官宣：GoogleAI中国中心在北京成立，李飞飞回国带队

最新研究：抢走美国人工作的不是墨西哥而是机器人！

扫二维码手机浏览