• 24小时机器人维修热线:020-82000787

子锐站内搜索 互联网
  • 广州子锐机器人技术有限公司
  • 服务热线:020-82000787(8:30-17:30)
  • 联系手机:15889988091(非工作时间)
  • 座机:020-82000787
  • 传真:020-32887675
  • 邮箱:gz@zr-robot.com
  • 广州市番禺区东环街金山谷创意八街1号109
  • 当前位置:首页 > 机器人资讯 > 李飞飞新研究:基于深度学习和视觉化语言来了解不同物体间的关系

李飞飞新研究:基于深度学习和视觉化语言来了解不同物体间的关系

时间:2019-04-24   点击:   来源:互联网   作者:匿名
简介:李飞飞新研究:基于深度学习和视觉化语言来了解不同物体间的关系 2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办,斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智能研讨会上表示,最近她所在的实验室正在做一项新研究,基于深度学习和视觉……

李飞飞新研究:基于深度学习和视觉化语言来了解不同物体间的关系

2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办,斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智能研讨会上表示,最近她所在的实验室正在做一项新研究,基于深度学习和视觉化语言模式了解不同物体之间的关系。

李飞飞表示,无论是动物智能还是机器智能,视觉都是非常重要的技术。视觉是人脑中最为复杂的系统,占有大脑中50%的认识单位。视觉反应速度非常快,只需要150微秒。这使得图像识别技术变得非常重要但又十分复杂。

过去8年时间,图像识别的错误率降低了10倍。2012年对GPU和深度识别技术的了解让这一领域实现了突破。但是,在一个图集中,要获得数据和物体之前关系的信息依然很难,目前所能做的工作都十分有限。李飞飞所在实验室正在为攻克这一领域展开新的研究。

她列举了一张图中的算法,这种算法可以预测不同物体之间的空间关系,进行对比,了解这种对称的关系,然后了解物体之间的动作,以及它们的之间位置关系。物体之间还能有什么样的数据集,提供一个标签,进行短句子描述。进行进一步了解视觉世界,而不仅仅是一系列的物体名称,实验室正在做相关量化研究。

以下是李飞飞演讲实录,enjoy:

今天我给大家带来的是最近的一些研究思路,今天我的演讲内容是关于视觉智能,动物世界当中有很多物种,机器人保养,而且有一种非常了不起,绝大多数动物都有眼睛,因此视觉是最为重要的一种感观的方法和认知方法,这是在动物的大脑当中,帮助动物在世界当中生存下来进行沟通,去操控和生存。

所以我们无论是讨论动物智能或者是机器智能的话,视觉是非常重要的基石。世界上所存在的这些系统当中,最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候,这个进化已经不断地让我们的视觉系统不断地发展,使得我们的视觉系统非常重要的去理解这个世界,而且这是我们大脑当中最为复杂的系统,而且有50%的大脑当中的这些认知的单位,都有着最为复杂、最为高级的感知系统,所以能够让我们知道人类的视觉系统非常了不起。

这是认知心理学家做过的一个最为著名的一个实验,这也就是告诉大家人类的视觉体系有多么了不起,大家看一下这个视频,你的任务是如果看到一个人的话就举手,这是一个智商测试。所以每个图景的时间是非常短的,也就是1/10秒,不仅这样,而且让大家看一个人的话,并没有告诉你是什么样的人,或者他站在哪里,什么样的姿势,穿什么样的衣服,然而大家仍然能很快地识别出这个人。

1996年的时候,Newl(音译)教授学生证明出视觉认知能力是人类大脑当中最为了不起的能力,因为速度非常快,而且大概是150微秒,在150微秒之内,我们的大脑能够区别非常复杂的图像。会把非常复杂的含动物和不含动物的图像区别出来,那个时候计算机没有接近人类的,这种工作激励着计算机科学家,希望解决最为基本的问题就是图像识别问题。

过了20年到现在,计算机领域和专家也在这个问题上发明了几代技术,这个就是我们所了解到的这些图集,当然也取得了非常大的进展和进步。这张图表是给大家总结一下,在过去的几年当中,在分类挑战当中一些标志性的项目,横轴是时间年份,左边纵轴指的是分类错误。我们能够看到它的错误是降低了10倍。8年的时间里错误率就降低了十倍,所以这八年当中经历了非常大的革命。

2012年的时候了解了GPU技术,以及深度识别技术,帮助世界了解在深层学习革命的一个发展,所以非常令人激动的领域,尤其过去几十年在人工智能的研究。作为科学家就会想一下在这个图集之外,还可以做到什么。

通过一个例子告诉大家,两张图片,包括一个动物和一个人,通过图像识别来看这两个图非常相似,但是他们的故事却是非常不同的,当然你肯定不想在右边的图的场景当中,我们在这就会出现一个非常重要的问题,就是人们能够做的,这也是最为重要、最为基础的一点图像识别功能,就是识别图像物体之间的关系,首先这个输入是图像本身,但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作,但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。

最近我们的实验当中做了这样一项工作,开始新的研究,预测根据深度学习,以及视觉化语言模式了解不同物体之间的关系。

这张图的算法能够预测不同物体之间的空间关系,进行对比,了解这种对称的关系,然后了解他们之间的动作,以及他们的之间位置关系。所以这就是一个更为丰富的方法,了解我们的视觉世界,而不仅仅是一系列的物体名称,这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。

一年前的时候,我们知道这个领域发展非常快,就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。

我们可以看一下,在他们之间的关系是什么,而且在这个图像当中不同物体的关系,能够让我们去更进一步了解这个问题,就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象,非常有限的信息,比如这是一个物体,COCO进一步学习,提供一个标签,进行短句子描述,视觉数据信息是非常复杂和非常多的,

根据途径出来一些问答,经过三年的研究,我们发现可以有更为丰富的方法来描述这些内容,通过这些不同的标签,描述这些物体,包括他们的性质、属性以及关系,ABB机器人保养,然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中,包括上千个标签,包括属性和关系,还有句子、问答信息,在我们这样一个信息库当中,能够非常精确地让我们来进行更加精确的研究,而不仅仅知道物体识别本身。

我们如何来去使用这样的图表呢?我们做过的一个工作,就是我们看一下这个场景的搜索,大家无论在百度还是在Google搜索中,搜索过图像或者图集,比如可以输入穿西装的男性,可以展现出很多的图,如果输入可爱的小狗的话,ABB机器人培训,有很多类似的图会出现,这一点非常好。同时看一下他们解决了什么问题呢?是否解决了图像搜索的问题呢?我们输入一个句子,男性穿着西装,抱着可爱的小狗,瞬间结果不是特别好了。绝大多数搜索引擎的这种算法,在搜索图像的时候,可能很多还是仅仅使用物体本身的信息,他们只是简单地了解这个图有什么物体,但是这是不够的。

如果我想搜索一个坐在椅子上的男性的话,如果物体本身给我们一个人形象或者椅子形象再能加上更多的属性,加上更多的信息,这个结果就会更好一些。

免责声明:本网部分文章和信息来源于互联网,本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题,请立即联系网站所有人,我们会予以更改或删除相关文章,保证您的权利。
扫二维码手机浏览
  • 广州子锐机器人技术有限公司
  • 地址:广州市番禺区东环街金山谷创意八街1号109
  • 电话:15889988091
  • 传真:

Copyright © 广州子锐机器人技术有限公司版权所有 www.zr-robot.com     网站备案ICP:粤ICP备15095857号

留电回访
  • 您的姓名
  • 联系电话
  • 需要维修或帮助的产品型号及说明
  •  
24小时工业机器人维修热线:020-82000787(首次维修半价优惠)