这台对世界好奇的机器，竟然还玩起了超级马里奥？

时间:2019-08-08 点击: 来源:互联网作者:匿名

简介：这台对世界好奇的机器，竟然还玩起了超级马里奥？十年前我们就能让机器人完成那些可以被完美建模的任务了，那些机器人完美地运转在工厂的车间里，完成一个特定的操作。但真正的人工智能需要在一个无法被建模的情境中，走出去，学会独自探索需要完成什么任……

十年前我们就能让机器人完成那些可以被完美建模的任务了，那些机器人完美地运转在工厂的车间里，完成一个特定的操作。但真正的人工智能需要在一个无法被建模的情境中，走出去，学会独自探索需要完成什么任务。这就是「好奇心」，是通向强人工智能的必经之路。

你也许不记得自己第一次玩超级马里奥兄弟时的感受了，但是让我们试着回想这个8-bit的游戏世界闪亮登场：淡蓝色的天空，有纹路的石头地面，一个矮胖的、红色着装的小人静静站在那里。他面朝右边：你将他朝右推动。走几步之后便会有一排砖头在头顶盘旋，上面盘旋着一堆「愤怒的蘑菇」。游戏手柄的另一个按键能够让那个小人儿跳起来，他的四个像素大的拳头指向天空。然后呢？或许是把「向右」和「跳跃」动作结合起来。好了，惊喜不惊喜：他会用自己的头部撞击悬浮在空中的砖块，砖块会像装了弹簧一样迅速向上弯曲并且弹回，把小人儿弹向正在靠近的蘑菇的身上，将其迅速压平。马里奥轻轻地从被征服的蘑菇身上跳开。然后出现一个带有问号的棕色的对话框，似乎在问，「现在呢？」

对于20世纪80年代长大的人来说，这个场景特别熟悉，但你可以在PulkitAgrawal的YouTube频道上看到更年轻的玩家。加利福尼亚大学伯克利分校的计算机科学研究员Agrawal正在研究天生的好奇心如何让学习完成一个不熟悉的任务的过程更有效率就像你第一次玩超级马里奥兄弟一样。重点是，Agrawal的视频中的新手玩家不是人类，甚至是没有生命的。它就像马里奥一样，仅仅是一个软件。但是这个软件配备了Agrawal和他在伯克利人工智能研究实验室（BAIR）的其他同事DeepakPathak,AlexeiA.Efros和TrevorDarrell一起开发的实验性机器学习算法。这个算法有一个让人惊叹的目标：让机器具有好奇心。

Agrawal说，「你可以把好奇心想象成是智能体内部自动生成的一种奖励，有了好奇心之后它们可以更进一步的探索这个世界」。这个内部生成的奖励信号在认知心理学中被称为「内在激励」。这种感觉你或许在读我写的游戏描述时有间接的体会就是一种想要看看视野之外有什么的欲望，或者想要走出你的能力范围，去看一下到底会发生什么这就是内在激励。

人类也会响应源于外界环境的外在激励。这类例子包括你从工作中获得的薪水、你必须在特定时点完成的需求等。计算机科学家利用一种类似的，被称为「强化学习」的方法来训练他们的算法：软件程序在按照被期望的方式执行任务的时候会得到「分数」，然而在以不被期望的方式执行的时候会受到惩罚。

但是这种胡萝卜加大棒的方法对机器学习而言是有局限性的，并且人工智能研究者开始将内在激励视为能够高效灵活学习的软件智能体的一项重要组成部分，焊接机器人维修，也就是说，它们不太像脆弱的机器，而是更像人类和动物一样。在人工智能中使用内在激励的方法受启发于心理学和神经生物学几以及那些有数十年历史的原始人工智能研究，现在重新变得有用了起来。（「机器学习领域里无新鲜事。」OpenAI研究员ReinHouthooft如是说。）

这种智能体现在已经可以被训练用于视频游戏中，但是开发「具有好奇心」的人工智能的吸引力超越任何现有工作。伯克利人工智能实验室的联合主管Darrell说，「你列举一个你最喜欢的应用领域，我会给出一个例子」。「在家里，我们希望自动化地清理房间、收拾东西。在物流领域，我们希望货物能被自动化地搬运、完成各种操作。我们希望汽车能够在复杂的环境中自动驾驶，我们希望救援机器人能够在建筑里搜救需要帮助的人。在所有这些例子中，我们都在尝试解决这个非常棘手的问题：你如何创造一台能够自己想明白要完成什么的任务机器？」

「打分」问题

强化学习是让Google的AlphaGo软件得以在围棋中战胜人类玩家的利器。在此之前，围棋作为一款古老的直觉游戏，向来被认为是机器无法企及的。如何在特定的领域成功使用强化学习的细节是很复杂的，但是通用的思想是简单的：给算法或者「智能体」一个奖励函数，一个用数学方法定义的信号来追寻并最大化。然后把它自由地置于一个环境中，可以是任何的虚拟世界或者现实世界。随着智能体在环境中运行，能够增加奖励函数的值的动作会被强化。只要有足够多的重复如果说计算机在某一件事上百分百胜过人类，那就是重复智能体就会学会这个动作的模式或者策略，以最大化它的激励函数。理想情况下，这些策略会导致智能体达到期望的最终状态（例如在围棋游戏中获胜），在这个过程中程序员或者工程师不必在智能体进化的每一步都手动编码。

换句话说，一个奖励函数就是能够让配备了强化学习算法的智能体能够锁定目标的指导系统。目标定义得越是清晰，智能体就运行得越好这就是为什么目前很多智能体都是在较老的视频游戏上做测试的原因，因为这些游戏都有基于分数的明确奖励制度。（游戏的块状的、二维的图像也是研究者选择它们的理由：因为游戏相对比较容易模仿，研究者可以快速地运行并测试他们的实验。）

加州伯克利的计算机科学家PulkitAgrawal

Agrawal说，「然而现实世界中并没有分数」。计算机科学家希望让他们创造的智能体去探索一个不是预加载了可量化对象的世界。

此外，如果环境没有快速并且有规则地提供显式的激励，那么智能体「就没有一个用来判断它是否做得正确的准则」，Houthooft说。就像热引导的导弹不能锁定目标一样，「它没有任何自己通过环境引导自己的方法，所以只能乱飞」。

最后，即使是煞费苦心定义的激励函数能够指导智能体表现出不同凡响的智能行为就像AlphaGo打败顶级人类玩家一样这种激励函数也不可能在未经大量修订的情况下迁移到任何其他情境中。并且，这种修改必须是人工完成的，确切地说这就是机器学习首先应该帮助人类完成的事。

除了像导弹一样能够可靠地命中目标的伪人工智能体之外，我们真正想要从人工智能获得的更像是一种内部引导能力。「你是可以自己给自己创造激励的对吧？」Agrawal说，「并不存在一个天天指导你做这件事要『加1』或者『减1』的神」。

好奇心作为协同引导力

DeepakPathak从未尝试过给「好奇心」这么虚无缥缈的概念建模。「『好奇心』一词指的是『引导一个智能体在存在噪声的环境中有效地探索的模型』」。隶属于伯克利Darrell的实验室研究员Pathak如是说。

但是在2106年，Pathak着迷于强化学习中的稀疏奖励问题。含有强化学习技术的深度学习软件最近在玩分数驱动的雅达利游戏（比如太空入侵者和打砖块）中获得了显著的进步。但是在像超级马里奥兄弟一样的稍微复杂的游戏就超出人工智能的能力范围了。因为在这些复杂的场景需要在时间和空间上朝着一个遥远的目标前进，而且没有一个明确的奖励，更不用说学习并成功地执行游戏中的组合动作（例如在奔跑中同时跳跃）。

TAG:

免责声明：本网部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题，请立即联系网站所有人，我们会予以更改或删除相关文章，保证您的权利。

上一篇：未来汽车都是“棉花糖”？从此不会有事故伤亡

下一篇：未来人工智能发展八大新趋势

工业机器人维修相关阅读：

“AI场景平台”亮相 2018 世界人工智能大会

猎户星空CSO王兵称，“真有用”机器人将推动物理世界不断数字化升级

触觉！英国企业发明世界首个触觉传输遥操作机器手

让AI启程，2019世界人工智能大会—京东人工智能论坛报名通道开启！

会搭积木的AI，正在手眼并用地探索现实世界

ABB电力与自动化世界：携手同心，共创数字化未来

世界主要经济体的工业机器人相关政策

NVIDIA首席执行官黄仁勋将在世界知名AI大会上发表主题演讲

世界智能大会将开水下机器人挑战赛引关注

世界纪录！自主研制系留浮空器飘至海拔7千米

扫二维码手机浏览