DNN是否会是超级智能机器人成为现实的预兆

时间:2020-07-20 点击: 来源:互联网作者:匿名

简介：人工智能（AI）在即将过去的 2018 年进展神速，取得了很多令人瞩目的成就，比如预测用户感兴趣的音乐、判断肿瘤的转移、生成脑瘤的核磁共振成像、自动根据视频生成模型、面部识别、在象棋和 Dota 2 比赛中击败人类选手以及全自动驾驶汽车。麦肯锡全球研……

　　人工智能（AI）在即将过去的 2018 年进展神速，取得了很多令人瞩目的成就，比如预测用户感兴趣的音乐、判断肿瘤的转移、生成脑瘤的核磁共振成像、自动根据视频生成模型、面部识别、在象棋和 Dota 2 比赛中击败人类选手以及全自动驾驶汽车。麦肯锡全球研究院的研究人员预测如果照这个势头发展下去，未来 12 年 AI 将占据美国纯经济效益的 20% 至 25%（全球纯经济效益总额约为 13 万亿美元）。

　　以上这些成就跟科研人员对深度神经网络（DNN）的研究进展分不开。DNN 的主要思想是用数学方程来模拟人脑的神经元以及神经元之间用来传递信号的突触，用它再组成深度网络的人工神经元。人工神经元在深度网络中分成多层，输入数据则在层与层之间进行传递。这样的结构使得人工神经元连接之间的权重能通过长期的训练逐步得到调整，成千上万次的训练让深度网络从输入数据中提取出特征，识别出数据样本中的趋势，并进行预测。

　　虽然距离 David Rumelhart 、Geoffrey Hinton 和 Ronald Williams 在他们的经典论文“ Learning Representations by Back-propagating Errors ”中提出用于调整人工神经元之间权重的反向传播算法仅仅过去了三十年，但借助日益廉价而强大的硬件，反向传播算法还是让 DNN 在计算机视觉、自然语言处理、机器翻译、药物分子设计和产品质量监测领域取得了飞速的发展。有些情况下 DNN 的表现甚至超越了人类专家。

　　通用人工智能（AGI）面临的挑战

　　那么，DNN 是否会是超级智能机器人成为现实的预兆吗？ 2010 年创立 DeepMind 的 Demis Hassabis 可不这么觉得，而且他有自己的依据。DeepMind 有一个使命就是将神经科学与计算机科学的研究成果结合起来，并创造出能在任何任务中都超过人类的通用人工智能。

　　12 月初，他在蒙特利尔举办的 NeurIPS 2018 大会上表示，要实现通用人工智能恐怕要走的路还很长。“棋类游戏和电子游戏的状态变换有规则可循，而且很容易学习，所以某种程度上说棋类游戏和电子游戏很简单。但现实 3D 环境和现实世界本身都复杂得多……”

　　Hassabis 是国际象棋神童。他毕业于剑桥大学，也曾在伦敦大学学院、麻省理工大学和哈佛大学学习神经科学研究自传体记忆和情景记忆。他毕业之后也曾作为程序员参与过游戏《主题公园》和《黑与白》的开发。Hassabis 于 2010 年成立了 DeepMind ，仅三年之后就发布了能不借助额外信息通关“雅达利游戏”的 AI 系统。

　　2016 年，AlphaGo 击败围棋顶尖高手李世石，让这家被谷歌斥资 4 亿英镑收购的 DeepMind 声名鹊起。目前，DeepMind 下属的 DeepMind Health 与伦敦大学学院医院合作开发的 CT 图像分割模型表现也已经与人类医生接近。DeepMind 所开发的 AlphaFold 更是在第 13 届蛋白质结构预测比赛中勇夺桂冠，预测出了 43 种蛋白质之中 25 种的精细结构。本月，DeepMind 还在自然杂志上发表了论文介绍它所开发的 AlphaZero，据称 AlphaZero 能在国际象棋、围棋和日本将棋比赛中击败所有人类高手。

　　虽然 DeepMind 所开发的系统看似已经非常强大， Hassabis 却说谈通用人工智能的实现还为时过早。人类与人工智能的区别在于，人类能够从身边的环境中获取知识用于自己行动的规划和预测。所以即便与棋类游戏的新手相比， AlphaGo 和 AlphaZero 所能获取的信息也不算多。

　　Hassabis 表示：“对机器来说想学会打游戏得先学会看见东西，所以机器学起东西来比人慢很多。人打游戏时很快就能判断归纳出碰到什么东西应该做出什么样的动作。”

　　让 AlphaZero 击败人类需要将其训练约 70 万次，每一次训练则包括 4096 种不同的棋局。即便训练 AlphaZero 的系统装备了几千个谷歌为机器学习专门优化过的芯片，训练时间仍长达数小时乃至数天（国际象棋需要约 9 小时，日本将棋要训练约 12 小时，围棋则需要 13 天）。

　　今年夏天，Elon Musk 、 Reid Hoffman 和 Peter Thiel 成立的 OpenAI 所开发的 OpenAI Five 在 Dota 2 比赛中必败了由五名专业选手所组成的队伍。OpenAI 在博客中表示，训练 OpenAI Five 使用了谷歌云平台上 256 块 Nvidia Tesla P100 显卡和 12 万 8000 个处理器。每天的训练量都相当于玩了 180 年的游戏（ 80 % 的时间和自己对战， 20 % 的时间和旧版 OpenAI Five 对战）。然而即便经过如此漫长的训练，OpenAI Five 所学到的技巧也很难应用于别的任务。

　　Hassabis 还说：“我们目前所开发的系统很难将一个领域里所习得的知识应用于其他领域。我认为，要实现知识的转移，模型必须有理解抽象概念或提取知识的能力。训练机器一步一步玩游戏很容易，但我们的目标是让系统拥有生成模型的能力，这样才能有在其他领域里规划行动的能力。”

　　除了任务过于单一，多数的 AI 系统的可扩展性也较差。AlphaZero、AlphaGo 和OpenAI Five 都使用了强化学习的编程范式，让 AI 能在棋盘或 MOBA 中规划自己的行动以获取最大化奖励。强化学习的思想有点类似于操作条件反射实验中所使用的“斯金纳箱”——当箱子中的动物对外界的声光等刺激做出反应时，比如按下了操纵杆，它就能获得食物或者水作为奖励。

　　Geoffrey Hinton 曾被人称为“深度学习教父”，他已经在 AI 领域深耕了 30 年。现在他同时在多伦多大学和谷歌的深度学习研究团队里工作。除了在 DNN 方面的贡献，他也在机器学习、感知、记忆和符号处理领域发表超过 200 篇论文。最近他把注意力转向了旨在提升神经网络预测稳定性的胶囊神经网络。

　　Hinton 表示强化学习的奖励信号往往是“微弱”的，这导致代理有时难以在随机数据中找到合适的模式，这就是所谓“嘈杂电视问题”。他说：AI 所拥有的信息非常有限，所获得的反馈也非常少，但却要用这些有限的信息来调整几百万甚至几十亿个参数，那你只能可劲训练了。现在这些深度学习应用看起来效果都不错，但都是建立在大量训练的基础上，不过我觉得这条路不太对。”

TAG:

免责声明：本网部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题，请立即联系网站所有人，我们会予以更改或删除相关文章，保证您的权利。

上一篇：谷歌与机器人之间的恩怨情仇，谷歌都要攻克哪些问题？

下一篇：“写字机器人”悄然流行：家长吐槽，教育界担忧

工业机器人维修相关阅读：

智能工业机器人赋能 “中国智造”

维修工业机器人到底有什么魔力？大家都在用！

机器人时代-走进工业智能制造业

医疗机器人，展望未来智能化发展

工业机器人如何利用AI智能技术？

松下焊接机器人G4系列智能焊接系统

未来已来！哈工大人工智能产业园正式开工

硬件设备跟不上的时候,人工智能有什么作用?

麦当劳收购人工智能企业

引领CIO在2019年部署人工智能的5种方式

扫二维码手机浏览