首页
资讯
海淘动态
- 全部
- 达人晒单
- 购物知识
- 海淘推荐
- 特色品牌
- 海淘动态
- 海淘人物
- 海淘攻略
- 海淘指南
OpenAI和DeepMind的新算法让未来的人工智能更安全

OpenAI和DeepMind的新算法让未来的人工智能更安全

作者：admin 发表时间：2021-01-06 浏览：30 海淘动态

OpenAI和DeepMind的研究人员希望利用一种能从人工反馈中学习的新算法，使人工智能更安全。这两家公司都是强化学习领域的专家。强化学习是机器学习的一个分支，即在给定的环境下，如果人工智能系统做出正确行为，那么就给予奖励。目标通过算法来制定，而人工智能系统通过编程去寻求奖励，例如在游戏中赢得高分。在教会机器玩游戏，或是通过模拟来驾驶无人车的场景下，强化学习非常成功。这种方法在探索人工智能系统的行为时非常强大，但如果编死的算法出现错误，或是产生不必要的副作用，那么也可能非常危险。发表至arXiv的一篇论文描述了一种新方法，有助于预防此类问题。首先，人工智能系统在环境中产生随机行为，预期的奖励基于人工判断，而这将被反馈至强化学习算法，以改变人工智能系统的行为。研究人员将这种技术应用至一项训练任务。关于人工智能行为的两段视频被发给人工，而人工将判断哪种行为干得更好。通过这种方式，人工智能系统可以逐渐学会如何追逐奖励，通过更好地解释人工的评判来学会达成目标。这样的强化学习算法会调整自身的行为，并不断寻求人工的认同。在这项任务中，人工评判者只花了不到1小时时间。然而对于更复杂的任务，例如做饭或发送电子邮件，那么还需要更多的人工反馈。这样做可能是不经济的。论文的共同作者、OpenAI研究员达里奥·阿莫德伊(Dario Amodei)表示，减少对人工智能系统的监督是未来可能专注的一个研究领域。他表示：从广义上说，半监督学习技术在这里可能会有帮助。另一种可能的选择是提供信息密集的反馈形式，例如语言，或者让人工指向屏幕的特定部分，以代表良好行为。信息更密集的反馈或许将帮助人工减少与算法沟通的时间。研究员在其他模拟机器人和Atari游戏中测试了他们的算法。结果表明，机器某些时候可能取得超人的成绩。不过，这在很大程度上依赖人工的评判能力。OpenAI在博客中表示：关于什么行为是正确的，我们算法的表现与人工评判者的直觉一样好。但如果人工对于任务没有很好的把握，那么可能就无法提供较多有帮助的反馈。阿莫德伊表示，目前的结果仅限于非常简单的环境。不过，对于那些奖励难以量化的任务，例如驾驶、组织活动、写作，以及提供技术支持，这可能会很有帮助。

上一页：想买个55吋的曲面电视，哪个牌子比较好

下一页：马云或联手孙正义参投打车应用Grab 15亿美元融资

海客讨论(0条)

0/300

微博发布

部分图片内容来自于网友投稿