业界|通过机器学习,打造萌萌的角色人工智能

[复制链接]
i.style 发表于 2019-2-11 18:00:56 | 显示全部楼层 |阅读模式
来源:https://www.toutiao.com/group/6390200688328769794/
若内容不全,可点击上述链接查看来源网页,在网页中点击红色双层向下的箭头阅读全文


机器之心编译

参与:王宇欣、黄小天

对于我们当中的大多数人来说,在经过与NPCs(Non-Player-ControlledCharacter)和电子玩具人物的初步互动之后,并不能将他们当做生命一样对待,这种感觉来自其可预测性、简单性、非真实的语言能力和非语言的行为。

这篇文章将要讨论一种角色人工智能(characterAI)的新形式。它与脚本动画当中的动作捕获非常相似,这种新技术也许可以通过观察真实的人类产生的行为从而革新交互性角色被创建的方式。

我将通过一个产品来说明我们在此技术上的领先地位。

bots_alive——一个边玩边找出路的机器人

我们今天在Kickstarter(这里的活动)上推出了bots_alive。这里是一分钟的预告视频,主要是脚本运动。

视频加载中...

该产品(theHexbug®Spider)是一个智能手机套件,可以使一个流行的遥控玩具(RCtoy)拥有简单却逼真的自主权。

该视频展示了我们最初的产品设计理念。在新的角色人工智能技术驱动其核心功能之后,现在你可以看到它是如何运作的。

视频:https://v.qq.com/x/page/l0378dqu7wq.html

观察全速播放视频,从而理解高级行为。使用YouTube的控制功能降低速度,以查看更多低级别的行为,比如好奇和不确定的时刻。

训练数据以建立角色

以一种新方式为那些机器人构建角色人工智能(characterAI)。下面是其工作原理。

人类在许多不同的场景中远程操控机器人。远程操控者就像是即兴的傀儡师;他(她)遵循着启发式方法,也理解机器人并真实地回应所发生的,无论是好奇,恐惧,欢庆或是另一种情绪。

对于bots_alive,操控者通过屏幕看到系统所看到的镜像并按下按钮以发送前进、后退、左、右、前右、前左、后右或者后左的指令。我们同样认为不按按钮意味着无动作的指令。

从那些远程操作会话中,我们收集训练数据,其中包含(a)远程操作指令和(b)所给出的每一个指令的上下文信息。应用被称为监督学习的一类机器学习来创建操纵者的模型,问题得到了有效解答。

在上下文X中,远程操控者给出命令Y的概率是多少?

构建一个行为模型

所有这些都发生在开发过程中。在最终用户手中,机器人由模型自主控制。而模型的操控者则是角色人工智能(characterAI)。

我们假设,在训练数据中的上下文信息足够证明为什么远程操控者选择一个动作而非另一个。然后,数据包含着自发性、不确定性以及由人类操控者所展示出的社会真实性。如果机器学习有效,则自动机器人将保有这些品质。

为什么选择使用带来麻烦的机器学习?

我们期待这个过程可以创造出比传统角色人工智能(characterAI)更加自然和鲜活的角色人工智能(characterAI)。

传统的方法包含了想象和书写行为规则或者有限状态机。比起作为操纵者沉浸在某一个情况中,这更像是一个抽象的练习。

如果你玩视频游戏,想象一下你有时会对你控制的角色产生共鸣。你甚至会忘记你们之间的距离,作为那个角色来体验世界。如果你为这个角色简单书写了一套规则使其依靠规则行动,比起这个角色将会做的,你的控制在这些时刻是不同的,这个不同介于高水平和微小运动之间。

差异中蕴含着这种开发角色人工智能的方法的前景。

在心理学的研究方法中,有一个广泛的共识,如果你想要知道一个人在某种情况下将要做什么,你不要询问他们会做什么。将他们置于这种情况下并进行观察。传统的角色人工智能(characterAI)开发就像是在询问人类开发员或者设计师。与之相反,我们的方法类似于对沉浸在角色体验中的人进行观察。这就是为什么我们期待它创造更加真实的角色。

我们的方法是一种被称为从示范中学习的应用。很多时候,远程操控需要包含人类与角色的互动,我们则对远程操控保密,这样人就不会因为和一个机器角色互动而对自己的行为有所改变。在MIT的多媒体实验室,当它还是一个研究项目时,我们创建了这个保密的版本(learningfromthewizard或者LfW)。这个名字结合了从示范中学习和WizardofOz实验范式。

视频:https://v.qq.com/x/page/i0378xve81o.html

我的第一份工作是通过人类远程操控和机器学习来创建角色人工智能(characterAI),与SamSpaulding和CynthiaBreazeal在MIT的多媒体实验室完成。

作为交互式机器学习训练

在我们的开发中,我是远程操控者以及机器学习程序员。

训练过程不仅仅是一连串的证明。不如说,它是一个关于证明的迭代过程。

  • -将机器学习应用在示范数据集上,

  • -从已知模型中观察行为

  • -在机器人不能令人满意地行动的情况下,创建更多的范例。

  • -应用机器学习等等

交互式机器学习的通用表示。来自Amershi等人,2015。PowertothePeople:TheRoleofHumansinInteractiveMachineLearning。在AIMagazine。

在这些迭代中,远程操控者和算法设计者还会反映出上下文信息中什么地方需要被编码以提升其学习能力,确定上下文不能被编码并且因此应该被远程操控者忽略,比起原始的操控者,这样可以发现乐趣和更令人愉快的行为。

我们如何知道这是更好的呢?

我们不能。不能100%保证。

但是我们已经看到它可以作出令人信服的角色人工智能(characterAI)。

我们在MIT的研究中已经看到了它。在一个相对较大的随机试验中,孩子们与人类远程操作的机器人或者一个从先前的远程操作中学习自主行为的机器人互动。与无机器人的情况相比,远程操控机器人和通过机器学习编程的自主机器人从它们的人类交互伙伴中引出了类似的行为。奇怪的是,当询问孩子们这些机器人是远程遥控的还是自主的时候,在每个条件下都会有大约一半的人认为这是人类操控的。如果你熟悉图灵测试(TuringTest),一种广为人知的检测人工智能有效性的测试,你可能会意识到,MIT的研究构成通过了一个狭隘和社会性的图灵测试(TuringTest)。

在2004年的虚拟联赛(UnrealTournament),引人注目的角色人工智能(characterAI),使用了类似于从演示中学习的技术,通过了另一个狭隘的图灵测试(TuringTest)。在另一个针对机器人的年度学术竞赛中,BotPrize是类人型的最佳传递者。2012年获奖者是JacobSchrum、IgorKarpov、和RistoMiikkulainen的机器人。它结合了算法优化—这导致了仍然可以达到特殊目标的显著非自然行为—的对抗效应以及选择性记录人类行为的重放。25个人类的判断者和虚拟机器人一起玩,在对抗中重复判断其他角色是人类操控还是智能的。Schrum和同事的机器人被判断为人类的次数超过51.9%。这个百分比仅仅低于被判断为最人性化的两个人类角色之下,分别为53.3%和52.2%。这里是算法描述。

视频:https://v.qq.com/x/page/k0378iuxcq0.html

Schrum和同事的机器人在对抗。

最后,在我们bots_alive的测试中,我们也可以看到从对人类操控的观察中创造令人瞩目的角色人工智能(characterAI)。

这种基于操控的方法的局限性是(1)感测和编码上下文信息(2)有效地应用机器学习。学术界和工业界正在深入地研究如何突破这两个限制。在过去10年中取得了重大进步,最显著的是通过深度学习,因此看来进一步的改善还未到来。

另一方面,我们的能力是否可以编写行为法则来编码真实的行为与生命的错觉?我并没有看到一个理由来说明这样做对其有改进的意义。

我们的bots_alive机器人生物将是被我们称为学习魔法师的技术的第一次重大测试。

我鼓励你自己去感受它。查看我们的测试和实时演示视频。如果你有足够的兴趣,赶快加入我们的Kickstarter运动,并为你自己拿到一个或者两个机器人。

拥有一个机器人,你可以判断他们是否在一个鲜活、可信的角色人工智能中迈进了一步。