Facebook游戏化数据收集以增强对话式AI

时间：2020-08-23 18:53:30来源：互联网

Facebook曾经试用过一种基于文本的幻想角色扮演游戏，以改善对话模型，为聊天机器人和智能扬声器等提供动力。该公司的研究人员在预印本中描述了一个游戏，该游戏在收集数据和对收集到的数据进行再训练模型之间进行迭代，并采用一种度量标准，该度量标准使用玩家的续约率(即他们继续比赛的时间)来评估和比较模型。共同作者声称，在实验中，他们以每笔众包价格五分之一的价格获得数据，他们的游戏提供了终身对话学习可行的证据。

人们通过与他人和更广阔世界的互动来学习使用语言的过程，但是自然语言处理(NLP)研究通常涉及固定数据集和冻结模型。在这种范式中，模型在训练时不会与人互动，这是无法提高性能的限制。一种替代方法是不断地重新训练模型，但这可能会导致成本高昂;许多语料库是通过众包收集的，研究人员通过诸如Amazon Mechanical Turk之类的平台向众工支付酬劳，以执行任务。由于群众工作人员的动机是薪酬而不是利息，因此可能导致预算超支和数据质量差。

Facebook研究人员的游戏旨在迭代地学习与“出于内在动机”的玩家的对话。核心部分包括587个位置中带有说明的两个“特工”(一个人类玩家和一个AI)，其中从630个名称和背景故事池中为每个特工分配一个角色。特工必须在场景中扮演角色的对话，而自动化的地牢大师会评估玩家角色扮演能力的质量，在给定背景下(1-5星之间)评估对话的可能性。将这些子得分相加，并将总得分发布到排行榜上，以与所有其他玩家进行比较，如果玩家收集一定数量的对话积分，他们将获得代表游戏角色的徽章。

对游戏中的对话进行了冒犯性和性别歧视的语言审查，每位特工由6个回合组成，或总计12个。在每个结尾处，为玩家提供三个选择：

选择移动到新位置，在该位置他们将继续扮演此角色，但遇到一个可以交流的新角色。

呆在同一个房间里，但是等待一个新角色来与他们交谈。

更改为在新设置中角色扮演一对全新的角色。

Facebook研究人员投放广告招募了13,188名用户，他们总共玩了41,131轮游戏，他们通过训练每个话语的模型来评估这些玩家交流的质量。结果表明，与众包游戏相比，使用模型获得80.63%的模型精度要便宜8倍以上，部分原因是参与度高-用户选择继续玩68%至75%的时间。

研究人员称，玩家通常会寻求“激动人心”的对话，其中涉及寻求任务的情感，动感十足的互动，而人群工作者往往更趋于平庸，并愿意冗长地讨论枯燥的话题。玩家在对话中使用了更多带有攻击性的词语，例如“刺伤”和“杀死”，但也公开使用了友好的动作(“微笑”，“拥抱”)和语(“ ur”，“ yo”，“花花公子”)以及表情符号。研究人员断言，正是这些更“自然”的交流导致模型更准确地反映了人类的互动，因为即使是最低质量的数据也能提供有用的信号。

共同作者写道：“我们发现这一点令人兴奋，因为这种方法表明有可能建立不断改进的模型，这些模型可以从与人类在野外的互动中学习(与付费的人群工作者的实验相反)。”“这代表了从有限的静态数据集设置中发生的范式转变，该设置在社区的许多工作中都非常普遍。”

研究人员计划在将来公开提供培训代码，模型和数据集。

值得注意的是，该作品建立在LIGHT之上，LIGHT是一种基于文本的游戏形式的研究环境，其中AI和人类作为玩家角色进行交互。11月，Facebook，洛林大学和伦敦大学学院的数据科学家研究了一种创建游戏世界的方法，该方法与本最新预印本中介绍的方法类似。他们利用LIGHT的内容，设计了可以按位置排列和字符并动态生成新内容的模型，从而展示了机器学习算法如何学习创造性地组装不同元素。