?
时时彩计划软件,时时彩玩法技巧,北京赛车规律数字高手,购彩平台 凤凰彩票

解数据集NarrativeQA让机械挑和高频彩是人控制Deepmind最新阅读理

时间:2017-12-29 18:22来源:未知 作者:admin 点击:
天然言语理解试图建立阅读和理解文本的模子。评估理解模子言语理解能力的一个常用策略是证明他们能回覆他们所阅读的文档的问题,雷同于儿童正在进修阅读时若何理解阅读内容的

  天然言语理解试图建立阅读和理解文本的模子。评估理解模子言语理解能力的一个常用策略是证明他们能回覆他们所阅读的文档的问题,雷同于儿童正在进修阅读时若何理解阅读内容的能力。阅读文档后,读者凡是不克不及从回忆中沉现整个文本,deepmind但经常能够回覆关于文档的潜正在论述元素的问题,如凸起的实体,事务,地址以及其彼此关系等。因而,测试理解需要建立查抄高条理的笼统的问题,而不是只正在一个句子中呈现一次的现实。

  倒霉的是,关于文档的概况问题凡是能够利用浅层模式婚配或基于全局显著性的策略或猜测成功(由人和机械)回覆。我们查询拜访了现有的QA数据集,成果显示它们要么太小、要么能够通过浅的开导式算法进行解答(第2节);另一方面,正在概况文字无法间接解答、必需通过内正在论述进行推导的问题,需要构成更多正在文件过程中表达的事务和关系的笼统表征。回覆这些问题要求读者将消息分离正在整个文件中的几个陈述中,并按照这一分析消息发生一个有说服力的谜底。也就是说,高频彩是人控制Deepmind最新阅读理他们测试得失读者理解言语的能力,而不只仅是模式婚配。基于此,我们提出了一个新的使命和数据集,我们称之为NarrativeQA,它将测试并奖励接近这种能力程度的智能体。

  比拟之下,NarrativeQA 包含来自于书本和片子脚本的1567个完整故事,数据集划分为不堆叠的锻炼、验证和测试三个部门,共有 46,765个问题谜底对,问题由人类编写,而且多为“何时/何地/何人/为何”之类的较复杂问题。

  总体来说,DeepMind认为目前的阅读理解数据集均存正在着必然的局限性,包罗:数据集小、不天然、只需要一句话定位回覆的必需消息,等等。因此 Deepmind 认为,deepmind正在这些数据集上的测试可能都是一个不克不及实正在反映机械阅读理解能力的伪命题。

  原题目:Deepmind 最新阅读理解数据集 NarrativeQA ,让机械挑和更复杂阅读理解问题

  而另一方面,如CNN/Daily Mail(93K+220K旧事文章,387K+997K问题)、CBT(从108本儿童读物中摘取的678K个20句摆布的段落)、BookTest(14.2M个段落,雷同CBT)等数据集均可以或许供给大量的谜底-问题对,这些数据集的问题凡是为完形填空(预测缺的词语),问题从摘要中进行笼统总结(CNN/Daily Mail)或者畴前后一句话的上下文语境中提炼,并从一组选项中进行选择准确的谜底。这类数据集的局限性正在于误差较大,部门通过指向特定类型操做的模子(如AS Reader)可能正在这些数据集中表示凸起,但这些模子却并不适合回覆需要分析新的谜底的回覆。特别正在CNN/Daily Mail中,因为其上下文档均为旧事故事,凡是会包含集中正在单个事务的凸起实体,这也进一步加大了这种误差。

  虽然正在论文和网坐中并未发布数据集的下载地址,北京pk10但雷锋网发觉,正在 Deepmind 的 Twitter 的留言中发布了正在 Github 上的项目地址,点击此处即可前去。前往搜狐,查看更多

  斯坦福大学Percy Liang等人推出的SQuAD(关于 SQuAD 测试拜见雷锋网之前文章《专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步》)包含从536个维基百科词条中抽取的23K个段落。虽然SQuAD供给了大量的问题和谜底,谜底也并非只是某个单词或者对于某个实体的回覆,但因为这些段落缺乏完整的文章包含的跨度,良多更合理的阅读理解的问题无法被提问息争答。此外,因为这些段落来自于较少的条目,这也限制了对这些数据锻炼中对于局部多样性和词法的结果,也限制了正在SQuAD或者NewsQA等数据集中表示优良的模子回覆更复杂问题的能力。

  雷锋网按:天然言语处置一直是实现智能、天然人机交互愿景里一块主要的手艺基石。而机械阅读理解则能够被视为是天然言语处置范畴皇冠上的明珠,也是目前该范畴的研究核心之一。正在这一范畴,最出名的数据集是由斯坦福大学天然言语计较组倡议的 SQuAD(Stanford Question Answering Dataset)和相关的文本理解挑和赛,高频彩是人控制它也被誉为“机械阅读理解界的 ImageNet ”。解数据集NarrativeQA让机械挑和而比来, Deepmind 发布了一个新的阅读理解数据集 NarrativeQA,那么这个数据集有什么特点呢?一重庆时时彩视频来和雷锋网领会一下。

  MCTest(2013年,Richardson等):660篇短文章,基于文章的2640个问题,回覆正在多个谜底中进行选择,Deepmind认为,MCTest的局限性正在于数量太小,因此更像一个评估测试,而不适合取一个端到端的模子锻炼;

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------
?