SQuAD20来了现在这里有了机器无法回答的问题_[#第一枪]
雷锋网 AI 科技评论按:斯坦福大学 NLP 组(Stanford NLP Group)昨晚发出公告,文本理解挑战赛 & 数据集 SQuAD 升级为SQuAD 2.0,在原来基础上增加对抗性问题的同时,也新增了一项任务「判断一个问题能否根据提供的阅读文本作答」。新版本 SQuAD 2.0 由斯坦福大学计算机系Pranav Rajpurkar, Robin Jia, Percy Liang 三人在获得 ACL 2018 最佳论文奖的论文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 页面的主题色也从玫红色更换为了蓝紫色。
基于 SQuAD(StanfordQuestionAnsweringDataset)的文本理解挑战赛,是行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及,现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答。
在原来的 SQuAD(SQuAD 1.1)的十万个问题 - 答案对的基础上,SQuAD 2.0 中新增了超过五万个新增的、由人类众包者对抗性地设计的无法回答的问题。执行SQuAD 2.0 阅读理解任务的模型不仅要能够在问题可回答时给出答案,还要判断哪些问题是阅读文本中没有材料支持的,并拒绝回答这些问题。
图示为两个无法回答的问题。红色标出的答案看似有理,但其实是错误的。
Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰写了论文《Know What You Don't Know: Unanswerable Questions for SQuAD》对这一新任务以及 SQuAD 2.0 做了介绍。论文中为 SQuAD 2.0 设立了新的人类表现基准线(EM 86.831,F1 89.452)的同时,也通过对比展现出了 SQuAD 2.0 的难度:一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数,但在 SQuAD 2.0 上只能得到 66%。这篇论文也获得了 ACL 2018 最佳论文奖。其它四篇最佳论文介绍请看这里。
详细信息欢迎访问 SQuAD 网站(Stanford-qa.com)以及阅读论文(https://arxiv.org/abs/1806.03822)。 AI 科技评论报道。
相关文章:
一窥 ACL 2018 最佳论文
- 浙江全省首个客户侧兆瓦级光储一体站在宁波箱包锁办公椅丸子机塔吊喷塑设备Frc
- 中信重工国际化战略成绩亮眼0饲料原料承压水箱光轴上光油铌铁Frc
- 因供货紧张致亚洲纯碱价格大幅上扬折页机龙门刨工控呼叫轻触开关Frc
- 气泡防伪塑料标签法国面世丝袜胶带机械筛滤器中空玻璃弹簧销Frc
- 33位院士将齐聚2019中国自动化大会水运压滤设备离合器供热采暖切肉机Frc
- 工品一号朝着做螺丝行业的京东这个目标前进吹尘枪节流阀麻纱丝网版净化工程Frc
- 威盛EPIA引领PC遥控时代江阴给料机锻钢闸阀机械手表影碟机Frc
- 多彩包装礼盒背后的推手咸阳空心线圈烧烤炉贴片元件平衡机Frc
- 华菱涟钢郑灵科敢想更敢做0充气床垫青岛转换插头美发塑胶地板Frc
- 余姚塑料城PPS市场价格1111宠物包具定西浴用具焙烤食品过渡接头Frc