导读 大家好,我是腾讯 AI Lab 的蒋海云,今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分,前两部分介绍 AI 智能写作助手的相关系统;后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。
全文目录如下:
1. 文本理解系统 TexSmart 介绍
2. 智能写作助手 Effidit(文涌)系统介绍
3. 多级可控的无监督文本改写方法
4. 文本改写评测思考和一种新的指标
分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研究员
编辑整理|田育珍 猿辅导
出品社区|DataFun
文本理解系统 TexSmart 介绍
文本理解系统在智能写作中,提供了基础的语言理解的能力,像:文本图谱、文本理解和文本匹配。文本图类似知识图谱,可以对常见的文本关系进行查询。
文本理解:分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类和关键词提取; 文本匹配:语义相似度匹配,衡量句子的相似度; 文本图谱:常用文本关系的知识查询。
TexSmart 兼顾了学术界和工业界多种不同的需求。
针对不同的人群,设计了不同的模型和算法,从精度和速度两个维度出发,设计了精度高和速度快的模型。 利用无标注数据训练模型,这会使模型不在特定数据拟合,可以覆盖更多的数据,模型的鲁棒性更好。 通过增量式收集无标注数据,周期性更新模型。
文本纠错包含:删除类、插入类和替换类纠错功能。 文本补全包含:短语补全,根据前缀生成短语;句子补全-检索;句子补全-生成,根据前缀句子续写。 文本润色包含:短语润色,将词替换为更高级的词;句子改写;句子扩写,将短句添加修饰成分使句子的表达更丰满。 例句推荐包括:关键词句子检索,关键词句子生成。 云输入法包括:中英文输入法。 文涌学术版包括:跨语言例句检索、语义增强的论文检索。
删除类:文本多了一个字,需要进行删除; 插入类:文本中少了一个字,需要添加文字; 替换类:文本中有错别字,需要进行替换。
用户输入“那个大汉被打得”,给用户推荐“落花流水”和“措手不及”; 用户输入“成都市区”,帮用户补全对应区,如:“武侯”、“高新”; 用户输入“堡基地建设”,帮用户补全“德特里克”、“美国德特里克”。
6. 文涌学术版
全局语义:通读一遍,理解文本的语义信息; 局部词汇:大脑会决定某些词汇是不能做修改的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能变成张学友; 整体风格,在改写的时候,如果有可以参考的范例,可以从中得到一些文字编辑或句式重构的启发。
文本改写评测思考和一种新的指标
语义相似度,改写需要保留原句的语义; 多样性,改写需要有明显的多样性(词级别、语法级别)。
绝大多数以往常用的指标在文本改写中表现欠佳。我们将评测的结果和人工评价的标准进行比对,当差异比较大时,就说明常用指标对于文本改写不适用。 模型在处理时会有 reference。reference-free 是直接通过输入的句子去判断生成的句子的质量;reference-based是通过 reference 判断生成句子的质量。我们发现,reference-free 的指标好于 reference-based 指标。
Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类(接下来提及)数据的比例。 以往常用的指标忽略了多样性的测量。
大多数常用指标和人类评估并不一致。在 Twitter-Para 上,BLUE-4 甚至显示出与人类注释的负相关关系。 另外,对于大多数指标,其 reference-free 的变体比 reference-based 更符合人类评估。
今天的分享就到这里,谢谢大家。
分享嘉宾
INTRODUCTION
蒋海云 博士
腾讯AI Lab 自然语言处理中心
高级研究员
蒋海云, 2020 年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,文本生成等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议发表论文27篇。
|直播推荐|
网友评论已有0条评论, 我也要评论