NLP标注的七大应用场景[图解]

时间:2018-06-01 11:44:12

作者:阿明

浏览: 次

1.NLP标注是什么

NLP(Natural Language Processing,自然语言处理)就相当于存在于机器语言和人类语言之间的翻译,通过搭建沟通的桥梁,借以实现人机交流的目的。

从自然语言的角度出发,NLP可以分为自然语言处理和自然语言生成两大部分,即理解和生成文本。


NLP标注是什么?


 

自然语言处理是对语言、语境及其形式进行研究,研究范围包括音系学、词态学、句法学、语义学和语用学等。在对自然语言理解过程进行实际操作时,往往要克服语言的多样性、歧义性、鲁棒性、知识依赖、需要联系上下文等难点。

自然语言生成则是通过文本规划→语句规划→实现的思路来从已获取的结构化数据中以读取的方式自动生成文本。即通过规划对待生成文本的内容、结构进行规划确定,随后根据已获取或学习的句子模型进行整合,参考待生成目标语言的语法表达进行优化处理,最终完成生成输出任务。


NLP的基本分类


2.NLP的应用场景

2.1 信息提取:从指定文本范围中提取出重要信息,例如时间、地点、人物、事件等,可以帮人们节省大量时间成本,且效率更高。比如文摘生成利用计算机自动从原始文献中摘取文字,成果能够完整准确反映出文献的中心内容。

 

2.2 文本生成:根据限定条件或输入内容的不同,进行数据到文本或文本到文本的生成。

 

2.3 智能问答:对一个自然语言表达的问题进行某种程度的分析(例如实体链接、关系式、形成逻辑表达式等),分析完毕后在知识库中查找可能的候选答案,通过排序机智找出最佳的答案进行回复。比如电商行业中广泛应用的自动回复客服,通过回复许多基本而重复的问题,从而过滤掉大量重复问题,使得人工客服能够更好地服务客户。


智能问答/智能客服


2.4 机器翻译:通过把输入的源语言文本通过自动翻译获得另一种语言的文本,是自然语言处理中最为人所熟知的场景,比如百度翻译、Google翻译等。


机器翻译


2.5 文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识通过可视化、交互式界面进行表达。

 

2.6 舆论分析:通过收集和处理海量信息,对网络舆情进行自动化的分析,帮助分析哪些话题是目前的热点,同时对热点的传播路径及发展趋势进行分析判断,以实现及时应对网络舆情。


情感分析


2.7 知识图谱:又称科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。以可视化技术为载体来描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

 

3.NLP文本标注方法

所以可想而知在拿到数据的第一阶段是很头痛的,你会发现维度太多了,而且种类也太多了,每种产品的留言也有可能是不一样的。那么我们就需要从更高维度去分析提出共性和基本处理原则。

所以我们可以从三个维度去考虑。

1.总体原则:这个标注过程中必须遵守的基本原则。

例如:最简原则/最小原则,可以理解成在分词过程中用到的最小颗粒度的分词方法。例:和平饭店,可以分和平饭店整体,也可以分为和平/饭店,那么在这里我们就分为和平/饭店。
 

2.特殊定义:在标注过程中特殊情况的处理方法。

例如:在分词当中可以遇到的一些专有名词,就不进行拆分等。
 

3.标注需求:对具体标注过程进行说明。

标注需求部分,我们还是进行两类的区分考虑。

a.词性的角度。

例如:标注的我们需要分为哪些,可以更好的贴切与我们的需求。在本次需求里我们要分析用户对产品的全流程的使用体验,那么能涉及到什么?留言会有什么?首先情感是必须存在的一类。那么什么可以哪些特征词可以表示出客户的情况呢?那么理解到了核心的问题点。特征词和情感词。


做AI行业客户的数据参谋