在文本处理中文本词法分析的主要对象有哪些

在文本处理中文本词法分析的主要对象有哪些,第1张

文本词法分析的主要对象。

文本分析是将非结构化文本数据转换为有意义的数据进行分析的过程,以度量客户意见、产品评论、反馈,提供搜索工具、情感分析和实体建模,以支持基于事实的决策制定。文本分析使用了许多语言、统计和机器学习技术。文本分析包括从非结构化数据中检索信息,以及对输入文本进行结构化以得出模式和趋势,并对输出数据进行评估和解释的过程。它还包括词汇分析、分类、聚类、模式识别、标签、注释、信息提取、链接和关联分析、可视化和预测分析。

文本情感分析根据文本大小可以划分为单词,句子级和篇章级,根据不同的分析目的,可以分为主客观分析(作者对客观事物的分析)和主观分析(作者自己的体验);根据处理方法的可以分为基于词典的情感分析和基于机器学习(SVM方法,神经网络和朴素贝叶斯方法)的情感分析;根据是否有人工参与,可以分为非监督和监督分类方法,区别在于是否需要人工情感标记。算法,主要的改进是通过依赖分析,围绕情感词,进行情感倾向性分析。

情感分析也被称为意见挖掘。情感分类涉及多个领域,如自然语音处理,人工智能,自动文本分类,文本挖掘,心理学等。它主要用来判别自然语言文字表达的观点,喜好以及感受和态度等相关的信息。

自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。

NLP 的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个子域。自然语言处理的应用包括机器翻译、情感分析、智能问答、信息提取、语言输入、舆论分析、知识图谱等方面,也是深度学习的一个分支。

在这个概念下还有两大子集,即自然语言理解(Natural Language Understanding,简称NLU)与自然语言生成(Natural Language Generation,简称NLG)

套用百度的一张展示它们的关系如下

(1)最底部,是最基础的大数据、机器学习和语言学(Linguistics);

(2)往上看,是知识图谱(Knowledge Graph),其中包含了实体图谱、注意力图谱和意图图谱。

(3)再上一层,左侧是语言理解(Language Understanding),右侧是语言生成(Language Generation)

——语言理解,包含了Query理解、文本理解、情感分析(Sentiment Analysis)等,还有词法(Lexical)、句法(Syntax)和语义(Semantic)等不同层次的分析。

——语言生成,包含了写作、阅读理解等等。

(4)最上方,是系统层面,包含了问答系统、机器翻译和对话系统。

自然语言处理是理解给定文本的含义与结构的流程。

文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。

自然语言处理被用来理解给定文本数据的含义(语义),而文本挖掘被用来理解给定文本数据的结构(句法)。

例如,在「I found my wallet near the bank」一句中,NLP 的任务是理解句尾「bank」一词指代的是银行还是河边。

由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。

事实上,“人工智能”被作为一个研究问题正式提出来的时候,创始人把计算机国际象棋和机器翻译作为两个标志性的任务,认为只要国际象棋系统能够打败人类世界冠军,机器翻译系统达到人类翻译水平,就可以宣告人工智能的胜利。四十年后的1997年,IBM公司的深蓝超级计算机 已经能够打败国际象棋世界冠军卡斯帕罗夫。而机器翻译到现在仍无法与人类翻译水平相比,从此可以看出自然语言处理有多么困难!

一句话总结就是,语言是文明的标志,是人类思维逻辑和情感线索的载体,自然语言处理正是人工智能的最高境界。

(1)单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

(2)词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

(3)句法的模糊性

自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。

(4)有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

(5)语言行为与计划

句子常常并不只是字面上的意思,例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去,在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。

(1)NLU 旨在让机器理解自然语言形式的文本内容。

从 NLU 处理的文本单元来讲,可以分为词(term)、句子(sentence)、文档(document)三种不同的类型:

---词层面的基础 NLU 领域包括分词(汉语、缅甸语、泰语等非拉丁语系语言需要)、词性标注(名词、动词、形容词等)、命名实体识别(人物、机构、地点等)和实体关系提取(例如人物-出生地关系、公司-所在地关系、公司收购关系等);

---句子层面的基础 NLU 领域包括句法结构解析(获取句子的句法结构)和依存关系解析(获取句子组成部分的依赖关系);

---文档层面的基础 NLU 领域包含情感分析(分析一篇文档的情感倾向)和主题建模(分析文档内容的主题分布)。

(2)与NLU不同,NLG旨在让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。根据数据源的类型,NLG可以分为三类:

---Text to text NLG,主要是对输入的自然语言文本进行进一步的处理和加工,主要包含文本摘要(对输入文本进行精简提炼)、拼写检查(自动纠正输入文本的单词拼写错误)、语法纠错(自动纠正输入文本的句法错误)、机器翻译(将输入文本的语义以另一种语言表达)和文本重写(以另一种不同的形式表达输入文本相同的语义)等领域;

---Data to text NLG,主要是根据输入的结构化数据生成易读易理解的自然语言文本,包含天气预报(根据天气预报数据生成概括性的用于播报的文本)、金融报告(自动生成季报/年报)、体育新闻(根据比分信息自动生成体育新闻)、人物简历(根据人物结构化数据生成简历)等领域的文本自动生成;

---Vision to text NLG,主要是给定一张或一段视频,生成可以准确描述或视频(其实是连续的序列)语义信息的自然语言文本。

下面重点说下NLG 技术的能力边界:

NLG 技术,一个核心在于NL,即自然语言形式的文本,更易于普通人阅读;另一个核心在于G,即生成,但不是创作,不涉及深入地分析、提炼和推理。

在 Text to text NLG 中,本质上是将输入文本进行处理,映射到一个语义向量空间中,然后再用输出文本来表达同样的语义,而这一过程中语义信息本身并没有经过进一步加工。

Data to text NLG 的目的是将结构化数据嵌入自然语言文本中,便于普通人的快速阅读,即使有一些看似推理的结果(例如天气预报中根据下周七天的天气数据,输出「未来一周大部分时间晴好,仅周三有短时小雨」这样的文本),其实也是人为定义了新的结构化数据字段。

Vision to text NLG 中也是如此,只是用自然语言文本来表达原先图像表达的语义,也不涉及语义的进一步加工。

换句话说,目前的 NLG 技术并不能实现人类的「写作」过程 - 其中包括对大量输入信息的理解、提炼、分析、推理和重组,而仅能够给出输入信息(文本、数据和图像)的自然语言形式的表示。

NLG 技术生成的文本,单篇文本看起来会非常规范和优质,但把大量的生成文本放在一起,就会感觉出浓浓的机器味儿 - 更为模式化且缺少灵活性。

NLP是AI的最大瓶颈,语言生成是NLP的最前沿

以新浪舆情通-政企舆情大数据监测系统为例,应用到了以下5大核心技术:

1)大数据采集、挖掘技术

网络舆情主要通过新闻、论坛、微博、公众号、博客等渠道形成和传播,网络舆情监测系统依靠强大的大数据计算能力实现了全网信息的实时收集、挖掘和智能检索,保障信息的及时性和完整性。

2)大数据处理技术

快速将数据去重、内容分类,噪音识别等,保障数据的精准度。

3)自然语言处理、图文智能分析等技术

通过词法分析、语义分析等先进技术,判断内容的情感属性,并优先展示涉及敏感的信息,让舆情监测系统在分析方式、分析对象、分析能力等方面更加“智能”,数据更加精准。

4)音视频处理技术

通过通过语音识别、视频处理等技术,将音视频信息转化为文本,实现对音视频信息的分析、分类与检索。对字幕和弹幕的提取和处理能更进一步了解用户的关注点以及情绪。

5)OCR 技术

通过 OCR 技术将中的信息识别为文本,实现对信息的分类与检索。用户只需要设置监测内容的关键词方案,即可实时获得相关的全网内容信息。

情感分析自从2002年由Bo Pang提出之后,获得了很大程度的关注,特别是在在线评论的情感倾向性分析上获得了很大的发展。本文主要关注无监督的情感分析方法,由于不需要大量标注语料,无监督情感分析方法一直受到许多研究者的青睐,但同时效果也低于有监督的情感分析方法。

Turney首次提出基于种子词的非监督学习方法,使用“excelent”和“poor”两个种子词与未知词在搜索网页中的互信息来计算未知词的情感极性,并用以计算整个文本的情感极性。后续的非监督情感分析方法大都是基于生成或已有的情感词典或者相关资源进行情感分析。

例 如,Kennedy和Inkpen考虑文本中词的极性转移关系并基于种子词集合进行词计数决定情感倾向。朱嫣岚等人将 一组已知极性的词语集合作为种子,基于HowNet对未知词语与种子词进行语义计算,从而判别未知词的极性。Lin等采用LSM 模型、JST模型、Reverse-JST模型构建了三种无监督的情感分析系统。但是由于深层情感分析必然涉及到语义的分析, 以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析效果并不理想,本文针对中文文本中经常出现的情感转移现象提出情感极性转移模型,提高了深层语义情感分析的分析效果。

根据价值的正负变化方向的不同,情感可分为正向情感与负向情感。正向情感是人对正向价值的增加或负向价值的减少所产生的情感,如愉快、信任、感激、庆幸等;负向情感是人对正向价值的减少或负向价值的增加所产生的情感,如痛苦、鄙视、仇恨、嫉妒等。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/1028543.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-12
下一篇2023-07-12

发表评论

登录后才能评论

评论列表(0条)

    保存