3、请解释什么是情感分析的粒度?

3、请解释什么是情感分析的粒度?,第1张

情感分析的粒度是指定义情感极性的颗粒度大小,即从哪里开始分析情感。它可以分为句子级情感分析和实体级情感分析。

句子级情感分析是基于单个句子进行分析,通过分析文本中的每一个句子来确定该句子的情感倾向,进而判断整段文本的情感趋势,粒度相对较粗。

实体级情感分析是基于文本中的每一个实体进行情感分析,可以识别句子中对实体的情感色彩,例如对人物、组织、产品等进行情感评价。粒度相对较细。

不同的应用场景和需求,需要精细的情感分析,因此不同的应用和目标,其情感分析的粒度也应该有所区别和调整。

文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚,有太多所谓“只可意会,不能言传”的东西在里面。人类的判断大多依据经验以及直觉,因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。这便是统计学习方法的基本思想。

统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。这些训练集包括sogou文本分类分类测试数据、中文文本分类分类语料库,包含Arts、Literature等类别的语料文本、可用于聚类的英文文本数据集、网易分类文本分类文本数据、tc-corpus-train(语料库训练集,适用于文本分类分类中的训练)、2002年中文网页分类训练集CCT2002-v11等。

现如今,统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础(相比之下,知识工程方法中专家的主观因素居多),存在明确的评价标准,以及实际表现良好。统计分类算法

将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。常用的分类算法为:

决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等。在这里只挑几个最具代表性的算法侃一侃。

Rocchio算法

Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这 个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。 稍微改进一点的Rocchio算法不仅考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。

不过Rocchio产生的分类器很直观,很容易被人类理解,算法也简单,还是有一定的利用价值的,常常被用来做科研中比较不同算法优劣的基线系统(Base Line)。

朴素贝叶斯算法

贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上 可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。

朴素贝叶斯算法的公式并不是只有一个。

首先对于每一个样本中的元素要计算先验概率。其次要计算一个样本对于每个分类的概率,概率最大的分类将被采纳。所以

其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1)

P(w|C)=元素w在分类为C的样本中出现次数/数据整理后的样本中元素的总数(式2)

这其中就蕴含着朴素贝叶斯算法最大的两个缺陷。

首先,P(d| Ci)之所以能展开成(式1)的连乘积形式,就是假设一篇文章中的各个词之间是彼此独立的,其中一个词的出现丝毫不受另一个词的影响(回忆一下概率论中变 量彼此独立的概念就可以知道),但这显然不对,即使不是语言学专家的我们也知道,词语之间有明显的所谓“共现”关系,在不同主题的文章中,可能共现的次数 或频率有变化,但彼此间绝对谈不上独立。

其二,使用某个词在某个类别训练文档中出现的次数来估计P(wi|Ci)时,只在训练样本数量非常多的情况下才比较准确(考虑扔硬币的问题,得通过大量观 察才能基本得出正反面出现的概率都是二分之一的结论,观察次数太少时很可能得到错误的答案),而需要大量样本的要求不仅给前期人工分类的工作带来更高要求 (从而成本上升),在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。

但是稍有常识的技术人员都会了解,数据挖掘中占用大量时间的部分是数据整理。在数据整理阶段,可以根据词汇的情况生成字典,删除冗余没有意义的词汇,对于单字和重要的词组分开计算等等。

这样可以避免朴素贝叶斯算法的一些问题。其实真正的问题还是存在于算法对于信息熵的计算方式。

朴素贝叶斯算法在很多情况下,通过专业人员的优化,可以取得极为良好的识别效果。最为人熟悉的两家跨国软件公司在目前仍采用朴素贝叶斯算法作为有些软件自然语言处理的工具算法。

kNN算法

最近邻算法(kNN):在给定新文档后,计算新文档特征向量和训练文档集中各个文档的向量的相似度,得到K篇与该新文 档距离最近最相似的文档,根据这K篇文档所属的类别判定新文档所属的类别(注意这也意味着kNN算法根本没有真正意义上的“训练”阶段)。这种判断方法很 好的克服了Rocchio算法中无法处理线性不可分问题的缺陷,也很适用于分类标准随时会产生变化的需求(只要删除旧训练文档,添加新训练文档,就改变了 分类的准则)。

kNN唯一的也可以说最致命的缺点就是判断一篇新文档的类别时,需要把它与现存的所有训练文档全都比较一遍,这个计算代价并不是每个系统都能够承受的(比 如我将要构建的一个文本分类系统,上万个类,每个类即便只有20个训练样本,为了判断一个新文档的类别,也要做20万次的向量比较!)。一些基于kNN的 改良方法比如Generalized Instance Set就在试图解决这个问题。

kNN也有另一个缺点,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 SVM(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。

SVM 方法有很坚实的理论基础,SVM 训练的本质是解决一个二次规划问题(Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。 SVM分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将 原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM 训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM 的训练速度问题,研究者提出了很多改进方法,包括Chunking 方法、Osuna算法、SMO 算法和交互SVM 等。SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都略优于kNN及朴素贝叶斯方法。

怎样通过句法分析分析句子情感算法例子?现阶段主要的情感分析方法主要有两类:

基于词典的方法

基于机器学习的方法

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。

基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

本文整理自网络,主要是对自然语言处理能发展和落地的方向进行总结,也算是对自然语言处理常见任务的总结。

NLP的四大任务如下:

序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

序列标注一般可以分为两类:

命名实体识别(Named entity recognition, NER)是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。

举个NER和联合标注的例子。一个句子为:Yesterday , George Bush gave a speech 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。

11 BIO标注

解决联合标注问题最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。

BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。

比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:

因此可以将一段话划分为如下结果:

我们可以进一步将BIO应用到NER中,来定义所有的命名实体(人名、组织名、地点、时间等),那么我们会有许多 B 和 I 的类别,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下结果:

[上传失败(image-b1cfb3-1609330627120)]

12 序列标注常用模型

选择双向LSTM的原因是:当前词的tag和前后文都有关。

13 序列标注具体任务

(1)分词

(2)词性标注(Part-of-Speech tagging ,POS tagging)

(3)命名实体标注(name entity recognition, NER)

21 分类的具体任务

(1)文本分类、情感分类

31 具体任务

(1)句法分析、蕴含关系判断(entailment)

这类任务一般直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术。

41 具体任务

(1)机器翻译(Machine Translation,MT)

Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的。

(2)文本摘要、总结(Text summarization/Simplication)

输入是一段文本序列,输出是这段文本序列的摘要序列。

(3)阅读理解(Reading Comprehension)

将输入的文章和问题分别编码,再对其进行解码得到问题的答案。

(4)语音识别

输入是语音信号序列,输出是文字序列。

(5)对话系统(Dialogue Systerm)

输入的是一句话,输出是对这句话的回答。

(6)问答系统(Question-Answering Systerm)

针对用户提出的问题,系统给出相应的答案。

(7)自动文章分级(Automatic Essay Grading)

给定一篇文章,对文章的质量进行打分或分级。

1 词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作

2 句子分析(Sentence Analysis):对自然语言进行句子层面的分析,包括句法分析和其他句子级别的分析任务

3 语义分析(Semantic Analysis):对给定文本进行分析和理解,形成能勾够表达语义的形式化表示或分布式表示

4 信息抽取(Information Extraction):从无结构文本中抽取结构化的信息

5 顶层任务(High-level Tasks):直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术

1序列标注中的BIO标注介绍,地址: https://blogcsdnnet/HappyRocking/article/details/79716212

2 http://nlpersblogspotcomau/2006/11/getting-started-in-sequence-labelinghtml

3NLP 四大任务,地址: https://wwwdazhuanlancom/2019/08/21/5d5ca1e2826b9/

4NLP基本任务,地址: https://blogcsdnnet/lz_peter/article/details/81588430

5微信研究员解析深度学习在NLP中的发展和应用,地址: https://educsdnnet/course/play/8673

6从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 张俊林的文章 - 知乎 https://zhuanlanzhihucom/p/49271699

监督学习的常见应用如下:

1、图像识别和分类:监督学习可以用于图像识别和分类任务。例如,通过标记了不同类别的图像数据,可以训练模型来自动识别和分类图像中的目标物体,如人脸识别、物体检测、图像分类等。

2、文本分类和情感分析:监督学习可以应用于文本分类任务,如垃圾邮件过滤、情感分析、文档分类等。通过对已标记的文本数据进行训练,模型可以自动将新的文本数据分类为不同的类别或进行情感分析,如判断文本是积极还是消极的情感。

3、自然语言处理(NLP):监督学习在自然语言处理领域也有广泛应用。例如,将监督学习应用于机器翻译、命名实体识别(NER)、问答系统、文本摘要、语言相似度等任务,通过对已标记的文本进行训练,可以让模型学习到语言的语义和语法规则。

4、预测和回归分析:监督学习可以用于预测和回归分析。例如,通过历史销售数据训练模型,可以预测未来的销售量;通过过去的股票数据训练模型,可以预测股票价格的走势。监督学习也可以用于回归问题,如房价预测、气温预测等。

5、推荐系统:监督学习在推荐系统中有着广泛的应用。通过将用户的历史行为和偏好作为已标记的数据,可以训练推荐模型,从而预测用户的兴趣和喜好,并向用户推荐个性化的内容、产品或服务。

6、医疗诊断和预测:监督学习在医疗领域中有着广泛的应用。例如,在医学影像诊断中,通过标记了疾病或异常的图像数据,可以训练模型来帮助医生自动识别和诊断病变。此外,监督学习还可以用于疾病预测,通过医学数据的训练,模型可以预测患者是否有可能患上某种疾病,帮助医生进行早期干预和预防。

7、金融风控和欺诈检测:监督学习在金融领域中也有广泛应用。例如,可以使用监督学习来建立信用评分模型,预测用户的信用风险,用于贷款审核和风险控制。此外,监督学习还可以应用于欺诈检测,通过历史交易和行为数据的训练,模型可以识别出潜在的欺诈行为。

8、股票市场预测:监督学习可以应用于股票市场预测任务。通过历史的股票市场数据进行训练,模型可以预测股票价格的涨跌趋势,帮助投资者做出决策。

9、交通预测和智能交通系统:监督学习可以用于交通预测和智能交通系统中。通过历史的交通数据训练模型,可以预测道路流量、车辆拥堵情况等,进而提供交通优化方案和预警信息。

10、视频分析和动作识别:监督学习可以应用于视频分析和动作识别任务。通过标记了不同动作的视频数据进行训练,模型可以自动识别和分类视频中的动作,如行人识别、运动员动作识别等。

监督学习是机器学习中的一种常见方法,它可以通过在给定输入和对应输出之间进行训练,从而使模型能够根据新的输入样本预测或分类输出。监督学习在各个领域中都有广泛的应用。实际上监督学习还有很多其他的应用,随着数据的不断增长和模型的不断进步,监督学习在各个领域的应用潜力将会不断扩大和深化。

监督学习的注意事项

1、数据质量:监督学习的性能直接受数据质量的影响。确保训练数据的准确性和完整性是非常重要的。数据质量问题可能导致模型训练出现偏差或过拟合等问题,从而影响到模型的泛化能力。

2、样本不平衡:若某个类别的样本数量相对较少,或者不同类别的样本分布不均衡,会导致模型倾向于预测大多数样本所属的类别,而对于少数类别的预测性能较差。在这种情况下,可以采用一些技巧,如采样策略、类别权重调整等来处理样本不平衡问题。

3、特征选择和处理:选取合适的特征对监督学习的性能至关重要。需要注意特征的相关性、重要性和可解释性。此外,对于不同的特征类型,可能需要进行适当的预处理,如归一化、缺失值处理、特征编码等。

4、模型选择和调参:选择合适的监督学习模型对于任务的成功非常重要。不同的模型适用于不同的数据和问题。在进行模型选择时,需要考虑模型的复杂度、可解释性和计算开销等因素。同时,模型也需要进行适当的调参,以优化其性能。参数调优可以通过交叉验证、网格搜索等方法来实现。

5、过拟合和欠拟合:过拟合和欠拟合是监督学习中常见的问题。过拟合指模型在训练集上表现良好,但在未见过的数据上表现较差,这是因为模型过于复杂,过度拟合了训练数据的噪声。欠拟合则指模型在训练集和测试集上都没有达到理想的性能,通常是因为模型过于简单,无法捕捉数据中的复杂关系。需要通过合适的模型选择、调参和数据增强等方法来解决这些问题。

6、验证和评估指标:对模型进行验证和评估是必要的。划分数据集为训练集、验证集和测试集,用训练集训练模型,用验证集调优模型,最后用测试集评估模型的泛化能力。选择合适的评估指标来衡量模型的性能,如准确度、精确度、召回率、F1 值等,根据具体任务的需求进行选择。

7、持续监督和模型更新:监督学习是一个持续的过程。随着时间推移,数据可能发生变化,模型可能需要进行更新和重新训练,以适应新的数据分布和任务需求。定期监督模型的性能,并根据需要进行模型更新是非常重要的。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/747360.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-08
下一篇2023-07-08

发表评论

登录后才能评论

评论列表(0条)

    保存