如何高效做好舆情分析工作?

如何高效做好舆情分析工作?,第1张

想要做好舆情信息工作主要分为以下几方面:

(一)、建立组织保障机制

网络舆情和网络信息安全工作一样,都应实行属地管理和一把手负责制,采取“谁运营谁负责、谁主管谁负责、谁使用谁负责”的办法实行责任追究制。要在进一步提高认识的基础上,把网络舆情信息工作纳入宣传思想工作总体安排,精心部署,狠抓落实。要制定各种规章制度规范网络行为。要明确一位领导同志具体分管网络舆情信息工作,同时确定一名同志为舆情信息员负责网络舆情的日常监测,每天或每周按部门对网络舆情进行分类整理,针对各部门的情况,提供简单的舆情监测分析报告,及时向各职能部门进行反馈。

(二)、建立技术保障机制

网络技术手段是实现网络舆论管理的一个有效措施,常用的网络技术手段包括对IP地址的监测、跟踪、封杀;网管的全天候值班监测,对负面消息进行及时清除;运用智能型软件进行敏感词组的自动过滤;对论坛发帖的延时审查及发布;对国外敏感网站浏览限制;论坛、博客、播客实行实名认证制度等。各个网站和互联网运营商都要严格按照国家有关互联网信息安全的相关法律法规建立技术保障措施,确保网络信息安全。

(三)、建立日常工作机制

1、网络信息发布

“互联网让每一个人都变成了信息的发布者,而且可以不经过审查。”一位传媒研究者称,“一方面,这可以让信息更加公开透明;同时,由于鱼龙混杂,你无法分辨它的真假。而对那些年轻的网民来说,情绪非常容易被煽动。” 正是如此,网站一定要严把信息发布关,要建立网络信息发布的审核制度,规范信息审核流程,实行专人负责。网站开办的BBS论坛、博客、播客等交互栏目,必须实行“实名注册”并落实专人管理,严格执行先审后贴制度。

2、网络舆情引导

网络舆情引导就是对监测到的网络舆情动向,通过网络信息评论员进行网络舆论导向,发挥“舆论领袖”的积极作用,对日常舆情进行引导。一方面可以开展即时性评论,及时跟帖批驳反面声音;另一方面可以通过发帖、跟帖发表引导性评论,发布正面观点。根据传播学规律,“舆论领袖”在影响受众的态度方面作用明显,尤其当网络出现海量信息时,网民往往会无所适从

乐思舆情:在正面引导的同时,各版主还要严格审核有关信息,对恶意信息立即删除,对情绪偏激的帖子作缓冲处理。在把关中,切忌简单粗暴地删帖,要注重运用动之以情、晓之以理的引导艺术,使网民产生理性和情感上的认同与共鸣,从而形成网上正面言论强势。

LDA是生成式概率模型。基本的观点是一个文档由多个隐主题生成,每个主题是由单词的分布式表达。

LDA假设在语料库D中每个文档的生成过程如下:

1主题数量k已知

2单词的概率由参数 控制

参数 是一个k 维的向量,并且每个元素大于0, 服从Gamma 分布

已知参数 , 联合分布主题混合的参数 , 表示主题的参数 z,表示文档的参数w:

对 积分,并对z求和得到关于文档的边缘分布:

所有文档的边缘分布相乘,得到整个语料库的概率:

参数 和参数 是语料库级别的参数,在生成语料库的过程中使用。

变量 是文档级别的参数,每个文档采样一次。

变量 和 是单词级别的参数,每个文档中每个单词都采样一次

一组随机变量如果联合分布和变量的排列顺序无关,则称这组变量是可交换的。

在LDA中,我们假设单词是由主题生成的,并且这些主题在文档中是无限可交换的,

其中 是关于主题多项式分布的随机变量。

通过对隐主题变量z积分。可以得到单词分布:

这是一个随机量,因为他依赖于

我们定义接下来的生成过程, 对于一个文档 w

1选择θ∼Dir(α)

2对于每个N的单词 :

(a)从 中选择一个单词

这个过程定义一篇文档的边缘分布看成一个连续的混合分布

inference的关心的问题使用LDA来计算隐变量z的后验分布:

这个分布通常很难计算。通过normaliza 分布,并且计算边缘分布。

这个后验分布很难计算,但是通过一些变分推断的方法还是可以得到。

基本的观点是使用jensen's 不等式来获得一个调整的下界,变分参数通过优化过程来试图找到最接近的可能的下界。

一个简单的方式是通过鲜花原始的计算图,将一些边和节点移去。在LDA中,原始的图是左图,通过把 移去,生成右边含有自由变分参数的图。

新的计算图使用如下变分分布:

是狄利克雷参数,多项式参数(φ1 , , φ N ) 是自由变量参数。

得到简化的概率分布后,下一步是开始的优化问题是决定变分参数 的值。

优化这个变分参数是通过最小化KL散度来实现,并且吧他们设为0,得到以下的更新参数。

在文本的语言中,优化参数 是文档制定的。特别的,我们认为狄利克雷参数 是一个文档的主题表达。

经验贝叶斯方法来估计LDA中的参数。给定一个语料D,我们希望找到参数 来最大化边缘似然概率:

计算 比较困难,可以通过变分EM算法来估计。

1E step,对于每个文档,找到最优的变分参数 。

2M step, 最大化结果的下界。

重复上述几步直到下界收敛。

PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。而方差最大的那个维度是主成分。

PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小。

PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。

再举个栗子:

下面举一个简单的例子,说明PCA的过程。

假设我们的数据集有10个二维数据(25,24), (05,07), (22,29), (19,22), (31,30), (23, 27), (2, 16), (1, 11), (15, 16), (11, 09),需要用PCA降到1维特征。

首先我们对样本中心化,这里样本的均值为(181, 191),所有的样本减去这个均值向量后,即中心化后的数据集为(069, 049), (-131, -121), (039, 099), (009, 029), (129, 109), (049, 079), (019, -031), (-081, -081), (-031, -031), (-071, -101)。

现在我们开始求样本的协方差矩阵,由于我们是二维的,则协方差矩阵为:

对于我们的数据,求出协方差矩阵为:

求出特征值为(00490833989, 128402771),对应的特征向量分别为:

由于最大的k=1个特征值为128402771,对于的k=1个特征向量为 则我们的W=

我们对所有的数据集进行投影 得到PCA降维后的10个一维数据集为:(-0827970186, 177758033, -0992197494, -0274210416, -167580142, -0912949103, 00991094375, 114457216, 0438046137, 122382056)

在上面的PCA算法中,我们假设存在一个线性的超平面,可以让我们对数据进行投影。但是有些时候,数据不是线性的,不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想,先把数据集从n维映射到线性可分的高维N>n,然后再从N维降维到一个低维度n', 这里的维度之间满足n'<n<N。

使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA, 以下简称KPCA。假设高维空间的数据是由n维空间的数据通过映射ϕ产生。

则对于n维空间的特征分解:

映射为:

通过在高维空间进行协方差矩阵的特征值分解,然后用和PCA一样的方法进行降维。一般来说,映射ϕ不用显式的计算,而是在需要计算的时候通过核函数完成。由于KPCA需要核函数的运算,因此它的计算量要比PCA大很多。

这里对PCA算法做一个总结。作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点,出现了很多PCA的变种,比如第六节的为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及解决稀疏数据降维的PCA方法Sparse PCA等。

  

PCA算法的主要优点有:

LDA(线性判别分析,Linear Discriminant Analysis)是另一种常用的降维方法,它是有监督的。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下它的算法原理。这里需要注意的是,此处的LDA与文本主题模型中的LDA(隐含狄利克雷分布,Latent Dirichlet Allocation)并不相同,他是一种处理文档的主题模型。

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。

LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。

什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

可能还是有点抽象,我们先看看最简单的情况。假设我们有两类数据 分别为红色和蓝色,如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外,还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布,这样利用LDA进行投影后,可以利用极大似然估计计算各个类别投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后,我们可以将它投影,然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算它属于这个类别的概率,最大的概率对应的类别即为预测类别。

LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

这点可以从下图形象的看出,在某些数据分布下LDA比PCA降维较优。

当然,某些某些数据分布下PCA比LDA降维较优,如下图所示:

LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时,LDA是一个有力的工具。下面总结下LDA算法的优缺点。

LDA算法的主要优点有:

参考文章: 刘建平老师的博客园

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/4268365.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-22
下一篇2023-08-22

发表评论

登录后才能评论

评论列表(0条)

    保存