如何利用社交关系挖掘数据

如何利用社交关系挖掘数据,第1张

随着计算机技术以及存储技术的发展,人们收集数据的能力大大地得到了提高。数据爆炸式地增长,对人们从海量数据中发掘有用知识的能力要求也越来越高。2010年上海世博会是迄今世界上规模最大、参加的国家与国际组织、参观人数最多的一次世博会。在184天的时间里,产生了大量实际数据,像视频数据、每5分钟入园的客流数据以及门票销售数据等。如何从收集到的这些数据中发掘有用知识,对未来做出预测性判断,比如预测每天的客流,势必会给世博会组织调度人力、财力、物力以确保世博会安全有效地运行提供有用的参考意见。对世博客流做出准确的预测意义非常重大,因此本文将世博客流的预测作为第一个研究点。另一方面,互联网的飞速发展,社交媒体(像微博、孙大圣威客网等)的流行,使得社会网络中产生了大量的数据,这些数据最大的特点就是及时、准确地反映了用户的真实感受。从这些及时、准确反映用户真实感受的社交媒体中发掘有用知识,并对未来做出预测,是当下研究的热点与难点。同时,企业品牌都通过社交媒体来宣传发布自己的新产品,利用社交媒体来提高自己产品的知名度,因此通过对社交媒体数据的发掘,利用发掘出的知识对产品的未来表现做出预测,帮助企业决策,将具有重大意义。本文在成功预测世博客流的基础上,将利用当下最流行的社交媒体——微博数据,来研究**票房的预测方法。 世博客流具有很强的非线性和随机性,而人工神经网络是一个非线性的动态系统,可在任意精度内实现变量间的非线性关系的映射,并且具有良好的自学习能力、自适应和良好的泛化能力,神经网络的这些特性能够在某种程度上满足非线性预测要求。同时世博客流数据有着自身的特点,入园高峰出现在上午10点到12点之间,入园高峰点与当天的入园人数有着强烈的线性关系,因此,找出高峰点——拐点,以对世博客流的线性部分预测,具有重要的意义。本文提出一种计算拐点的算法,建立拐点预测模型并对世博客流进行预测。同时我们还将线性预测模型与非线性预测模型组合,提出了组合预测模型,以克服单个预测模型预测精度小的缺点。 在利用社交媒体——微博数据对**票房做预测的研究中,我们发现微博数的变化能够很好地反映**票房的趋势,他们之间存在着强烈的线性关系。我们利用微博率建立了线性回归模型,并对**票房做出预测,实验结果表明我们建立的模型是有效可行的。同时,我们利用数据挖掘技术中的情感分析技术对微博内容做了情感分析,用得到的情感值作为回归模型的附加变量,建立预测模型,提高了预测精度。我们得出结论:从社交媒体中发掘知识,对未来做出预测是切实可行的。 本文研究的创新点有: (1)提出了拐点预测模型并结合BP神经网络建立了组合预测模型对世博客流进行了预测。 (2)对当下最流行的社交媒体——微博数据进行挖掘,用挖掘出的微博率这一知识来建立线性回归模型对**票房做出了预测。 (3)研究了情感分析算法,对微博内容做情感分析,将得到的情感值运用到**票房的预测中,提高了预测精度。

希望采纳不足可追问

自然语言处理(NLP)在旅游领域具有广泛的应用,其中之一是情感分析。情感分析是指通过计算机程序来识别文本中的情感倾向,分析人们对旅游目的地、酒店、餐厅、交通工具等的评价。这种技术可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好,改善服务质量和提高客户满意度。

一个典型的旅游情感分析应用是在线评论分析。在线评论是消费者对旅游目的地、酒店、餐厅等的反馈,通过使用 NLP 技术,旅游公司和酒店等机构可以分析这些评论,了解消费者对服务质量、位置、价格、餐饮等的看法。这些信息可以帮助他们改善服务质量、提高客户满意度。

另一个应用是社交媒体情感分析。社交媒体是消费者展示旅游经历的主要渠道,通过使用 NLP 技术,旅游公司和酒店等机构可以分析消费者在社交媒体上发布的文本、和视频,了解消费者对旅游目的地、酒店、餐厅等的感受。这些信息可以帮助他们改善服务质量、提高客户满意度、扩大品牌知名度。

                                   

此外,NLP还可以用于预测未来趋势,通过分析历史数据来预测旅游需求、价格趋势等,进而帮助旅游公司和酒店等机构调量、提高客户满意度。

NLP技术还可以用于语音识别和语音合成,在旅游领域中应用于语音导航、语音查询等场景。例如,旅游公司可以开发一款语音导航应用,让游客在旅游中使用语音命令来获取信息和导航。

总之,NLP在旅游领域有着广泛的应用,它可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好,改善服务质量和提高客户满意度。通过使用NLP技术,旅游行业可以更好地了解客户,并提供更好的服务和体验。

基础及关联算法

  这一层算法的主要作用是为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析为推荐业务提供指导。

  这一部分中常用的算法和技术如下:

  分词技术与核心词提取

  是微博内容推荐的基础,用于将微博内容转化为结构化向量,包括词语切分、词语信息标注、内容核心词/实体词提取、语义依存分析等。

  分类与 anti-spam

  用于微博内容推荐候选的分析,包含微博内容分类和营销广告/色情类微博识别;

  内容分类采用决策树分类模型实现,共 3 级分类体系,148 个类别;营销广告/色情类微博的识别,采用贝叶斯与最大熵的混合模型。

  聚类技术

  主要用于热点话题挖掘,以及为内容提供关联资源。属于微博自主研发的聚类技术 WVT 算法(word vector topic),依据微博内容特点和传播规律设计。

  传播模型与用户影响力分析

  开展微博传播模型研究和用户网络影响力分析(包含深度影响力、广度影响力和领域内影响力)。

  主要推荐算法

  1 Graph-based 推荐算法

  微博具有这样的特点:用户贡献内容,社会化途径传播,带来信息的爆炸式传播。之所以称作 graph-based 推荐算法,而不是业界通用的 memory-based 算法,主要原因在于:

我们的推荐算法设计是建立在社交网络之上,核心点在于从社交网络出发,融入信息传播模型,综合利用各类数据,为用户提供最佳的推荐结果;比如很多时候,我们只是信息传播的关键环节,加入必要的推荐调控,改变信息传播通路,后续的传播沿着原来的网络自然的传播。

Feed 流推荐(我们称作趋势),是我们最重要的产品,而结果必须包含用户关系。

从 graph 的宏观角度看,我们的目标是建立一个具有更高价值的用户关系网络,促进优质信息的快速传播,提升 feed 流质量;其中的重要工作是关键节点挖掘、面向关键节点的内容推荐、用户推荐。

对这部分的算法做相应的梳理,如下面的表格:

这里的困难点在于 graph 的“边”怎样量化与取舍,依据多个“边”与“节点”的综合评分计算,以及与网络挖掘分析结果的融合。

这部分的算法研发中,产出了如下的数据附产品:

2 Content-based 推荐算法

Content-based 是微博推荐中最常用也是最基础的推荐算法,它的主要技术环节在于候选集的内容结构化分析和相关性运算。

正文页是 content-based 应用最广的地方,以它为例,简要的说一下

内容分析的很多点已在前面描述过了,这里重点说 2 个地方:

内容质量分析,主要采用微博曝光收益+内容信息量/可读性的方法来综合计算。微博曝光收益是借助用户群体行为,衡量内容优劣;内容信息量计算比较简单,即是微博关键词的 idf 信息迭代;对于内容可读性的衡量,我们做了一个小的分类模型,分别以可读性较好的新闻语料和可读性较差的口语化语料为训练样本,通过提取里面的各类词搭配信息,计算新微博具有良好可读性的概率。

词扩展,content-based 的效果取决于内容分析的深度。微博的内容比较短,可提取的关键信息比较少,做相关运算时容易因为数据稀疏而导致推荐召回率和准确率的难以权衡;我们引入 word2vec 技术,优化了词扩展效果,后面又以此为基础开展词聚类的工作,实现了推荐召回率和准确率的同步提升。

相关计算的技术点在于向量的量化和距离度量,我们通常使用“tfidf 权重量化 + 余弦距离”或者“topic 概率 + KLD 距离“的两种方法。

3 Model-based 推荐算法

微博作为中国最大的社会化媒体产品,具有海量的用户和信息资源;这就给推荐带来了 2 个挑战:

来源融合与排序

候选的极大丰富,意味着我们有更多的选择,于是我们推荐结果的产生包含两层:多种推荐算法的初选与来源融合排序的精选,为了得到更客观准确的排序结果,我们需要引入机器学习模型,来学习隐藏在用户群体行为背后的规律。

内容动态分类和语义相关

微博 UGC 的内容生产模式,以及信息快速传播和更新的特点,意味着之前人工标注样本,训练静态分类模型的方法已经过时了,我们需要很好的聚类模型把近期的全量信息聚合成类,然后建立语义相关,完成推荐。

Model-based 算法就是为了解决上述的问题,下面是我们两块最重要的机器学习工作:

3 1 CTR/RPM(每千次推荐关系达成率)预估模型,采用的基本算法为 Logistic regression,下面是我们 CTR 预估模型整体的架构图:

这部分工作包含样本选择、数据清洗、特征提取与选择、模型训练、在线预估和排序。值得一提的是,模型训练前的数据清洗和噪音剔除非常重要,数据质量是算法效果的上界,我们之前就在这个地方吃过亏。

Logisitic regression 是一个 2 分类概率模型

优化的目标在于最大化“样本正确分类概率的连乘值“;我们借助 yahoo 研发的 vowpal_wabbit 机器学习平台来完成模型特征值求解的最优化过程。

3 2 LFM(Latent Factor Model):LDA、矩阵分解(SVD++、SVD Feature)

LDA 是 2014 年初重点开展的项目,现在已经有了较好的产出,也在推荐线上产品中得到了应用;LDA 本身是一个非常漂亮和严谨的数学模型,下面是我们一个 LDA topic 的例子,仅供参考。

至于矩阵分解,2013 年的时候做过相应的尝试,效果不是特别理想,没有继续投入。

隐语义模型是推荐精度最高的单一模型,其困难在于数据规模大时,计算效率会成为瓶颈;我们在这个地方开展了一些工作,后续会有同学专门介绍这一块。

混合技术

三个臭皮匠顶个诸葛亮,每一种方法都有其局限性,将不同的算法取长补短,各自发挥价值,是极为有效的方式。微博推荐算法主要采用了下面的混合技术:

时序混合:

即在推荐过程的不同时间段,采用不同的推荐算法;以正文页为例,在正文页曝光的前期阶段,采用 content-based + ctr 预估的方法生成推荐结果,待产生的足量可信的用户点击行为后,再采用 user-based 协同过滤的方法得到推荐结果,如下图所示:

这样利用 content-based 很好的解决了冷启动的问题,又充分发挥了 user-based CF 的作用,实现1+1>2 的效果。

分层模型混合:

很多情况下,一个模型无法很好的得到想要的效果,而分层组合往往会取得比较好的效果,分层模型混合即“将上一层模型的输出作为下层模型的特征值,来综合训练模型,完成推荐任务“。比如我们在做微博首页右侧的 ctr 预估排序时,采用分层逻辑回归模型,解决了不同产品间特征天然缺失与样本量差异、曝光位置带来的效果偏差等问题。

怎样通过句法分析分析句子情感算法例子?现阶段主要的情感分析方法主要有两类:

基于词典的方法

基于机器学习的方法

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。

基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

先说大数据时代舆情数量庞大,来源众多,网站信源也很多。舆情情感分析单纯依靠人工数据难以量化,工程量大,借助舆情分析平台是不错的选择。

西盈舆情分析系统可以实现以下功能:

1、可以做到对舆情信息的分类研判(包括舆情的热点、负面、地域等)、及时预警、科学的分析(时间节点分析、图表分析、报告分析等)以及辅助建立预警机制,提供科学的决策依据。企业购买舆情监测系统已经是常态了,很多舆情危机的出现都会读直接影响企业的形象、经济利益、产品的推广等等。

2、内置数据模型知识库(数据分析方法库),由若干成熟的模型(数据算法)(维稳、治安、环保、交通运输、医疗、教育、卫生等)的代码和技术文档构成,并能够进行模型的拼接,引入和相互无缝引用。

3、实时显示分析引擎领域、属性、项目、日志、入库和统计图表信息,异常情况系统发出警示。实时显示目前系统运行详细日志,包括任务运行时间、文本处理时间、入库情况、知识库匹配情况、引擎数据库状态等。

也许有人会说:那些书很有帮助的,我看了之后感觉自己热血沸腾,让我对任僧(人生)的意义有了更加深刻的了解。哦,好的,我明白你的意思,也很能体会你那种心都快蹦出来的感觉。但是我想问一下你看这本书的目的是什么啊?你可能会答:在我迷茫的时候给我打鸡血,在我迷茫的时候给我指明方向。那是当然,励志的书籍看了是让人热血澎湃,我也不例外。但是我想问一下,你跟他的情况是一样的吗?你可以复制他的成功吗?这时,也许你会理直气壮地跟我说:当然,我可以借鉴他的成功经验嘛,现在没有这种体会,可能以后就会有帮助了呢?嗯,我很赞同你的想法,厚积才能薄发。但是你实践了吗?还是只是在床上嗑瓜子的时候顺便看到了呢?当我看到一个很励志的书籍的时候,会发出这样的感慨:啊!原来这世界上还有这么NB的人啊?(人外有人,山外有山,说不定我就是那只坐井观天的青蛙)。也许那样一个故事,至少对于我来讲,说不定只是当作一个故事(类似于伊索寓言这种)而非真实的事件来看待吧,因为似乎离我太远,我总不能总是停留在这种自我膨胀的幻想之中吧,自己的路还得由我自己一步一步走呢,别人是替代不了的。我不反对(好像我反对了也起不来了作用)看这些书,把一些人当作自己的偶像来看。但是,绝对不能把这些书籍当作是自己阅读的主菜,那样的饮食可以称得上是健康?

在我身边,是有一些人被所谓的成功学迷住的。他们在所谓的成功人士(天知道他们是不是成功人士)做了一场“成功”的演讲之后,就成为了他们的铁杆粉丝,成为了他们的追随者,“老师,……大师,……”这些话始终不离口。我有一同学,认为自己的口才不是很好,很内向,于是就报了一个“魔鬼口才”的培训班,交了差不多3000块钱吧。当时,他的那个神态,那个状态,好像自己突然找到了自己的救星一样,仿佛上完了这们课,在大师的领导之下就可以拥有魔鬼口才。这个状态一直延续到了他上完最后一节课,但是当最后一节课上完的时候,他的精神支柱立刻就坍塌了,因为他没感觉到自己在口才方面有任何的进步,只是相对快乐的过完了这近一个月的日子。接下来的那段日子,他很消沉,比以前更不爱讲话了,从他的眼神当中可以看出他是有多么的颓废。虽然,他也曾挣扎过,他想把“学费”给要回来(至少拿到一部分钱),因为他没有任何的收获,除了那些与他一起疯狂的那些“学员”们。结果很明显,人家只给他一句话“师傅领进门,修行在个人,成功这件事也是需要努力的”。说到这里,很多人可能对我这个同学还是有点同情的,但是情况真的是这样子吗?固然说,那些“成功讲师”以成功的明义赚到了钱,看上去不那么能够让人接受。但是原因也在我那个同学身上:培训班上课是两厢情愿的事情,没有人逼着你,是你自己要花钱到人家那里去学的是不是?人家给你说的最后一句话也是对的,你能保证你自己实践了吗?无论一个想法有多么的好,如果不付出实践,那都是狗屁。所以,要想生活过的好,拥有非凡的口才,那得自己一步一步努力啊,怎么就是听了几节成功学的课就成功了呢?

微博上有个人叫陆琪,反正我是没有看过他的微博,很多人称他为“妇女之友”,因为关注他的人大多是女性。更有人称他为“情感专家”,姑且这么叫吧。又不是没见过专家。他的微博大多是心灵鸡汤类的,教一些恋爱方面的,婚姻方面的东西,听起来好像很有道理,但是好像听了之后感觉跟没有听过一样,因为似乎那些道理你都懂。我曾经在微博上看到有人就是吐槽他的:前后的内容根本就不搭,一会儿叫你往东,一会儿又叫你往西,简直人格分裂啊!微博上,也不乏有这样的人存在,比如……语录,……恋爱学。凭借着一些大白话,套话,更有甚者是直接抄袭,拥有着几百万的粉丝,这简直就是一个奇迹啊!身边的一些女同学,看她的微博内容,全都是这些心灵鸡汤的段子,好像个个都是情感专家似的。心灵鸡汤,到底补到了什么,心灵的成长?与其天天琢磨这些,还不如去交一个朋友,男朋友,看看到底该怎么去面对情感方面的问题,这才是比较实在一点的东西。

让人成长的不是成功学,也不是心灵鸡汤,而是真真实实走过的每一步。

影响微博传播的有那些因素。

1、信息传播定位——实现微博营销传播效果的前提

微博营销想要吸引和捕捉目标群体的眼球,关键在于其传播内容的定位能否调动目标群体的兴趣,有效地调动目标群体的兴趣是实现微博营销传播效果的基本前提。具体来讲,微博营销信息的定位应该围绕以下几点:一是研究和分析消费视觉动机,把握住消费者视觉需求情况;二是微博信息传播的价值点应聚焦产品或服务独特的利益,凸显品牌核心价值;三是微博信息的编辑禁忌平铺直叙,信息的编辑处理要具备消费者“摄取力度”;四是微博信息的传播应讲究创新性,包含信息内容编辑、信息整合、传播组合等运用的创新性。

微博营销信息定位如同产品定位一样,微博营销信息传播定位的基本方向、基本思路应该仅仅围绕微博信息的编辑和处理以何种表述口吻、传达什么样的内容以及是否符合目标群体的行为习惯等具体内容进行策划和设计。

2、信息传播关注——实现微博营销传播效果的根基

所谓的信息传播关注不应该讲究被关注的数量(即粉丝数),应该以微博精准用户的数盆(即粉丝质量)来衡量,毕竟企业微博营梢的最终目的就是要实现产品或服务的销售。要实现这一目的,企业微博信息被关注的粉丝最好是精准的目标客户群体,否则再多的粉丝,如果脱离了目标客户群体的基本方向,是难以实现任何交易的。衡量和评价微博传播信息的关注质最的依据主要有:一是粉丝数址。微博影响力的大小与其粉丝数成直接正相关,被影响力大的粉丝关注的博主能够直接带动企业微博信息的影响幅度和范围;二是微博信息被关注的粉丝活跃度。粉丝活跃度即是博主评论、互动和参与转发的积极程度,对于活跃度比较高的用户,要善于研究和分析这类粉丝对哪些事物或者关键词感兴趣,从中挖掘出与企业产品或服务相联系的营销信息切人点;三是微博信息被关注粉丝的在线时间。被关注粉丝的在线时间也是衡量被关注质量的重点因素,即使再活跃的用户,在线时间过短是不能有效刺激微博信息的互动性,转发和传播信息的效果就难以保证影响力度。

因此,企业在把握信息传播关注的问题上,不应该将自己的微博定位在一个大众传媒的平台,而应定位于一个受众精准的互动平台。

3、信息传播互动一一实现微博营销传播效果的引擎

相对于传统媒介来讲。微博营销的精髓就在于其互动性优势。微博互动性决定了微博营销更适合进行产品或服务沟通,通过软性的方式植人,让用户在发表了个人观点后,不知不觉加深对企业品牌的认知和了解。更重要的是在企业品牌自我认知形成的过程中影响和带动了其他粉丝的“摄取”关注力度。因此,如何巧妙地与被关注粉丝进行互动,是做好微博营销传播的思路和方向。作为企业微博,在信息传播互动过程中,需把握好基本方向:一是企业微博耍注意与被关注粉丝的双向沟通,企业微博要注重及时有效的回复;二是在互动过程中,要注意倾听和分析互动动态,抓住消费者情感意愿、诉求取向等基本内容;三是要及时、主动地解决负面评论,正视粉丝互动问题,做到愉悦对话。

4、信息转发—实现微博营销传播效果的核心

微博营销是病毒式营销最好的践行者,是抢占消费者心理空间最畅通的营销路径,微博营销信息的转发是微博裂变式传播效应实现的关键推手。企业进行微博营销的关键就在于提高转发率,引导消费行为产生,这也是微博营销所要达到的最终目的。因此,如何引导被关注粉丝的转发、引导传播流量己经成为当今微博营销需要考虑的核心问题。企业微博进行微博营销的一个关键问题就是要转变传统媒介“one to one”的传播方式,实现“one to one”的传播模式。被关注粉丝转发行为的产生是多方面综合力量促成的结果,企业微博营销信息的转发及传播流量的实现需要经历几个阶段,井且应在每一个阶段进行严格的把握,并做好相应的工作:一是准确把握竞争对手微博营销动态;二是把握好行业发展特点和趋势;三是抓好微博营销信息的定位,巧妙植入产品或服务信息,推动传播互动力度;四是确定好微博营销传播投放位置,研究分析微博营销执行悄况,及时调整微博营销策略等。

网络舆情事件发生的偶然性大、随机性强,必须建立高效敏捷的舆论引导应急机制,努力掌握主动权和主导权。

一是建立快速高效的应急宣传机制。防止“重应急处置,轻新闻宣传”的倾向,做到突发事件新闻宣传工作有人过问、有人负责、有人落实。要就突发事件新闻报道组织协调、媒体引导、新闻发布、现场采访管理等制定应急处置预案,制定新闻处置对策和程序。

二是建立快速高效的信息沟通机制。单位搭建多瑞科舆情数据分析站舆情预警系统,强化信息报告,责任地区和部门要按照“第一时间原则”立即报告,不捂不盖,更不隐瞒真相,并在应急处置过程中,待续不间断地报告有关情况;强化信息沟通,事发地区和部门要及时与应急新闻处置领导小组进行沟通,会商评估事件的性质、情节与影响,制定妥善周全的新闻应对方案,新闻处置部门要主动靠前、联手联动,新闻发言人要第一时间进人现场,介入事件处理的全过程。

三是建立快速高效的媒体应对机制。要根据事件性质,设立应急新闻中心,主动接受问询,积极为记者提供采访、发稿等便利,做好服务保障:随时发布权威信息,提供新闻通稿,既满足媒体需要又使信息发布更加有序。

四是及时准确发布信息。对于突发公共事件,发布比不发布好、早发布比晚发布好、主动发布比被动发布好。在发布时段上,起始阶段要正视事实,及时发布;延续阶段要全面关注,有效分析;结束阶段要反思得失,发布结果。在发布技巧上,要坚持“速报事实、慎报原因”的原则,讲究发布艺术,妥善处理敏感话题。在发布形式上,要灵活运用新闻发布会、背景吹风会等多种方式,及时主动发布信息,最大限度传递正面声音。

五是注重舆论引导艺术。依靠多瑞科舆情监测软件监控舆情动态准确决策,要发挥第一时间发布权威信息的优势,按照“统一口径,报道适度、不炒作、不渲染”的原则,积极主动“摆事实,讲道理”,将群众情绪向理性、平和、客观的方向引导,推动事态向有利于妥善处置的方向转化。要尊重社会公众的知情权,注重从公众的角度提供权威、可靠的新闻信息,提高公众对各种信息的鉴别判断能力。要把握好报道的度,根据突发公共事件在不同发展阶段的具体表现,审时度势、因势利导。

六是善用善待新闻媒体。新闻发言人要走上前台,及时表明立场态度、处置意见和工作进展,及时回应媒体和公众的质疑;_要善于面对媒体,以理性、平和的心态善待媒体,多与媒体交流沟通,将权威、客观的消息有力有效地传递出去;要实事求是,不说套话、空话,以诚实的态度赢得媒体信任,合力促使舆论平息。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7492965.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-06
下一篇2023-09-06

发表评论

登录后才能评论

评论列表(0条)

    保存