机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?福利来啦~本文将教你慧眼识精,快速挑选出满意的算法!
机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。
有些问题是非常特别的,需要用一种特定的解决方法。例如,如果你对推荐系统有所了解,你会发现它是一类很常用的机器学习算法,用来解决一类非常特殊的问题。而其它的一些问题则非常开放,可能需要一种试错方法(例如:强化学习)。监督学习、分类、回归等问题都是非常开放的,可以被用于异常检测或建立更加广泛的预测模型。
此外,我们在选择机器学习算法时所做出的一些决定与算法的优化或技术层面关系并不大,而更多地与业务决策相关。下面,让我们一起来看看有哪些因素能帮你缩小机器学习算法的选择范围。
数据科学过程
在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。
理解你的数据
当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处理待分类的输入特别有效,但是对于缺失值则一点都不敏感。
因此,你需要做到:
了解你的数据
1 查看总结统计和数据可视化的结
百分比可以帮助你识别大多数数据的范围
平均数和中位数可以描述集中趋势
相关系数可以指出强的关联性
2 数据可视化
箱形图可以识别出异常值
密度图和直方图可以显示出数据的散布情况
散点图可以描述二元关
数据清洗
1 处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差)
2 选择处理异常值的方法
异常值在多维数据中十分常见。
有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。
异常值可能是糟糕的数据收集造成的,也可能是合理的极值。
3 数据需要被聚合吗?
数据增强
1 特征工程是从原始数据中产生能够被用于建模的数据的过程,可以起到以下几种作用:
使模型更容易被解释(如数据分箱(binning))
捕获更复杂的关系(如神经网络)
减少数据冗余并降低数据维度(如主成分分析(PCA))
重新缩放变量(如标准化或归一化)
2 不同的模型可能有不同的特征工程的要求。有的模型有内置的特征工程。
对问题进行分类
下一步是对问题进行分类。这是一个需要分两步实现的过程。
1 根据输入分类:
如果你拥有的是带标签的数据,那么这就是一个监督学习问题。
如果你拥有的是未标注过的数据,并且希望从中找到有用的结构,那么这就是一个无监督学习问题。
如果你想要通过与环境的交互来优化一个目标函数,那么这就是一个强化学习问题。
2 根据输出分类:
如果模型的输出是一个(连续的)数字,那么这就是一个回归问题。
如果模型的输出是一个类别,那么这就是一个分类问题。
如果模型的输出是一组用输入数据划分出的簇,那么这就是一个聚类问题。
你想发现一个异常点吗?此时你面对的就是一个异常检测问题。
理解你要满足的约束条
你需要考虑你能够存储数据的容量有多大?这取决于系统的存储容量,你可能无法存储若干 GB 大小的分类、回归模型或者若干 GB 的用于聚类分析的数据。例如,在嵌入式系统中,你就会面临这种情况。
对预测过程的速度是否有要求?在实时应用中,很显然,尽快得出预测结果是十分重要的。例如,在自动驾驶问题中,应用必须尽可能快地对道路标志进行分类,以免发生交通事故。
对学习过程的速度是否有要求?在某些情况下,快速训练模型是十分必要的:有时,你需要使用不同的数据集快速地实时更新你的模型。
寻找可用的算法
当对自己的任务环境有了一个清晰的认识后,你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下:
模型是否满足业务目标
模型需要多少数据预处理工作
模型有多准确
模型的可解释性如何
模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间?
模型的可伸缩性如何
模型的复杂度是一个影响算法选择的重要标准。一般来说,一个更复杂的模型具备下列特征:
它依赖于更多的特征进行学习和预测(例如,使用十个而不是两个特征来预测目标)
它依赖于更复杂的特征工程(例如,使用多项式特征、交互特征或主成分)
它有更大的计算开销(例如,需要一个由 100 棵决策树组成的随机森林,而不是一棵单独的决策树)
除此之外,同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如:
回归模型可以拥有更多的特征,或者多项式项和交互项。
决策树可以拥有更大或更小的深度。
将相同的算法变得更加复杂增加了发生过拟合的几率。
常用的机器学习算法
线性回归
这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归算法。然而,当特征冗余,即如果存在多重共线性(multicollinearity)时,线性回归就不太稳定。
在下列情况下可以考虑使用线性回归:
从一个地方移动到另一个地方所需的时间
预测下个月某种产品的销售情况
血液中的酒精含量对协调能力的影响
预测每个月礼品卡的销售情况,并改善年收入的估算
Logistic 回归
Logistic 回归执行二进制分类,因此输出二值标签。它将特征的线性组合作为输入,并且对其应用非线性函数(sigmoid),因此它是一个非常小的神经网络的实例。
logistic回归提供了许多方法对你的模型进行正则化处理,因此正如在朴素贝叶斯算法中那样,你不必担心你的特征是否相关。该模型还有一个很好的概率化的解释。不像在决策树或者支持向量机中那样,你可以很容易地更新你的模型以获取新的数据。如果你想要使用一个概率化的框架,或者你希望在未来能够快速地将更多的训练数据融合到你的模型中,你可以使用 logistic 回归算法。logistic 回归还可以帮助你理解预测结果背后起作用的因素,它不完全是一个黑盒方法。
在下列情况下可以考虑使用 logistic 回归算法:
预测客户流失
信用评分和欺诈检测
评价市场营销活动的效果
决策树
决策树很少被单独使用,但是不同的决策树可以组合成非常高效的算法,例如随机森林或梯度提升树算法。
决策树很容易处理特征交互,并且决策树是一种非参数模型,所以你不必担心异常值或者数据是否是线性可分的。决策树算法的一个缺点是,它们不支持在线学习,因此当你要使用新的样本时,你不得不重新构建决策树。决策树的另一个缺点是,它很容易发生过拟合,而这就是像随机森林(或提升树)这样的集成学习方法能够派上用场的地方。决策树也需要大量的内存空间(拥有的特征越多,你的决策树可能会越深、越大)
决策树能够很好地帮助你在诸多行动路径中做出选择:
做出投资决策
预测客户流失
找出可能拖欠银行贷款的人
在「建造」和「购买」两种选择间进行抉择
销售主管的资质审核
K-均值
有时,你完全没有数据的标签信息,并且你的目的是根据对象的特征来为其打上标签。这种问题被称为聚类任务。聚类算法可以在这种情况下被使用:例如,当你有一大群用户,你希望根据他们共有的一些属性将其划分到一些特定的组中。
如果在你的问题声明中有这样的问题:例如,找出一群个体的组织形式,或将某些东西分组,或找出特定的组。这时,你就应该使用聚类算法。
该方法最大的缺点是,K-均值算法需要提前知道你的数据会有多少簇,因此这可能需要进行大量的试验去「猜测」我们最终定义的簇的最佳个数——K。
主成分分析(PCA)
主成分分析能够对数据进行降维。有时,你拥有各种各样的特征,这些特征之间的相关性可能很高,而模型如果使用如此大量的数据可能会产生过拟合现象。这时,你可以使用主成分分析(PCA)技术。
主成分分析(PCA)能够起作用的关键因素是:除了低维的样本表征,它还提供了各种变量的一种同步的低维表征。同步的样本和变量的表征提供了一种能够可视化地找到能够表示一组样本的特征的变量的方法。
支持向量机
支持向量机(SVM)是一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时。
支持向量机准确率高,对于防止过拟合很好的理论保障。当你使用一个合适的核函数时,即使你的数据在基(低维)特征空间中是线性不可分的,他们也可以很好地工作。支持向量机在文本分类问题中非常流行,在该问题中,输入是一个维度非常高的空间是很正常的。然而,SVM 是一种内存密集型算法,它很难被解释,并且对其进行调优十分困难。
在下列现实世界的应用中,你可以使用支持向量机:
发现患有糖尿病等常见疾病的人
手写字符识别
文本分类——将文章按照话题分类
股票市场价格预测
朴素贝叶斯
这是一种基于贝叶斯定理的分类技术,它很容易构建,非常适用于大规模数据集。除了结构简单,据说朴素贝叶斯的表现甚至比一些复杂得多的分类方法更好。当 CPU 和内存资源有限时,朴素贝叶斯算法也是一个很好的选项。
朴素贝叶斯非常简单,你仅仅是在做大量的计数工作。如果朴素贝叶斯的条件独立假设确实成立,朴素贝叶斯分类器的收敛速度会比 logistic 回归这样的判别模型更快,因此需要的训练数据更少。即使朴素贝叶斯的假设不成立,朴素贝叶斯分类器往往也能很好地完成任务。如果你想使用一种快速的、简单的、性能也不错的模型,朴素贝叶斯是一个很好的选择。这种算法最大的缺点就是它不能学习到特征之间的相互作用。
在下列真实世界的应用中,你可以使用朴素贝叶斯:
情感分析和文本分类
类似于 Netflix、Amazon 这样的推荐系统
识别垃圾邮件
人脸识别
随机森林
随机森林是一种决策树的集成方法。它能够同时解决具有大规模数据集的回归问题和分类问题,还有助于从数以千计的输入变量中找出最重要的变量。随机森林具有很强的可伸缩性,它适用于任何维数的数据,并且通常具有相当不错的性能。此外,还有一些遗传算法,它们可以在具有最少的关于数据本身的知识的情况下,很好地扩展到任何维度和任何数据上,其中最简单的实现就是微生物遗传算法。然而,随机森林学习的速度可能会很慢(取决于参数设置),并且这种方法不能迭代地改进生成模型。
在下列现实世界的应用中,你可以使用随机森林:
预测高危患者
预测零件在生产中的故障
预测拖欠贷款的人
神经网络
神经网络中包含着神经元之间连接的权重。这些权重是平衡的,逐次对数据点进行学习。当所有的权重都被训练好后,如果需要对新给定的数据点进行回归,神经网络可以被用于预测分类结果或一个具体数值。利用神经网络,可以对特别复杂的模型进行训练,并且将其作为一种黑盒方法加以利用,而在训练模型之前,我们无需进行不可预测的复杂特征工程。通过与「深度方法」相结合,甚至可以采用更加不可预测的模型去实现新任务。例如,最近人们已经通过深度神经网络大大提升了物体识别任务的结果。深度学习还被应用于特征提取这样的非监督学习任务,也可以在人为干预更少的情况下,从原始图像或语音中提取特征。
另一方面,神经网络很难被解释清楚,其参数设置也复杂地让人难以置信。此外,神经网络算法也都是资源密集型和内存密集型的。
SCIKIT 参考手册
Scikit learning 为大家提供了一个非常深入的、解释地很清楚的流程图,它能够帮助你选择正确的算法。我认为此图十分方便。
结论
一般来说,你可以根据上面介绍的要点来筛选出一些算法,但是要想在一开始就知道哪种方法最好是很难的。你最好多迭代几次选择算法的过程。将你的数据输入给那些你确定的潜在优秀机器学习算法,通过并行或串行的方式运行这些算法,最终评估算法性能,从而选择出最佳的算法。
在最后,我想告诉你:为现实生活中的问题找到正确的解决方案,通常不仅仅是一个应用数学方法的问题。这要求我们对业务需求、规则和制度、相关利益者的关注点有所了解,并且具备大量的专业知识。在解决一个机器学习问题的同时,能够结合并平衡这些问题是至关重要的,那些能做到这一点的人可以创造最大的价值。
AI 科技评论按:作为中国音乐学习最高学府之一,中央音乐学院今日发布了一则音乐人工智能博士招生启事。该专业全名为「音乐人工智能与音乐信息科技」,为中央音乐学院首次开设,导师阵容有来自清华大学、北京大学的人工智能教授,联合中央音乐学院院长共同组成双导师培养制 (音乐导师+科技导师),着力培养「音乐与理工科交叉融合的复合型拔尖创新人才」。
据官网资料显示,「音乐人工智能与音乐信息科技」专业学制一共是 3 年,要求报考者必须是出身计算机、智能和电子信息类的考生。
建议阅读书目方面,除了《音乐理论基础》1 本与音乐理论挂钩外,其余 4 本推荐书目都跟人工智能理论相关,它们分别为《数据结构与算法》、《信号与系统引论》、《人工智能:一种现代的方法》以及《神经网络与机器学习》
由于「音乐人工智能与音乐信息科技」为跨学科专业,面试环节除了将考核本学科的专业能力之外,还会考核考生的音乐能力——演奏某种乐器或者单纯进行演唱。
目前该专业已敲定的 3 名联合培养导师分别为:
俞峰
中央音乐学院院长, 教授、博导,「万人计划」领军人才,「四个一批」人才。中国指挥学会会长、全国艺术专业学位研究生教指委副主任、中国文联第十届全国委员会委员, 享受国务院政府特殊津贴。
孙茂松
清华大学教授、博导, 清华大学人工智能研究院常务副院长, 原计算机系主任、党委书记, 教育部教学信息化与教学方法创新指导委员会副主任委员, 中国科学技术协会第九届全国委员会委员。主要研究领域为自然语言处理、人工智能、机器学习和计算教育学。国家 973 计划项目首席科学家, 国家社会科学基金重大项目首席专家。2017 年领衔研制出「九歌」人工智能古诗写作系统。
吴玺宏
北京大学教授、博导, 教育部新世纪优秀人才。北京大学信息科学技术学院副院长, 智能科学系主任, 言语听觉研究中心主任, 致力于机器听觉计算理论、语音信息处理、自然语言理解以及音乐智能等领域的研究, 先后主持国家级、省部级项目 40 余项, 获国家授权发明专利 10 余项, 发表学术论文 200 余篇。在智能音乐创作、编配领域颇有成就。
有兴趣报读该专业的考生,须在 2019 年 3 月 1 日至 15 日期间在网上完成报名(网址:http://yzchsicomcn/),考试将于今年 5 月在中央音乐学院举行。
更多详情可点击:
http://wwwccomeducn/xwyhd/xsjd/2019s/201903/t20190301_53856html进行了解。
专业开办早有预兆?
如果一直有关注中央音乐学院的动态,就不会对该专业的开办感到惊讶。
早在去年的 5 月份,中央音乐学院就与素以创新性交叉学科研究闻名的美国印第安纳大学信息计算与工程学院共同签署合作建设「信息学爱乐乐团」实验室——所谓「信息爱乐」,指的是一套音乐人工智能伴奏系统,由印第安纳大学信息计算与工程学院音乐信息学实验室主任教授 Christopher Raphael 所发明。
该系统的最大特点是会运用数学方法把音乐本身和音乐家的感受进行了全面解读、演算,通过不断的主动学习,形成更加贴近音乐家个性化表现需求的管弦乐团伴奏、协奏模板,为音乐家提供了更为丰富灵活的演奏机会。
完成签署后,经过半年多的紧张筹备,双方于去年 11 月 26 日合作举办中国首场由人工智能进行伴奏的特殊音乐会——「AI 之夜音乐会」,来自中央音乐学院的 12 位不同专业的优秀独奏家与「信息爱乐」联袂演出了 12 首多种体裁风格的中外作品。
值得一提的是,本场音乐会加入了人工智能协奏中国乐曲《长城随想曲》,这是第一次音乐人工智能技术与中国民族音乐进行碰撞。
源自中央音乐学院官网
中央音乐学院院长俞峰教授在音乐会致辞中说道:「这是一场意义深远的音乐会,我国整个音乐行业将由此进入到一个「人工智能化」的时代,极大的提升了整个音乐行业,尤其是音乐教育行业的信息化水平。人工智能技术与音乐艺术专业相结合将会实现整个行业的跨越式发展,一定会成为音乐行业实现产业化的典范。」
「AI 之夜音乐会」音乐会完整演出视频:http://videoccomeducn/indexphpoption=weixin,dianbodetail&id=3514
国内科研热情日益高涨
除了中央音乐学院,试图在人工智能 + 音乐上做出成绩的,尚有星海音乐学院及中央民族大学。
去年 5 月 16 日,由星海音乐学院管弦系与美国印第安纳大学信息计算与工程学院音乐信息学实验室合作的「音乐人工智能辅助管弦乐教学联合实验室」正式挂牌启动,双方将就「音乐人工智能辅助管弦乐教学」系统引入至日常教学中展开合作。
据了解,该系统可以让学生们在日常专业练习过程中随时听到职业管弦乐团的完整乐曲伴奏,同时将自己与管弦乐团的合成演奏音频转化成高度结构化、可视化、可检索、可比较研究的音乐数据带到课堂上与专业老师共同探讨;对专业老师而言,该系统可以实现对学生专业学习情况的纵向和横向比较,获得了解学生的第一手资料,从而完善教学内容和方法。
源自「星海音乐学院」微信公众号
去年 12 月 7 日,由中央民族大学与平安科技联手的「人工智能音乐联合实验室」签字揭牌仪式在中央民族大学知行堂举行。本次合作旨在发挥各自优势、通过共同研发,实现人工智能音乐创作由欣赏阶段到专业阶段再到专家阶段的设想。
中央民族大学党委常委、副校长宋敏在揭牌仪式上表示,人工智能己列入国家规划并进入逐步实施阶段,正在不断与各个领域结合,无疑将引领未来各行各业的发展,她希望双方通过实验室这一平台各自发挥优势,提高民大学科建设水平和音乐创作水平,推进北京「四个中心」建设特别是文化中心建设,并积极助力中国优秀音乐文化走出。
源自中央民族大学官网
另外,由复旦大学、清华大学联合创办,至今已是第 6 届的中国声音与音乐技术会议 CSMT(Conference on Sound and Music Technology),从 2013 年开始便就声音与音乐技术这门多学科交叉领域源源不断地为国内输出学术见解,丰富了国内人工智能 + 音乐领域的研究成果。
以 2018 年的会议为例,其征文主题包括:
音乐声学
乐器声学/嗓音声学/心理声学与电声学/空间音乐声学等声音与音乐的信号处理
工业、农业、畜牧业、养殖业、地理、环境等各行各业领域的声音信号处理/音乐信号处理计算机听觉
声音与音乐的内容分析、理解和建模/音频与音乐信息检索/声音与音乐分类、标注、情感计算、推荐等/人工智能在声音与音乐计算中的应用/声音及音乐计算在娱乐、教育、海洋、医学、装备、军事、信息安全等各领域的应用音频信息安全
鲁棒音频水印/音频认证/音频取证计算机音乐与录音
计算机辅助的音乐创作/计算机辅助的音乐教学系统/计算机音乐的制作技术/计算机音乐的软件开发/ 音响及多声道声音系统/ 声音装置及相关多媒体技术/音效及声音设计/音频人机交互·听觉心理学
·听觉与视觉相结合的多媒体应用
值得一提的是,去年的 CSMT 大会特别开辟了两个 Special Session:一个用来探讨面向一般 Audio 的计算机听觉,试图扩展 Music 之外的 Audio + AI 人工智能在各行各业的应用,比如海洋舰船识别、设备诊断、AI 医疗、嗓音声学、音频监控、动物识别、农业保护、工业自动化等;另一个则是探讨中国民族音乐与计算机等科学技术的交叉融合,显示了该国内会议的前瞻性。
当下流行的 AI + 音乐算法
对于当下的音乐人工智能算法研究,中国音乐学院音乐学系付晓东教授在发表于 2018 年 05 期《艺术探索》的《音乐人工智能的伦理思考——算法作曲的「自律」与「他律」》一文中按「自律」与「他律」将之进行了划分。
其中「自律」指的是机器严格或非严格地遵循事先规定好的内部结构原则,对应于音响素材而生成音乐作品,最终的音响呈现受到内部结构原则的自律性限定;「他律」则指机器严格或非严格地遵循依据人类经验规定好的外部结构原则,并映射为音响而生成作品,最终的音响呈现受到外部结构原则的他律性限定。
最终的梳理结果如下:
「自律」类音乐人工智能算法
(一)数学模型(Mathematical Model)以数学算法与随机事件构成数学模型进行作曲。其中算法相当于作曲法则,随机事件相当于音乐元素——音乐中的各种元素可分解为一系列随机事件,如音的四属性、音乐三要素等,作曲家(程序员)赋予其不同权重,使用特定随机算法对其进行运算处理而得出音响序列,其结果是非确定性的。常用的随机算法有马尔科夫链、高斯分布等。目前以数学模型为主的音乐人工智能作品在伴奏的速度跟随、乐句的力度处理、终止式的伸缩节奏方面有相当的“智能”感,但是在作品的整体可听性方面仍有明显的欠缺。
(二)演化算法(Evolutionary Methods)
演化算法源于达尔文所揭示的生物进化理论,用算法模拟物种进化的过程来构建音乐作品。将随机或人为的音响事件集合为一个种群,通过选种、遗传与突变的算法反复迭代,将种群中现有的多个个体进行优胜劣汰,其结果由适应函数构成的审核程序予以矫正,以保证其审美意义的质量。最常见的演化计算方法是遗传算法(Genetic Algorithms)与遗传编码(Genetic Programming)。演化算法试图将物种进化的过程匹配于音乐生成过程的逻辑不够完善,因此作品的审美认可度并不高,如今常用于和声配置与伴奏任务中。
(三)语法系统(Grammars)
音乐的构成法则可类比于人类语言的语法规则。人类语言由字、词、句等按照一定的语法规则构成表达单元,音乐中的动机、乐节、乐句也具有相似的结构特征。首先创建一个特定音乐作品的语法规则,对和声、节奏与音高等各种音乐素材进行组合,最后生成音乐作品。诚然,音乐与语言在某种程度上具有同构性,但是比较而言,音乐规则体现出更大的灵活度与可变性,由一个固定的语法规则附加若干可变规则的语言算法,产生出的音乐作品多少带有生硬而呆板的特征。
「他律」类音乐人工智能算法
(一)迁移模型算法(Translational Models)将非音乐媒体信号源中的信息映射并迁移为音乐音响信息。最常见的是将视觉信息进行转换,例如将图像中的线条转换为旋律,色彩转换为和声,色度转换为力度;将运动物体的空间位移转换为旋律,速度转换为节拍节奏等。也可用于非视觉信息的迁移,如将文学作品中的积极/消极的描述,通过自动情感分析系统迁移为大三/小三和弦。实际上,人类的感官在一定程度上的确具有“联觉”效应,如空间线条与旋律走向的对应,但是如果将其进行严格映射,并没有心理学的有力证据。因此使用迁移模型算法生成的音乐作品,常常出现在交互性的新媒体艺术表演中,更多地以现场的事件相关性与交互性为审美趣味。而一旦音乐作品与其映射对象脱离而单独呈现,这类作品的可听性将会大大降低。
(二)知识推论系统(Knowledge-based Systems)
以某种音乐风格类型为知识库基础,将该音乐风格的审美特征提取出来并进行编码,即归纳推理;以编码程序为算法而创造类似风格的新作品,即演绎推理。例如基于对位法原则的巴洛克音乐风格编码、基于大小调和声体系的古典浪漫音乐风格编码、弱化和声功能的印象派音乐风格编码及各个相应风格作品的生成,即属于知识推论系统算法。这种算法已经在某种程度上接近于音乐学院作曲技术理论的学习过程,生成的音乐作品与其所基于的特定风格知识库非常相像,具有很高的可听性。其缺点在于归纳—演绎两个环节的相对割裂,即风格编码必须由操作者提供,程序本身仅仅是对编码的执行运算,作品的结果会严重受到操作者对创作规则的抽象理解的影响,并且会存在僵化与雷同的缺点。
(三)机器学习(Machine Learning)
操作者为计算机输入大量的音乐音响,计算机对其进行有效“聆听学习”,即运用统计方法对音乐构成的法则进行学习,其过程与知识推论系统相似,但是操作者并不严格指定音乐类型,也不为程序提供风格编码,这个过程由算法程序自动完成,强调其自主性与“无监督”式的学习(unsupervised learning)。当然,从本质上来看,机器学习的“无监督”只能是在一定程度和范围内,它依然囿于操作者所提供的知识素材库。机器学习与数学优化、数据挖掘等计算科学的研究成果相关,更与认知科学领域与神经网络学科的研究成果密切相关,其中最为显著的是采用决策树、人工神经网络、深度学习等方法,是迄今为止对生物学习过程模仿程度最高的一种算法。机器学习仍然属于仿生,但它超越了对结构与力学层面的仿生,是对人类大脑思维过程的仿生。机器学习既可以用于一般意义上的音乐创作,也可用于即兴演奏与竞奏等场合。虽然可以生成各种指定风格或混合风格的音乐作品,但是它仍然取决于操作者提供的音乐数据类型,是通过对随机事件进行概率统计得出规则后的音响预测。
根据付教授的划分准则,我们将能对当今流行的大部分人工智能 + 音乐研究工作进行有效归类。
值得一提的是,由中国科学技术大学、微软人工智能和研究院、苏州大学团队合作,讲述歌曲生成的端到端旋律和编曲生成框架的论文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》成功荣获 KDD 2018 的 Research Track 最佳学生论文,雷锋网 AI 科技评论对此做了相应解读,有兴趣的读者可点击 https://wwwleiphonecom/news/201808/NkobLRDHxZsyadg5html进行回看。
总的来说,未来人工智能将在音乐领域发挥更加重要的作用,它可以帮助人们分析作品、创作以及分担相当多的重复性工作,进一步激发创造力,探索音乐形式与内容方面的多种可行性。希望这种跨学科、融合性的合作,能够对各类音乐创作逻辑进行总结与完善,并在感知、情感等方面做出突破,让人工智能在音乐的诸多领域形成创新,并在教学、社会服务等方面产生影响。
自然语言处理(NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等进行操作和加工。实现人机之间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。
最近几年,科技巨头和创业公司相继投入资源和成本进行商业化探索。不过,除了语音和机器翻译领域之外,自然语言处理在很多方面的进展并不大。例如,句子识别主要包括识别一个句子当中的动词、名词、形容词,都是非常简单、非常基础的任务,但从2009年到2017年间,其正确率提高了不到1%,目前的正确率也只有57%。尽管自然语言处理已经成为人工智能的热门细分行业,但技术本身尚有足够的成长空间,当前仍处于早期阶段。
基于此,国家知识产权局专利分析普及推广项目人工智能关键技术课题组从专用技术和通用技术出发,围绕专利技术发展路线和重要申请人,对自然语言处理产业进行深度剖析,以供行业参考。
深度学习推动自然语言处理专利申请量快速增长
自然语言处理专利申请趋势与技术演化路径
自然语言处理技术从1970年左右起步,一直到1985年,年最高申请量均不超过30项。
1985年之后,随着网络技术和计算机技术的发展,丰富的语料库成为现实,同时硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法;申请量开始快速增长,至2000年,年申请量达到780项。贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。
从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究, 由最初的词向量到 2013 年 word2vec, 将深度学习与自然语言处理的结合推向了高潮, 并在机器翻译、问答系统、阅读理解等领域取得了一定成功,年申请量从2008年的1255项增长到2016年的3057项。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出,从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言护理最常用的方法之一, GRU、 LSTM 等模型相继引发了一轮又一轮的热潮。基于这种原因,从2009年开始,自然语言处理相关专利申请迎来新一轮的增长。
中美两国是该领域最具竞争力的国家
从申请来源国来看,中美两国是该领域全球专利产生量最多的国家,为主要的技术储备国和来源国。
来自中美两国的专利申请趋势
在该领域,从中美两国的申请趋势来看,两国的专利申请量均呈稳步增长态势,说明两国相对重视自然语言处理技术的研发与专利储备。总体而言,虽然早期中国相对于美国存在一定的差距,但经过长期的积累,中国在2012年超越美国成为全球专利申请量最高的国家,达到526项/年;随后差距进一步拉大,中国在2016年的时候达到1668项,为美国856项的2倍。中国已经超越美国,成为全球年申请量最高的国家,并极有可能在未来几年成为全球专利储备量最多的国家。
百度进入全球前十
中国创新主体专利储备有待加强
全球主要申请人专利申请量排名
在全球主要申请人排名中,IBM在申请量方面优势较大,属于第一阵营;微软公司申请量与IBM的申请量相比少400余件,为IBM公司的4/5,属于第二阵营;排名第三的NTT通信与第十的富士康相差不到300件,属于第三阵营。中国方面,百度为第八名,申请量为457件;中国台湾的富士康也进入了全球前十。中国创新主体专利储备有待加强。
技术迭代加速,推动自然语言处理技术快速发展
(1)深度学习助推词性标注技术快速发展
词性标注,是给自然语言中每一个词都赋予其词性标记。正确的词性标注是自然语言处理的一个基本步骤,错误的词性判断可能会导致整个句子的理解错误。
词性标注技术发展路线
从技术发展路线来看,在1980年前鲜有关于词性标注的专利申请,在1980年至1990年间,出现了基于规则的词性标注方法,这是人们提出较早的一种词性标注方法。基于规则的基本思想是建立标注规则集,并尽可能的使该标注规则集精确,而后使用该标注规则集对待标注语料进行标注,从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强,很难进一步升级,也很难根据实际数据进行调整,在实际的使用场合表现不够好。
1990年后,基于统计的词性标注技术得到发展,隐马尔科夫、条件随机场等模型应用到了词性标注中,全部知识是通过语料库的参数训练自动得到,可以获得很好的一致性和很高的覆盖率,基于统计的词性标注方法因此被广泛应用。但基于统计的方法也同样存在缺点和局限性,例如在建立模型参数时,需要大量训练语料,而训练语料的选择会影响到精度。
由于基于规则和基于统计的方法在处理某些问题时都不能做到尽如人意,于是有人提出了基于规则和统计结合的词性标注方法,主要是将词典与统计模型结合,这样相结合的词性标注方法在很大程度上弥补了单一方法对标注结果的影响,最大程度发挥了基于规则的方法和基于统计的方法的优点,实际上两种方法相结合就是理性主义方法和经验主义方法相结合。
近年来,基于人工智能的方法也应用在词性标注中。相对于前面三种方法,该方法具有适应性强、精度高的优点,来自中国的申请人在这方面的研究较多,技术爆发力较强,取得了一系列研究成果。
(2)无监督学习是词语级语义的主要发展方向,创新主体加速进入,布局各有侧重
语义分析的目标是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。词汇级语义分析关注的是如何获取或区别词语的语义。
词语级语义分析专利技术发展路线
词语级语义分析有多种方式,从发展路线来看,基于词典的语义分析中,词典语义、语法结构、双语词典和Yarowsky算法已经不再产生新的重要相关专利申请。基于实例和统计模型鲜有重要专利申请;由于关键词提取技术的发展,基于义词词典的相关技术在2017年仍有相关的重点专利产生,是将来的发展重点之一。与此同时,基于无监督学习,由于不需要专门的语料库,且具有较强的可扩展性,在大数据、算法和芯片技术的推动下,将成为未来的主要发展方向。
在华词语级语义重要申请人分析
截至2018年8月,在华申请人当中,专利申请量超过三件的申请人共有6位,排名第一位的是齐鲁工业大学,后面依次为昆明理工大学、百度、腾讯、富士通和IBM。国外来华申请人方面,IBM在1999年开始提交了基于双词典的消歧专利申请,随后分别于2011年、2014产生基于上下文首字母缩略词以及基于词袋的专利申请;富士通于2012年提交首件基于双语言的消歧技术的专利申请,随后分别于2012年、2016年提交基于组合概率和针对缩减词的专利申请。昆明理工大学在2008年提交一件基于信息改进的贝叶斯方法的消歧技术的专利申请;腾讯的相关专利申请侧重于利用词语的热度、基于文本的内容,以及基于基本词词典和短语词典领域,同时提交一件与词典构建方面有关的专利申请;百度在2012年提交第一件相关专利申请,研究方向包括多粒度词典的构建、利用用户的选择、基于歧义词消解的搜索,并在2018年提交了一件基于无监督神经网络的词语级语义分析专利申请。
早期,清华大学、北京大学、中国科学院声学所、哈尔滨工业大学、日电(中国)、谷歌等科研院所和企业均在国内进行相关专利申请。随着技术的发展以及创新主体的重视,南京邮电大学、华东师范大学、富士康、上海交通大学也进行相关领域研究。2014年以后,苏州大学、南京大学、中山大学等高校也加入到词语级的消歧研发之中。
值得注意的是,虽然中国申请人在各个时期均有参与词语级的消歧研究之中,但除昆明理工大学外,大部分早期实力较强的中国申请人并没有持续地提交相关专利申请。在引领词语级消歧技术发展的无监督消歧中,仅有百度提交了一件相关专利申请。
(3)基于神经网络是机器翻译发展重点,IBM积累深厚,百度加速赶超
在20世纪40年代至50年代,机器翻译相关技术处于理论研究阶段,计算机的发明和信息论的研究为机器翻译奠定了理论基础,这段时期并没有相关专利申请提出。
机器翻译系统产业及技术发展脉络
20世纪60年代开始,进入基于规则的机器翻译系统时代。相关专利开始零星地出现,其中IBM作为计算机领域开拓者在这一时期扮演了非常重要的角色,并积累了大量规则机器翻译系统方面的基础专利。除此之外,大学、政府研究机构是这一时期的重要组成,类似Systran系统的机器翻译产品诞生于大学实验室,并通过政府项目合作而存活并发展。
上世纪80年至90年,是机器翻译系统逐渐成熟并走向市场的阶段,这一时期专利申请量开始爆发,并主要来自于企业。而21世纪以来则显现出互联网企业在这一领域的优势,庞大的互联网语料库及算法积累,使得谷歌、微软、百度等互联网公司超越了IBM、东芝等老牌企业,尤其是近些年来深度学习带来的技术革命,数据资源的重要性开始大大降低,具有革命性的技术近年来都来自于对系统算法框架的创新。
展望未来
虽然美国和日本在自然语言处理领域早期积累深厚,但近年来中国加速赶超,中国已成为全球年专利申请量最高的国家,专利储备量跃居全球第二,未来的竞争主要在中美两国展开。同时,人工神经网络与自然语言处理结合,推动了词法分析、句法分析、语义分析、语言模型和知识图谱技术等通用技术的快速发展,并加速机器翻译、自动文摘,自动问答、情感分析等专用技术的落地。加大基于神经网络的自然语言处理技术的研发,有助于中国和国内创新主体实现弯道超车,抢占人工智能高地。
殷其亮 叶盛 罗强|国家知识产权局专利分析普及推广项目人工智能关键技术课题组
人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是计算机科学的一个分支。人工智能专业是人工智能技术、计算机科学、信息科学与特色行业相结合的复合型专业。
人工智能专业主要学习内容如下:
1、编程和数据结构:
学习计算机科学基础,如编程语言、数据结构与算法、软件工程等。对于人工智能的设计、开发和实现,编程和数据结构是基础技能。
2、机器学习和算法:
学习机器学习的基本理论和算法,包括监督学习、无监督学习、半监督学习、强化学习等。这是人工智能领域的关键知识点。
3、自然语言处理(NLP):
学习如何让计算机理解语音和文本,包括词法分析、语法分析、语义分析、信息抽取、情感分析、自然语言生成等技术。
4、计算机视觉:
学习利用计算机处理和分析图像、视频等视觉信息,包括图像识别、目标检测、图像处理、计算机视觉等方面的技术。
5、数据处理和挖掘:
学习如何从海量的数据中获取有价值的信息,包括数据清洗、数据处理、数据挖掘、大数据分析等。
6、人工智能的应用:
涉及到不同领域的人工智能应用,例如智能金融、智能医疗、智能交通等,因而需要学习如何将人工智能技术应用于领域中解决实际问题。
http://wwwdocincom/p-2177206264html
任务机器人
知识图谱机器人
FAQ机器人
闲聊机器人
阅读理解机器人
query -> 纠错->标准化->文本特征提取->query改写[同义词] ->BM25 算法 -> 计算语句和候选句的相似度s(q,q') , 并排序
相似度计算:冷启动-深度学习匹配-知识图谱-拒识
https://blogcsdnnet/qq_42491242/article/details/105286787
https://zhuanlanzhihucom/p/84809907
字面匹配 文本相似度(jaccard, cosine)+ xgboost
词向量 word2vec,glove =Global Vectors for Word Representation
句向量 WMD[无监督] ,SIF
结论 虽然句子中无加权的平均词嵌入是简单的基准做法,但是Smooth Inverse Frequency是更强有力的选择
https://zhuanlanzhihucom/p/37104535
排序阶段也可以利用排序训练模型,得到知识库内的相似问,构造句对训练数据,训练有监督的模型
判断(query, question)的分数,选择分数最高的问题对应的知识点作为机器人回复
通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
https://wwwjianshucom/p/8f19d915b3f8
联合学习
-文本分类:同时进行语句匹配和分类
-文本生成:匹配和seq2seq训练
多语料迁移:
-fine-tune
-adversarial loss
预训练模型
-ELMO , BERT
对话管理
query->nlu-DST-DPL -NLG ->response
NLU : 意图识别(规则或分类)槽位提取(NER)
DST-会话状态管理(DQN)
DPL- 会话策略学习,选择下一步
NLG- 根据action 返回回复文本
预判 客服机器人多轮对话的意图预判功能通常依赖于访客的接入渠道、着陆页、访问轨迹等数据,机器人可以通过这些数据来预测客户想要咨询的问题
https://blogcsdnnet/stay_foolish12/article/details/90265394
https://wwwcnblogscom/qcloud1001/p/9181900html
任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是为了满足带有明确目的的用户,例如查流量,查话费,订餐,订票,咨询等任务型场景
理解了用户意图之后,通过引导用户完善任务要求,完成任务。
处理流程:场景选择,实体抽取,关系预测
问答式
引导式
根据知识逐步递进,一步步进行约束定义
从文章中抽取答案,阅读理解建模。
seq2seq, 上下文建模
ASR, NLP, TTS,MRCP
智能电话管理
人群管理,话术管理,电话任务管理,知识库管理,算法模型管理
外呼统计
任务监控,通话监控,意向度筛选,通话详情,统计分析
功能组件:语义解析,语义匹配,会话意图识别,答案生成,情感分析
深度迁移学习,知识图谱引擎
问答标注平台,模型训练平台,分布式爬虫,hadoop 集群
问答管理,相似问题,智能学习
回答,引导转人工
1- 单轮: 深度语义匹配 迁移学习 知识图谱
2- 多轮 对话管理-槽位提取-端到端学习-强化学习
3- 阅读理解机器人-开放域闲聊机器人
监督学习的常见应用如下:
1、图像识别和分类:监督学习可以用于图像识别和分类任务。例如,通过标记了不同类别的图像数据,可以训练模型来自动识别和分类图像中的目标物体,如人脸识别、物体检测、图像分类等。
2、文本分类和情感分析:监督学习可以应用于文本分类任务,如垃圾邮件过滤、情感分析、文档分类等。通过对已标记的文本数据进行训练,模型可以自动将新的文本数据分类为不同的类别或进行情感分析,如判断文本是积极还是消极的情感。
3、自然语言处理(NLP):监督学习在自然语言处理领域也有广泛应用。例如,将监督学习应用于机器翻译、命名实体识别(NER)、问答系统、文本摘要、语言相似度等任务,通过对已标记的文本进行训练,可以让模型学习到语言的语义和语法规则。
4、预测和回归分析:监督学习可以用于预测和回归分析。例如,通过历史销售数据训练模型,可以预测未来的销售量;通过过去的股票数据训练模型,可以预测股票价格的走势。监督学习也可以用于回归问题,如房价预测、气温预测等。
5、推荐系统:监督学习在推荐系统中有着广泛的应用。通过将用户的历史行为和偏好作为已标记的数据,可以训练推荐模型,从而预测用户的兴趣和喜好,并向用户推荐个性化的内容、产品或服务。
6、医疗诊断和预测:监督学习在医疗领域中有着广泛的应用。例如,在医学影像诊断中,通过标记了疾病或异常的图像数据,可以训练模型来帮助医生自动识别和诊断病变。此外,监督学习还可以用于疾病预测,通过医学数据的训练,模型可以预测患者是否有可能患上某种疾病,帮助医生进行早期干预和预防。
7、金融风控和欺诈检测:监督学习在金融领域中也有广泛应用。例如,可以使用监督学习来建立信用评分模型,预测用户的信用风险,用于贷款审核和风险控制。此外,监督学习还可以应用于欺诈检测,通过历史交易和行为数据的训练,模型可以识别出潜在的欺诈行为。
8、股票市场预测:监督学习可以应用于股票市场预测任务。通过历史的股票市场数据进行训练,模型可以预测股票价格的涨跌趋势,帮助投资者做出决策。
9、交通预测和智能交通系统:监督学习可以用于交通预测和智能交通系统中。通过历史的交通数据训练模型,可以预测道路流量、车辆拥堵情况等,进而提供交通优化方案和预警信息。
10、视频分析和动作识别:监督学习可以应用于视频分析和动作识别任务。通过标记了不同动作的视频数据进行训练,模型可以自动识别和分类视频中的动作,如行人识别、运动员动作识别等。
监督学习是机器学习中的一种常见方法,它可以通过在给定输入和对应输出之间进行训练,从而使模型能够根据新的输入样本预测或分类输出。监督学习在各个领域中都有广泛的应用。实际上监督学习还有很多其他的应用,随着数据的不断增长和模型的不断进步,监督学习在各个领域的应用潜力将会不断扩大和深化。
监督学习的注意事项
1、数据质量:监督学习的性能直接受数据质量的影响。确保训练数据的准确性和完整性是非常重要的。数据质量问题可能导致模型训练出现偏差或过拟合等问题,从而影响到模型的泛化能力。
2、样本不平衡:若某个类别的样本数量相对较少,或者不同类别的样本分布不均衡,会导致模型倾向于预测大多数样本所属的类别,而对于少数类别的预测性能较差。在这种情况下,可以采用一些技巧,如采样策略、类别权重调整等来处理样本不平衡问题。
3、特征选择和处理:选取合适的特征对监督学习的性能至关重要。需要注意特征的相关性、重要性和可解释性。此外,对于不同的特征类型,可能需要进行适当的预处理,如归一化、缺失值处理、特征编码等。
4、模型选择和调参:选择合适的监督学习模型对于任务的成功非常重要。不同的模型适用于不同的数据和问题。在进行模型选择时,需要考虑模型的复杂度、可解释性和计算开销等因素。同时,模型也需要进行适当的调参,以优化其性能。参数调优可以通过交叉验证、网格搜索等方法来实现。
5、过拟合和欠拟合:过拟合和欠拟合是监督学习中常见的问题。过拟合指模型在训练集上表现良好,但在未见过的数据上表现较差,这是因为模型过于复杂,过度拟合了训练数据的噪声。欠拟合则指模型在训练集和测试集上都没有达到理想的性能,通常是因为模型过于简单,无法捕捉数据中的复杂关系。需要通过合适的模型选择、调参和数据增强等方法来解决这些问题。
6、验证和评估指标:对模型进行验证和评估是必要的。划分数据集为训练集、验证集和测试集,用训练集训练模型,用验证集调优模型,最后用测试集评估模型的泛化能力。选择合适的评估指标来衡量模型的性能,如准确度、精确度、召回率、F1 值等,根据具体任务的需求进行选择。
7、持续监督和模型更新:监督学习是一个持续的过程。随着时间推移,数据可能发生变化,模型可能需要进行更新和重新训练,以适应新的数据分布和任务需求。定期监督模型的性能,并根据需要进行模型更新是非常重要的。
通常来说,舆情分析系统的主要功能作用分为两大部分,一是舆情数据收据,二是舆情数据分析,以识微商情为例:
一、收集舆情数据
收集所有主流新闻、社交、视频等网站和App、博客、论坛等的公开提及。以企业为例,根据需求,通过关键词来设定监测主题,一般是监测品牌声誉、营销活动、竞争对手、行业动态、某个事件这几个方面。
二、舆情数据分析
1重点统计
重点统计提供了监测主题下一些重要数据的一个概览,比如相关信息总量、负面信息量、热门传播内容等,这样可以对于当前的情况有一个基本的了解。
2时间趋势
时间趋势,有些工具也可能叫发展趋势、舆情态势,指某个监测主题在某一段时间内的网络信息发展趋势。网络信息瞬息万变,趋势也是跟随着实时变化的。通过设定的关键词得到趋势数据后,可以直观的了解监测主题的整体舆情发展情况是上升还是下降,总结舆情传播的路径和特征,评估舆情发展阶段、预测未来趋势。
3情感分析
情感分析,也称为意见挖掘或情感AI,指分析在线文章以确定它们所承载的情感基调的过程。该过程背后的科学基于自然语言处理和机器学习的算法,将文章分类为正面、中性、负面。情感分析有助于找出发帖者对某个话题的态度。情绪分析会展现舆情整体情绪倾向,对网络上新闻媒体、网民的总态度进行正面、负面、中性(或非敏感、敏感)划分。如果监测的品牌、产品或服务的负面评价突然激增,则表明舆情危机可能正在酝酿中。
4话题分析
话题分析,指监测主题下被被多数表达的话题内容,可能是某个事件的关键事实、也可能是主流的观点。通过话题分析,可以把握事件声量倾向性、关键词、主要观点,以及其在媒体渠道的传播情况,话题分析模块中,一般从媒体报道和网民言论两方面进行分析,概括总结不同身份视角下的不同舆论声音,全面了解舆情聚焦方向。若媒体报道和网民言论趋同,也可合并划分。
5媒体类型
媒体类型,指信息传播媒介类型。通过媒体类型分析,可以了解到监测主题下的关注者、参与者、传播者主要分布在哪些渠道及每个渠道的传播趋势。通过对媒体类型的筛选,还可以了解到各个渠道上的情感倾向、话题倾向等多个维度数据。以此为依据,可以选择适合的渠道开展公关或者营销活动。
6属地分析
属地即IP归属地属地。6月27日,国家互联网信息办公室发布《互联网用户账号信息管理规定》,自2022年8月1日起施行。《规定》提出,在互联网用户账号信息页面展示合理范围内的互联网用户账号的互联网协议(IP)地址归属地信息,便于公众为公共利益实施监督。属地分析将呈现信息的地域分布,进一步了解不同地域间网民对监测主体的关注热度、分析关注人群的地域特征。
7热门网站
热门网站,即根据监测主题下产生信息较多的网站。通过对信息的分布渠道进行分析,了解舆情分布的平台情况,传播什么样的内容。企业可以结合媒体类型,为之后的活动传播渠道规划提供参考。
8热门文章
热门文章,即监测主题下获得较多传播的内容。一般从文章标题、信息来源、内容概要进行聚合分析,加入传播时间及转发量等方面考量,展现舆情传播中的热门内容。通过热门文章,方便快速了解监测期内舆情的重点事件或媒体的发文侧重点。
9热词分析
热词分析,即监测主题下被频繁使用的词组分析。通过热词分析,可以了解被舆论重点关注的事件关键信息、主流态度/观点等。
10信息类型
信息类型,即人群发布内容的类型,一般分为原贴、转发和评论。通过分析发文类型的占比情况、随时间各类型信息变化趋势,可以了解到人群对于事件的参与度,在舆情传播中的不同作用。一般评论较多的代表此事有更大的争议性,原贴、转帖占比更大的的代表人们更希望此事得到传播。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)