数据标注是大部分人工智能算法得以有效运行的关键环节。简单来说,数据标注是对未
经处理过的语音、、文本、视频等数据进行加工处理,从而转变成机器可识别信息
的过程。
数据标注的类型主要是图像标注、语音标注、3D点云标注和文本标注。
图像标注
图像标注是对未经处理的数据进行加工处理,转换为机器可识别信息,然后输送到人工智能算法和模型里完成调用。
常见的图像标注方法有语义分割、矩形框标注、多边形标注、关键点标注、点云标注、3D立方体标注、2D/3D融合标注、目标追踪等。
语音标注
语音标注是标注员把语音中包含的文字信息、各种声音先“提取”出来,再进行转写或者合成,标注后的数据主要被用于人工智能机器学习,使计算机可以拥有语音识别能力。
常见的语音标注类型有ASA语音转写、语音切割、语音清洗、情绪判断、声纹识别、音素标注、韵律标注、发音校对等。
3D点云标注
点云数据一般由激光雷达等3D扫描设备获取空间若干点的信息,包括XYZ位置信息、RGB颜色信息和强度信息等,是一种多维度的复杂数据集合。
3D点云数据可以提供丰富的几何、形状和尺度信息,并且不容易受到光照强度变化和其它物体遮挡等影响,可以很好地了解机器的周围环境。
常见的3D点云标注类型有3D点云目标检测标注、3D点云语义分割标注、2D3D融合标注、点云连续帧标注等。
文本标注
文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们可以教会机器如何来识别文本中所隐含的意图或者情感,使机器可以更好地理解语言。
常见的文本标注有ocr转写、词性标注、命名实体标注、语句泛化、情感分析、句子编写、槽位提取、意图匹配、文本判断、文本匹配、文本信息抽取、文本清洗、机器翻译等。
景联文科技在全国拥有四个大型数据处理基地,智能数据标注平台涵盖标注工作台和产能管理体系,提供完整的语音、图像、文本、视频的全领域数据处理能力。
景联文科技官网
根据案列分析对视频的情感化表达是情感的描述符。情感描述符的情感标注,用于描述视频情感内容的特征提取(即表示)以及用户生理或视觉行为反应的测量,视频内容、用户反应和情感描述符之间的关系,自适应情绪变化模型可能有助于选择合适的粒度。
与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。
随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。
那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)
以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。
情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。
1 篇章级情感分析
篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。
对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。
例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。
不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。
在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。
2 句子级情感分析
与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。
既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。
但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。
所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。
总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。
句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。
3 属性级情感分析
上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。
为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:
关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。
做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。
具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。
情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。
当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。
但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。
另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。
基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。
第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。
除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。
最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。
构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。
尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。
我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。
首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1
在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。
第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。
当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。
采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。
除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。
随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:
情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。
数据标注有许多类型,如分类、画框、注释、标记等等。
分类标注是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。
区域标注相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。
发展前途
数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。
至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。
数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。
本科毕业设计(论文)撰写规范
(试行)
毕业设计(论文)是培养学生综合运用本学科的基本理论、专业知识和基本技能,提高分析和解决实际问题的能力,完成初步培养从事科学研究工作和专业工程技术工作基本训练的重要环节。为了统一和规范我院本科毕业设计(论文)的写作,保证我院本科毕业设计(论文)的质量,根据《中华人民共和国国家标准科学技术报告、学位论文和学术论文的编写格式》(国家标准GB7713-87)的规定,特制定《辽宁科技学院本科毕业设计(论文)撰写规范》。
各系部可以根据专业特点和实际需要对毕业设计(论文)结构和书写规范做适当调整。规范中对毕业设计和研究论文分别提出了相应要求,学生可参照规范中对应条目要求进行撰写。
1 内容要求
11 论文题目
论文题目应该简短、明确、有概括性。读者通过题目,能大致了解论文内容、专业特点和学科范畴。但字数要适当,一般不超过24字。必要时可加副标题。
12 摘要与关键词
121 论文摘要
论文摘要应概括地反映出毕业设计(论文)的目的、内容、方法、成果和结论。摘要中不宜使用公式、图表,不标注引用文献编号。中文摘要一般为300~500字,并翻译成英文(1200~1500字符)。
122 关键词
关键词是供检索使用的主题词条,应采用能覆盖论文主要内容的通用技术词条(参照相应的技术术语标准)。关键词一般为3~5个,按词条的外延层次排列(外延大的排在前面)。
13 目录
目录按章、节、条三级标题编写,要求标题层次清晰。目录中的标题要与正文中标题一致。目录中应包括绪论、论文主体、结论、致谢、参考文献、附录等。
14 论文正文
论文正文是毕业设计(论文)的主体和核心部分,一般应包括绪论、论文主体及结论等部分。
141 绪论
绪论一般作为第一章,是毕业设计(论文)主体的开端。绪论应包括:毕业设计(论文)的选题背景及目的;国内外研究状况和相关领域中已有的研究成果;课题的研究方法、研究内容等。绪论一般不少于02万字。
142 论文主体
论文主体是毕业设计(论文)的主要部分,应该结构合理,层次清楚,重点突出,文字简练、通顺。论文主体的内容应包括以下各方面:
⑴ 毕业设计(论文)总体方案设计与选择的论证。
⑵ 毕业设计(论文)各部分(包括硬件与软件)的设计计算。
⑶ 试验方案设计与选择的论证、实验过程、试验数据的处理及分析。
⑷ 对本研究内容及成果应进行较全面、客观的理论阐述,应着重指出本研究内容中的创新、改进与实际应用之处。理论分析中,应将他人研究成果单独书写,并注明出处,不得将其与本人提出的理论分析混淆在一起。对于将其他领域的理论、结果引用到本研究领域者,应说明该理论的出处,并论述引用的可行性与有效性。
⑸ 自然科学的论文应推理正确,结论清晰,无科学性错误。
⑹ 管理和人文学科的论文应包括对研究问题的论述及系统分析,比较研究,模型或方案设计,案例论证或实证分析,模型运行的结果分析或建议、改进措施等。
143 结论
论文的结论单独作为一章排写,但不加章号。
结论是毕业设计(论文)的总结,是整篇论文的归宿。要求精炼、准确地阐述自己的创造性工作或新的见解及其意义和作用,还可进一步提出需要讨论的问题和建议。
15 致谢
致谢中主要感谢导师和对论文工作有直接贡献及帮助的人士和单位。
16 参考文献
按论文正文中出现的顺序列出直接引用的主要参考文献。
毕业设计(论文)的撰写应本着严谨求实的科学态度,凡有引用他人成果之处,均应按论文中所出现的先后次序列于参考文献中。并且只应列出正文中以标注形式引用或参考的有关著作和论文。一篇论著在论文中多处引用时,在参考文献中只应出现一次,序号以第一次出现的位置为准。
原则上,设计类题目查阅参考文献一般不少于10篇,论文类查阅参考文献一般不少于12篇,其中至少1篇为外文文献并译成中文,累计03万汉字左右。各系部可以根据专业特点调整数量标准。
17 附录
对于一些不宜放入正文中、但作为毕业设计(论文)又是不可缺少的部分,或有重要参考价值的内容,可编入毕业设计(论文)的附录中。例如,过长的公式推导、重复性的数据、图表、程序全文及其说明、外文原文及译文等。
按照专业性质不同规定一定图幅的设计图纸。
2 书写规范与打印要求
21 论文文字和字数
除外语专业外,一般用汉语简化文字书写,论文字数在15~2万字左右,说明书应为08万字以上。根据《高等学校英语专业教学大纲》,英语专业毕业论文的字数要求应为4000-5000单词。
22 论文书写
论文一律由本人在计算机上输入、编排并打印在A4幅面复印纸上,单面印刷。
23 字体和字号
论文题目: 一号黑体
章 标 题: 三号黑体
节 标 题: 小四号黑体
条 标 题: 小四号黑体
正 文: 小四号宋体
页 码: 五号宋体
数字字母: Times New Roman体
24 封面
由学校统一制定标准,学生可自行下载打印,并按照要求填写。
25 论文页面设置
251 页眉
页眉为 辽宁科技学院本科生毕业设计(论文) 第 X 页
5号宋体,右对齐,距边界17mm。
252 页边距与行间距
论文的上边距:254mm;下边距:254mm;左边距:317mm;右边距:317mm。
论文的行间距为15倍行距。
253 页码的书写要求
论文页码从绪论部分开始,至附录,用阿拉伯数字连续编排,页码位于页眉右侧。封面、摘要和目录不编入论文页码;摘要和目录用大写罗马数字单独编页码。
26 摘要
261 中文摘要
中文摘要包括:论文题目(小三号黑体)、“摘要”字样(三号黑体)、摘要正文和关键词(小四号宋体)
摘要正文后下空一行打印“关键词”三字(四号黑体),关键词一般为3~5个,每一关键词之间用逗号分开,最后一个关键词后不打标点符号。
摘要正文的行间距为15倍行距。
段前、段后各设为05行
262 英文摘要
英文摘要另起一页,其内容及关键词应与中文摘要一致,并要符合英语语法,语句通顺,文字流畅。
英文为Times New Roman体,字号和间距与中文摘要相同。
27 目录
理工类专业目录的三级标题,建议按(1……、11……、111……)的格式编写,社科类专业目录的三级标题,建议按(一、(一) 1、)的格式编写,目录中各章题序的阿拉伯数字用Times New Roman体,第一级标题用小四号黑体,其余用小四号宋体。
28 论文正文
281章节及各章标题
论文正文分章节撰写, 每章应另起一页。各章标题要突出重点、简明扼要。字数一般在15字以内, 不得使用标点符号。标题中尽量不采用英文缩写词,对必须采用者,应使用本行业的通用缩写词。
282 层次
层次以少为宜,根据实际需要选择。正文层次的编排和代号要求统一,层次为章(如“1”)、节(如“11”)、条(如“111”)、款(如“1、”)、项(如“(1)”)。层次用到哪一层次视需要而定,若节后无需“条”时可直接列“款”、“项”。“节”、“条”的段前、段后各设为05行。
29 引用文献
引用文献标示方式应全文统一,并采用所在学科领域内通用的方式,用上标的形式置于所引内容最末句的右上角,用小四号字体。所引文献编号用阿拉伯数字置于方括号中,如:“…成果[1]”。当提及的参考文献为文中直接说明时,其序号应该用小四号字与正文排齐,如“由文献[8, 10-14]可知”。
不得将引用文献标示置于各级标题处。
210 名词术语
科技名词术语及设备、元件的名称,应采用国家标准或部颁标准中规定的术语或名称。标准中未规定的术语要采用行业通用术语或名称。全文名词术语必须统一。一些特殊名词或新名词应在适当位置加以说明或注解。
采用英语缩写词时, 除本行业广泛应用的通用缩写词外, 文中第一次出现的缩写词应该用括号注明英文全文。
211 物理量名称、符号与计量单位
2111物理量的名称和符号
物理量的名称和符号应符合GB3100~3102-86的规定。论文中某一量的名称和符号应统一。
2112物理量计量单位
物理量计量单位及符号应按国务院1984年发布的《中华人民共和国法定计量单位》及GB3100~3102执行, 不得使用非法定计量单位及符号。计量单位符号,除用人名命名的单位第一个字母用大写之外,一律用小写字母。
非物理量单位(如件、台、人、元、次等)可以采用汉字与单位符号混写的方式,如“万t•km”。
文稿叙述中不定数字之后允许用中文计量单位符号, 如“几千克至1000kg”。
表达时刻时应采用中文计量单位,如“上午8点3刻”,不能写成“8h45min”。
计量单位符号一律用正体。
212 外文字母的正、斜体用法
物理量符号、物理常量、变量符号用斜体,计量单位等符号均用正体。
213 数字
按国家语言文字工作委员会等七单位1987年发布的《关于出版物上数字用法的试行规定》, 除习惯用中文数字表示的以外, 一般均采用阿拉伯数字。年份一概写全数,如2003年不能写成03年。
214 公式
公式应另起一行写在稿纸中央,公式和编号之间不加虚线。公式较长时最好在等号“=”处转行,如难实现,则可在+、-、×、÷运算符号处转行,运算符号应写在转行后的行首,公式的编号用圆括号括起来放在公式右边行末。
公式序号按章编排,如第一章第一个公式序号为“(11)”, 附录A中的第一个公式为“(A1)”等。
文中引用公式时,一般用“见式(11)”或“由公式(11)”。
公式中用斜线表示“除”的关系时应采用括号, 以免含糊不清, 如a/(bcosx)。通常“乘”的关系在前,如acosx/b而不写成(a/b)cosx。
215 表格
每个表格应有自己的表序和表题(五号宋体,15倍行间距)。并应在文中进行说明,例如:“如表11”。
表格一般采用三线表,表序一般按章编排,如第一章第一个插表的序号为“表11”等。表序与表名之间空一格,表名中不允许使用标点符号,表名后不加标点。表序与表名置于表上居中(五号黑体加粗,数字和字母为五号Times New Roman体加粗)。
表头设计应简单明了,尽量不用斜线。表头与表格为一整体,不得拆开排写于两页。
全表如用同一单位,将单位符号移至表头右上角。
表中数据应正确无误,书写清楚。数字空缺的格内加“-”字线(占2个数字),不允许用“²”、“同上”之类的写法。
表内文字说明(五号宋体),起行空一格、转行顶格、句末不加标点。
表中若有附注时,用小五号宋体,写在表的下方,句末加标点。仅有一条附注时写成:注:;有多条附注时,附注各项的序号一律用阿拉伯数字,例如:注1:。
216 图
毕业设计的插图应与文字紧密配合,文图相符,技术内容正确。选图要力求精练。
2161制图标准
插图应符合国家标准及专业标准。
机械工程图:采用第一角投影法,严格按照GB4457~4460-84, GB131-83《机械制图》标准规定。
电气图:图形符号、文字符号等应符合有关标准的规定。
流程图:原则上应采用结构化程序并正确运用流程框图。
对无规定符号的图形应采用该行业的常用画法。
2162 图题及图中说明
每幅插图均应有图题(由图号和图名组成)。图号按章编排,如第一章第一图的图号为“图11”等。图题置于图下,用五号宋体,15倍行间距。有图注或其他说明时应置于图题之上,用小五号宋体,15倍行间距。图名在图号之后空一格排写。引用图应说明出处,在图题右上角加引用文献号。图中若有分图时,分图号用(a)、(b)等置于分图之下。
图中各部分说明应采用中文(引用的外文图除外)或数字项号,各项文字说明置于图题之上(有分图题者,置于分图题之上)。
2163 插图编排
插图与其图题为一个整体,不得拆开排写于两页。插图处的该页空白不够排写该图整体时,可将其后文字部分提前排写,将图移至次页最前面。
2164 坐标与坐标单位
对坐标轴必须进行说明,有数字标注的坐标图,必须注明坐标单位。
2165论文原件中照片图及插图
毕业设计(论文)原件中的照片图应是直接用数码相机拍照的照片,或是原版照片经过扫描后粘贴的,不得采用复印方式。照片可为黑白或彩色,应主题突出、层次分明、清晰整洁、反差适中。照片采用光面相纸,不宜用布纹相纸。对金相显微组织照片必须注明放大倍数。
217 注释
毕业设计(论文)中有个别名词或情况需要解释时,可加注说明,注释可用页末注(将注文放在加注页稿纸的下端)或篇末注(将全部注文集中在文章末尾),而不用行中注(夹在正文中的注)。若在同一页中有两个以上的注时,按各注出现的先后,须序编列注号,注释只限于写在注释符号出现的同页,不得隔页。
218 参考文献
参考文献的著录均应符合国家有关标准(按GB7714—87 《文后参考文献著录格式》执行)。以“参考文献”居中排作为标识;参考文献的序号左顶格,并用数字加方括号表示,如[1],[2],…,以与正文中的指示序号格式一致。每一参考文献条目的最后均以“.”结束。各类参考文献条目的编排格式及示例如下。
1.连续出版物
[序号]主要责任者.文献题名[J] .刊名,出版年份,卷号(期号) :起止页码.
例如: [1]毛峡,丁玉宽.图像的情感特征分析及其和谐感评价[J] .电子学报, 2001,29(12A) :1923-1927.
[2] Mao Xia, et al. Affective Property of Image and Fractal Dimension[J] .Chaos, Solitons & Fractals.U.K., 2003,V15:905-910.
2.专著
[序号]主要责任者.文献题名[M] .出版地:出版者,出版年:起止页码.
例如:[3] 刘国钧,王连成.图书馆史研究[M] .北京:高等教育出版社,1979,15-18.
3.会议论文集
[序号]主要责任者.文献题名[A].论文集名[C].出版地:出版者,出版年:起止页码.
例如:[4] 毛 峡.绘画的音乐表现[A] .中国人工智能学会2001年全国学术年会论文集[C] .北京:北京邮电大学出版社, 2001,739-740.
[5] Mao Xia, et al. Analysis of Affective Characteristics and Evaluation of Harmonious Feeling of Image Based on 1/f Fluctuation Theory[A] .International Conference on Industrial & Engineering Applications of Artificial Intelligence & Expert Systems (IEA/AIE ) [C] . Austr- alia:Springer Publishing House,2002,17-19.
4.学位论文
[序号]主要责任者.文献题名[D] .保存地:保存单位,年份.
例如:[6] 张和生.地质力学系统理论[D] .太原:太原理工大学,1998.
5.报告
[序号]主要责任者.文献题名[R] .报告地:报告会主办单位,年份.
例如:[7] 冯西桥.核反应堆压力容器的LBB分析[R] .北京:清华大学核能技术设计研究院,1997.
6.专利文献
[序号]专利所有者.专利题名[P] .专利国别:专利号,发布日期.
例如:[8] 姜锡洲.一种温热外敷药制备方案[P] .中国专利:881056078,1983-08-12.
7.国际、国家标准
[序号]标准代号,标准名称[S] .出版地:出版者,出版年.
例如:[9] GB/T 16159—1996,汉语拼音正词法基本规则[S] .北京:中国标准出版社,1996.
8.报纸文章
[序号]主要责任者.文献题名[N] .报纸名,出版日期(版次).
例如:[10] 毛 峡.情感工学破解‘舒服’之迷[N] .光明日报,2000-4-17(B1).
9.电子文献
[序号]主要责任者.电子文献题名[文献类型/载体类型] .电子文献的出版或可获得地址,发表或更新的期/引用日期(任选).
例如:[21]王明亮.中国学术期刊标准化数据库系统工程的[EB/OL] .
http://wwwcajcdcn/pub/wmltxt/9808 10-2html,1998-08-16/1998-10-04.
外国作者的姓名书写格式一般为:名的缩写、姓。例如A Johnson,RODuda
引用参考文献类型及其标识说明如下:
根据GB3469规定,以单字母方式标识以下各种参数文献类型,如表21:
表21 参数文献的标识
参考文献类型 专著 论文集 (单篇论文) 报纸文章 期刊文章
文献类型标识 M C (A) N J
参考文献类型 学位论文 报告 标准 专利 其它文献
文献类型标识 D R S P Z
对于数据库、计算机程序及光盘图书等电子文献类型的参考文献,以下列字母作为标识,如表22:
表22 电子文献的标识
参考文献类型 数据库(网上) 计算机程序(磁盘) 光盘图书
文献类型标识 DB(DB/OL) CP(CP/DK) M/CD
关于参考文献的未尽事项可参见国家标准《文后参考文献著录规则》(GB7714-87)。
219 附录
论文的附录依序用大写正体A,B,C……编序号,如:附录A。附录中的图、表、式等另行编序号,与正文分开,也一律用阿拉伯数字编码,但在数码前冠以附录序码,如:图A1;表B2;式(B3)等。
221 论文印刷与装订
一般专业,毕业设计(论文)按以下排列顺序印刷与装订。
(一) 封面 (六) 正文
(二) 扉页 (七) 致谢
(三) 中文摘要 (八) 参考文献
(四) 英文摘要 (九) 附录
(五) 目录
左侧装订。
英语专业,毕业设计(论文)按以下排列顺序印刷与装订。
(一) 封面 (六) 正文
(二)扉页 (七) 致谢
(三)英文摘要 (八) 参考文献
(四)中文摘要 (九) 附录
(五) 目录
左侧装订。
情感分析(Sentiment Analysis)
第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。
英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。
但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。
中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。
第二步,就是识别一个句子是积极还是消极,是主观还是客观。
有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。
但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。
如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。
分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。
中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。
另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。
到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。
这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。
这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。
分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。
接下来还可以对比不同产品的评价,并且可视化出来。如图。
这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。
中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。
总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)