数据标注有哪些类型?

数据标注有哪些类型?,第1张

数据标注有许多类型,如分类、画框、注释、标记等等。

分类标注是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。

区域标注相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。

发展前途

数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。

至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。

数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。

可以使用snownlp包,也可以用nltk 和 scikit-learn 结合,或者自己写算法实现。

简单话就是情感词典的匹配,想提高效果的需要考虑特征之间的搭配,语法顺序等,可以查询搜索相关的入门例子和算法详细了解。

每个人出生后会根据出生的月份和日期不同,对应不同的星座,现在我们用的一般都是十二星座,但是真正的星座其实有88个。 

在古代,科技不发达,在海上航行是没有工具来确定方位,人们便通过自己的想象力,将星星连结了起来,根据星星的形状和一些神话传话来命名,那个时候就已经有星座了。而1982年,国际天文学联合会用精确的边界把天空分成了八十八个星座。 这88个星座分成3个天区,北半球29个,南半球47个,黄道附近12个。

两千多年,有一个名叫希巴克斯的希腊天文学家,将黄道分成了十二个区域。每三十度为一宫,用宫内包含的主要星座来命名,刚好就是我们现在使用的十二星座,也称为黄道十二宫。而地球运行到每个宫时,出生的婴儿长大后会有一些相似的地方,于是人们通过丰富的想象力和一些神话传说,让十二星座成为了一种文化,流传至今。 

而在占星学上,十二星座每个星座都对应着不同的人生阶段,人体部位,性格特征。随着占星学的发展,十二星座的学说发展的越来越壮大,还出现了运势和意义这些东西。平时我们生活中,有个时候也会根据自己的星座去预测自己的运势和感情。随着科技的发达,用来确定方位的东西也多种多样了,八十八星座的方位法也渐渐被淘汰了。

以下以语义特征为例:

机器学习基于语义特征的情感分析

基于语义特征的情感分析先人已有研究,可以通过情感词典匹配来做,但是应用机器学习在这方面会使精确度更高些。 

以本人参与的一个项目为主,总结下相关技术点。 

背景是:分析用户评论感情色彩是积极还是消极,即是褒还是贬。

具体步骤为: 

1有监督的人工给文本标注类标签。如有5000条评论数据,我们给其中的1000条标为积极的,再选1000条标为消极的,积极和消极就是所谓的类标签。 

2选择特征。从积极的评论数据中按词来选择积极的所有特征。同理,从消极的评论数据中按词来选择消极的所有特征。如“这款游戏非常好玩”->”这款”->“游戏”->”非常”->”好玩”,分为四个特征词,也可以采用双词搭配,“这个游戏”和“非常好玩”作为特征。 

3特征降维,减少特征的数量。如上“这个游戏非常好玩”中的“这个游戏”没有必要作为特征,因为“好玩”或“非常好玩”已经决定了评论是积极的。 

4将语料文本变成使用特征表示。 

5统计所有特征出现的次数,并按倒序排序。 

6从以上结果中选出排序最靠前的一些特征作为最终的评判特征。 

7使用训练数据根据特征训练分类算法,得到分类器。 

8用测试数据检测分类器的准确度。 

我们将数据分为两部分:开发集、测试集。用开发集的数据训练分类算法得到分类器;再用分类器对测试集里的数据进行分类,给出分类预测得到的标签;对比分类标签和人工标注得到的标签的差异,计算出准确度。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7810458.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存