目前常用的自然语言处理开源项目开发包有哪些?

目前常用的自然语言处理开源项目开发包有哪些?,第1张

中文主要有:NLTK,HanLP,Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开发语言:Java,网址:hankcs/HanLP,开发机构:大快公司,协议:Apache-20功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具。

微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了34%,达到091。

关键词: 情感分析, 长短期记忆网络, 用户情感倾向

Abstract:

Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 091, with an improvement of 34% over the best baseline method MF-CNN

无论您是多么出色的研究工作者,您都必须能够有效地撰写您的研究报告,以对科学界产生影响。不幸的是,对于我们大多数人来说,研究和写作是两种截然不同的技能。即使是最有才华的研究人员,要想把自己的工作写得清楚扼要,也可能会遇到困难。对于非英语为母语的人来说,这一负担是双倍的。虽然英语被广泛接受为全球的科学语言,但它也是一门难学的语言。“put on”和“put off”有什么区别?您是“take”样品还是“make”样品?当你需要英语写作的帮助时,你可以去哪里 语言语料库 是一种鲜为人知、未被充分利用的帮助学术写作的资源。在这篇文章中,我们将讨论如何利用这一资源来提高你的写作能力和增强你对英语的信心。

什么是语言语料库?

语言语料库是用于研究目的的电子文本的集合。语言语料库最初是由研究人员(通常是语言学家)为研究目的创建的。一些流行的语料库包括 当代美国英语语料库(COCA),美国历史英语语料库(COHA),谷歌Books Ngrams viewer,密歇根大学英语口语语料库,Hyper Collocation 等等。这些语料库提供了可搜索的英语集合,供母语使用者在不同环境中使用。在英语课堂上,它们经常被老师用作工具,向学生展示一个单词在现实生活中如何被以英语为母语的人使用。

语料库和字典的区别是什么?为什么非英语为母语的人要求助于语料库而不是词典来寻找答案呢首先,虽然词典可以为你定义一个词,但它通常不会包含很多 用法示例 。“extract”一词的意思是“to remove or take out”。但如果我需要知道如何解释我在研究中采取的一个身体行为,我会说“extract to”还是“extract from”?字典可能无法回答这个问题,但语料库可以。

熟悉一些简单的语料库 搜索函数 将为您提供一系列新的工具。许多语料库允许搜索同义词和不同的单词形式。例如,您可以使用COCA搜索“extract”的动词形式,并返回“extract”、“extract”、“extracted”和“extract”。您还可以为您的搜索字符串选择“collates”,并返回一个经常与单词“extract”一起找到的 单词列表 。点击“帮助”图标将为您提供多种搜索功能方法。例如,如果您输入[=extract],您可以找到单词的 同义词列表 ,如remove、separate、get、fetch等。

语言库的另一个优势是它们比字典 更新 得更 频繁 。如果在2019年初用韦伯斯特词典搜索,就不会得到“生物可吸收”这个词的结果。但由于2019年出现的新技术进步,这个词得以使用和普及。该词于2019年年中正式加入韦氏词典。如果你在寻找如何使用这个词的例子,语料库会为你提供当代用法的例子。

如何使用语言语料库?

学习在不同的语言语料库工具上搜索一开始可能会让人感到困惑。但是不用担心——很快就会变得容易。现在让我们看看如何选择一个语料库,以及如何在这些网站上搜索不同的单词来获得有用的结果。

您应该根据您的目标选择语言语料库。如果您正在寻找如何使用与您的学科无关的单词,那么 COCA 将是一个不错的起点。假设您想知道应该说“extract to”还是“extract from”。您可以输进入COCA网站,然后在搜索栏中输入术语“extract to”。然后,您将点击“ find matching strings ”。

当我们搜索“extract to”时,我们仅返回52个 运用 ,而“extract from”则返回233次。

我们可以单击“ context ”以查看其用法。基于此搜索,我们将确定“extract from”是要使用的 正确单词形式 。

想要了解更多与学科相关的词汇,你可以试试 密歇根学术英语口语语料库(MICASE Corpus) ,那里提供了一些有限的 示例 。密歇根大学这个工具的优势在于,你可以根据 学科或学术活动 的类型进行搜索。如果你写作是为了准备一个特定类型的事件或分支到你的领域的一个新的部分,这个工具对你特别有用。

你可能还想知道 美式英语 和 英式英语 之间的差异。不用担心——也有语料库可以帮助你进行这些搜索。 BYU语料库 网站有英国英语和美国英语语料库的链接,你可以搜索和比较,看看在哪一种风格中使用的术语或短语。我们应该说" in hospital "还是" in the hospital " 搜索语料库后发现,美国人喜欢用“in the hospital”,而说英国英语的人只会说“in hospital”。

注意事项

语言语料库在为您提供现实世界中很难找到的语言示例方面可能会格外有用。字典和谷歌搜索提供的细节和上下文远不及语料库。然而,在依靠语料库来提高写作水平时,仍有一些需要注意的地方。首先, 语料库不会告诉你什么是正确的,什么是错误的 。它们只是告诉你常用的用法。你可以使用语料库来提高你的写作水平,但你可能需要更深入地挖掘,并将来自语料库的数据与其他来源进行比较。

也就是说,语言是一件有趣的事情。要记住的关键是语言是交流的。当你想知道如何使用某些词时,现实世界的例子是一个很好的工具,可以让你对这些词有一个新的更深的理解。因此,当你需要提高学术写作水平时,语料库是你工具箱里一个很好的工具。

你是否使用语料库来帮助你进行学术写作你觉得哪个语料库最有帮助还有什么其他的资源可以帮助ESL作者提高他们的学术写作呢

END

情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的**评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。

目前研究主要集中于情感词的正面负面分类,标注语料,情感词的提取等。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7534802.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-06
下一篇2023-09-06

发表评论

登录后才能评论

评论列表(0条)

    保存