(这是书先生在的第171篇文章。本文约4100字,请花12分钟来阅读。)
昨天,大家期盼良久的“中美主持人对决”在非常“祥和”的气氛中开始、进行并结束了。缺少了预期中的火药味,可能有些朋友会有点失望。不过仔细一想,这也是意料中事:一方要刻意展示友好或者至少不要继续表现出“泼妇”的样子,另一方是带着镣铐跳舞,对话自然不会那么针锋相对。
相信大家昨天也看了不少关于这次对话的分析,我也浏览了一些。说实话,对目前的分析,我有点失望,因为大多数分析人士连对话原文都不清楚,甚至连CGTN自己的报道也是“断章取义”。不过话又说回来,这个对话无论是从辩论、还是演讲的角度都没有多少分析价值,原因嘛,就是上面说的两点。例行公事似的对话、官宣一般的发言,实在算不上特别好的学习材料。
不过从语言分析的角度来看,这段“中美主持人巅峰对决”的对话可是是好材料。它好就好在具有 可比性 :两个英语水平都非常高的人就同一个话题展开对话。这可是做语言学分析的人梦寐以求的好东西啊。
看完她们的对话,我相信很多中国人都会有这样的感叹:刘欣的英语真流利啊。我的感觉和大家一样。不过,我想更深入的看一下这个问题:刘欣的英语到底有多好,尤其是和翠西相比。于是有了本文的标题。
翠西的英语无疑是非常好的。首先,英语是她的母语;其次,她是哥伦比亚大学历史系毕业,要知道,文科对语言水平要求都很高;第三,她常年在美国主流电视台做主持工作,这个工作对语言水平要求也很高。
刘欣的英语简历也是非常出彩的。南京外国语大学英语专业毕业,中国首届全国大学生英语演讲比赛冠军,世界英语联合会(ESU)举办的世界英语演讲比赛冠军。
两位都是英语高手。从背景来看,我们可以假设翠西的英语水平略高。如果这个假设成立,一个很有意思的问题就是:刘欣可能是哪一块稍微要差一点?这个问题,不但有趣,而且很重要,因为它的答案可以为英语已经很好的学习者指明精进的方向。
下面,我就用数据来回答这个问题。
分析数据的第一步是什么?——清理数据。如果你数据本来不干净,noise太多,甚至还不准确,那后续的分析都没有意义。这也是为什么我对昨天读到的分析都不是太满意,因为其中大多数根本就不知道准确的对话是什么。
所以,我做的第一件事情就是尽可能准确的转录翠西和刘欣的对话。她们短短的16分钟对话,我花了好几个小时来整理。因为网上的文本大多不靠谱,我只能靠自己听。最后的结果是:虽然她们抢着说的地方有几个单词不清楚,其它部分我应该非常准确。
有了准确的数据,我们就可以分析了。
我准备从文本复杂度入手来比较翠西和刘欣分别的发言。通常有两个向度可以衡量文本复杂度,一是词汇复杂度(lexical complexity),二是句法复杂度(syntactic complexity)。有很多研究都表明,这两个向度和语言水平(proficiency)呈正相关,所以通过它们来比较翠西和刘欣的英语是可行的。
在呈现分析结果之前,我必须提醒一下:所有分析结果都只是基于这个对话。或许对话并没有完全展示双方的真实水平,因此不能就此就得出谁英语比谁更好的结论。也就是说,我后面的讨论只针对被分析的文本,不能视为我对双方英语水平的判断。
下面就开始我们的分析,在这个过程中,我也会介绍一些有关文本复杂度的基础知识。相信大家看完这篇文章,以后就会自己去分析了——授人以鱼不如授人以渔。
我们先来看词汇复杂度。为了理解词汇复杂度的指标,我们有必要知道几个基本的概念:
举个栗子:Boys are always boys这句话形符数是4,因为它含有4个单词。类符数是3,因为其中有两个boys,不重复的数量只有3。
好了,基础知识已经够了。词汇复杂度的各种指标大多都是基于这5个指标的计算。所以,第一步,我们先来观察一下,翠西和刘欣的发言在这些基础指标上的比较。
从上表可以看出,刘欣说了大约1600个词,而翠西丝略少,约1300词。我用约,是因为双方抢着说的地方有几个单词不是很清楚,不过大致是没有问题的。刘欣说得稍多,这容易理解,因为她是答问的一方。单从数量上来看,我们会觉得刘欣用的复杂词汇更多。但这可能是因为刘欣说的话更多。事实是否如此,还要看比例。下面我们就来看一下词汇复杂度。
词汇复杂度一般通过三个大类来衡量:词汇密度(lexical density),词汇复杂性(lexical sophistication)和词汇多样性(lexical variability)。我们挨个儿来看。
词汇密度是指文本中实词所占的比例,即实词形符数/总词数。 在这个指标上,刘欣为049,翠西为046,刘欣略高于翠西。通过更细致的分析,我认为,出现这个差异的原因可能有三个:
第一,翠西使用“填充语”(filler)的频率更高。填充语是指那些没有实际意义,只是起一些引起注意或者为说话者争取时间的词或者词组。比如,well, you know, look, I mean等。从上表可以看出,翠西使用you know, I mean, look等的频率都高于刘欣。在有一句话里,翠西甚至一连用上了三个填充语(如下)。you know和I mean里都包含代词,这客观上降低了翠西的词汇密度。
另外,有意思的是,刘欣使用well的频率高于翠西,而look一次都没有用。 这可能是因为well是我们会学习的一个填充语,而look很少显性教学。这表明,我们在英语教学中,可能需要有意识增加一些填充语使用的内容。
第二,翠西使用人称代词的I和you的频率也高于刘欣。同样有意思的是,刘欣使用I think的频率要高于翠西。可见,哪怕英语水平高如刘欣,也免不了中国英语学习者I think使用过多的问题。
第三,翠西使用that的频率远高于刘欣。这和第二条也有点关系。在翠西的13次I think后面,4次用了that,占比3077%。而在刘欣的24次I think后面,只有5次用了that,占比2083%。更仔细的分析,发现翠西的I think有不少是用作插入语,例如:
而在刘欣的发言里,I think没有一次用作插入语。这种用法,是母语使用者和外语学习者的一个显著的差异。所以, I think, I guess这样的词组用作插入语的用法,可能我们在英语教学中需要有意识的提一下 。
词汇复杂度一般通过难词的占比来测量。常见的有以下几种测量方式:
另外由于动词是句子的核心,所以有专门的算法来测量动词的复杂性,比如:
上面三种测量方式都有一个弊端,那就是随着文本长度增加,结果会变小。也就是说,如果两个文本长度差异很大,结果会不准确。好在两位主持人的发言字数差不多,所以我们就只用这三个指标就可以了。检测结果如下:
有意思的结果出现了:如果不考虑词类,翠西和刘欣的词汇复杂度几乎没有区别。 但当我们聚焦在动词上时,翠西的动词复杂性高出刘欣60%。 这是不是就表明翠西使用了更多更难的动词呢? 不一定 。VS1指标有一个问题,那就是它是一刀切,没有考虑2000词频以上的差异。举个例子,一个可能的情况是翠西在2000-5000这个词频段用得多,而刘欣在5000-10000这个词频段用得更多,但是总体上来,在2000以上翠西更多。这样分析结果就会显示翠西难词用得更多。
真实情况到底是什么呢?不如我们来具体看看双方分别用了什么动词。
双方都使用的动词:'base', 'agree', 'mean', 'lower', 'know', 'do', 'be', 'pay', 'get', 'work', 'develop', 'believe', 'steal', 'have', 'let', 'ask', 'see', 'decide', 'need', 'play', 'will', 'look', 'want', 'make', 'hear', 'happen', 'use', 'force', 'go', 'talk', 'tell', 'think', 'define', 'may', 'come', 'take', 'give', 'speak', 'thank', 'say'
翠西使用而刘欣没有使用的动词:'welcome', 'mention', 'forgive', 'discuss', 'abandon', 'govern', 'operate', 'lead', 'include', 'liberalize', 'pass', 'stall', 'identify', 'watch', 'require', 'appreciate', 'value', 'turn', 'rid', 'guess', 'join', 'explain', 'share', 'stall', 'live', 'stress', 'borrow', 'oversee', 'enable', 'bear', 'try', 'run', 'spend', 'stop', 'charge', 'bring', 'pursue', 'love', 'step', 'claim', 'keep', 'realize', 'influence', 'overlook', 'care', 'hang'
刘欣使用而翠西没有使用的动词:'learn', 'call', 'sue', 'face', 'correct', 'plan', 'invest', 'understand', 'divide', 'reach', 'achieve', 'grow', 'consider', 'contribute', 'show', 'own', 'establish', 'employ', 'forget', 'put', 'wanna', 'depend', 'skid', 'deny', 'become', 'dream', 'write', 'continue', 'explore', 'deal', 'prosper', 'skip', 'treat', 'control', 'affect', 'commit', 'carry', 'discriminate', 'expect', 'assume', 'produce', 'find', 'change', 'cooperate', 'like'
双方都使用的,显然是一些常见的单词。而刘欣使用翠西没有使用的词直觉上难度比翠西单独使用的难度更高。这说明两个问题:一方面,我们可以说刘欣的词汇复杂度不属于高水平母语使用者。另一方面,我们可能需要加强中等频率词汇的教学,因为刘欣使用更难单词的原因是因为我们过于强调难词的使用,而反之,对中等评率使用重视不够。
最后,我们来看一下词汇多样性。词汇多样性是指文本中不重复单词的比例。说到这里,我相信你很快就会想到,最简单的检测方式就是“类符-形符比”(Type-token ratio, TTR)。没错,TTR是最直观的方式。
不过TTR也有个问题,那就是对文本长度很敏感。随着文本长度增加,TTR会下降。更准确的测量方式是使用“标准类符-形符比”(STTR),即按顺序截取n个字符,计算TTR,然后再取平均数。因为我们的文本很小,所以我们顺序截取50个单词。你肯定也能想到,这种方法会造成数据浪费,因为文本大小不一定是50的整数倍。
TTR是实词、虚词一起考虑的。从文本的内容角度来看,实词的多样性更能说明问题。所以,我们也考察实词多样性(LV),即实词类符/实词形符。我们也可以看得更细,每一种实词种类占实词形符的比值,分别用VV1, NV, ADJV和ADVV来表示。结果见下表:
从上表可以看出,实词多样性翠西要高于刘欣,但这个差异主要来源是动词多样性,而名词、形容词和副词的使用上,双方没有差异。
今天我们比较了翠西和刘欣对话的词汇复杂性。通过上面的分析,我们可以得出了一些对英语学习和教学有参考价值的结论。我帮你再总结一下:
词汇复杂度的分析就到此,下一篇分析她们的“句法复杂度”,欢迎继续关注。词汇复杂度和句法复杂度在线分析的网址如下:
https://aihaiyangcom/software
其余数据我是用spaCy分析的。
记得在后台回复“刘欣”,即可获取校对过的完整文本。然后你也可以自己分析一下。
顺祝各位大小朋友,儿童节快乐。
中文主要有:NLTK,HanLP,Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开发语言:Java,网址:hankcs/HanLP,开发机构:大快公司,协议:Apache-20功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具。
Python可以使用文本分析和统计方法来进行文献分析。以下是Python进行文献分析的一些方法:
1 使用Python的自然语言处理(NLP)库,如NLTK或spaCy,来对文献进行分词、命名实体识别、词性标注等操作,以便对文献进行语言统计分析。
2 可以使用Python的Pandas库来对文献进行数据处理和分析,将文献数据导入Pandas DataFrame中,并对其进行数据清洗、统计分析、可视化等操作。
3 使用Python的网络爬虫库,如Requests和BeautifulSoup,来爬取在线文献数据库或社交媒体平台上的相关文章,并通过数据挖掘和机器学习算法来发现其中的相关性和趋势。
4 通过使用Python的数据可视化库,如Matplotlib和Seaborn,来将分析结果可视化,便于更好地理解大量数据和引领后续工作。
总之,Python提供了灵活和强大的工具集,结合适当的文献分析领域知识,可以快速、便捷地完成文献分析任务。
举例来说,一个研究人员想对某个领域的文献进行分析,探究其中的研究重点、热点和趋势。首先,研究人员需要获得相关的文献数据,可以通过在线文献数据库或者社交媒体平台来获得。
接下来,研究人员可以使用Python的网络爬虫库,如Requests和BeautifulSoup,来爬取这些数据,并将其存储到Pandas DataFrame中进行清洗和分析。例如,可以对文献进行分词、命名实体识别等操作,以便发现其中的热点和重点。
然后,研究人员可以使用Python的数据可视化库,如Matplotlib和Seaborn,来将分析结果可视化,例如使用词云图、词频图、关联图等方式展示文献中的关键词、主题和相关性,以便更好地理解和表达分析结果。
通过以上的Python工具和方法,研究人员可以对大量文献数据进行深度挖掘和分析,在较短时间内获得比较完整和准确的结果,提升研究效率和成果。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)