在趣头条中,金币是该平台的虚拟币,每天的金币收益在第二天会自动的转化成为零钱,然后零钱就可以提现了!也就是相当于收益了!
金币直接转化成为零钱,零钱就可以提现,但是多少金币是一块钱,这个不固定,因为趣头条中的金币是根据每天的广告收益来进行兑换的,也就是说广告收益越高,就会是更少的金币数量等于一块钱,反之!
金币是趣头条里面的货币单位,当天所赚取的金币会在第二天自动转换为现金存到你的零钱账户中,需要兑换的用户,可以直接点击我的,向下面翻到兑换&兑换按钮,点击进入,就可以兑换为微信红包、话费、手机流量了!
扩展资料
趣头条是一款创新模式的生活资讯阅读应用,集合生活、娱乐、社会、养生、时尚等海量新鲜内容呈现给用户。另外在阅读资讯的同时,还有丰富的活动、宝箱、福利、等奖励措施帮助用户在养成良好阅读习惯的同时获取丰厚的回报。
趣头条推荐系统,依据用户属性进knn聚类,对用户兴趣深度挖掘,使用lda主题模型对文章进行分类,使用深度神经网络模型训练doc2vec(文本分析下的情感分析,从文字中自动识别出人们对特定主题的主观看法、情绪以及态度等等) 。离线计算使用svd矩阵分解和item base协同过滤,生成个性化推荐文章集,线上实时使用LR预测模型,通过点击反馈对推荐结果进行重排序。将人群和文章进行分类,将用户喜欢的文章推荐给用户
苏霍姆林斯基
苏霍姆林斯基(1918——1970)是苏联当代最有名望的教育家。出生于乌克兰共和国一个农民家庭。1936至1939年就读于波尔塔瓦师范学院函授部,毕业后取得中学教师证书。1948年起至去世,担任他家乡所在地的一所农村完全中学——巴甫雷什中学的校长。自1957年起,一直是俄罗斯联邦教育科学院通讯院士。1968年起任苏联教育科学院通讯院士。1969年获乌克兰社会主义加盟共和国功勋教师称号,并获两枚列宁勋章和1枚红星勋章等。
苏霍姆林斯基在从事学校实际工作的同时,进行了一系列教育理论问题的研究,写有《给教师的一百条建议》、《把整个心灵献给孩子》、《帕甫雷什中学》、《公民的诞生》等教育专著。
立志从教
苏霍姆林斯基的小学、中学生活,一直是在本村学校度过的。这是一座七年制的学校,虽然学校设施条件极为普通,但这里却有一批较好的师资力量。这对从小受到家庭良好熏陶的苏霍姆林斯基来说,是一个极好的环境。他的善良天性在这里得到了充分的发展,知识能力得到了迅速的拓宽。他在家经常主动帮助父母邻居做事,在学校里是位品学兼优的学生,得到了当时校长伊万·萨维奇和教务主任布师科夫斯基的重视和关怀。然而对他影响最大的要数启蒙女教师安娜·萨莫伊洛英娜。
这位女教师在教育工作中,不仅是孩子们的老师,也是孩子们亲密的伙伴。苏霍姆林斯基觉得这位女教师象一个女魔法师,她知道一切美的秘密。她讲课时学生们都有浓厚的兴趣,所教的知识常被学生铭刻在记忆之中。她常带孩子们到大自然中去,引导学生思考许多问题,学习了不少东西,明白了许多道理……我们摄下了这样的一个事件:
在山花烂漫、万物生机昂然的季节,有一天下午,安娜·萨莫伊洛英娜带学生们来到了森林,这对苏霍姆林斯基来说是再熟悉不过的地方了,他平时就到这里来玩。但女教师的解说,让他接触了许多过去没有注意到的新事物和很多使他感到惊奇的东西;看这颗盛开的椴树在帮助蜜蜂酿蜜;瞧那个蚁穴——过去是苏霍姆林斯基出自恶作剧曾用棍子去桶它,而现在老师说这个蚁穴有回廊和广场,有幼儿园和粮仓……原来是一个童话般的城市。他感到不和老师一起来。就不会发现世界上这么多美好的东西。当孩子们领略了这大自然美好的风光,急冲冲准备回家的时候,她还有一新招:“孩子们,为爷爷、奶奶、爸爸、妈妈采集些鲜花吧。当孩子们关心长辈的时候,长辈会感到高兴,而鲜花——这是关怀和敬爱的标志。……”苏霍姆林斯基接受的就是这样的教育。
这使幼小的苏霍姆林斯基不仅爱上了书本,爱上了同伴,爱上了大自然,而且他更尊敬这位老师。他向往着自己的知识能同老师一样渊博,向往能象老师一样。从这时起,苏霍姆林斯基逐步树立了从事教师这一神圣职业的志向。因此在七年制学校毕业时,他毅然决定报考师范院校,后来一步一个脚印,从一个普通的教师成长为一名伟大的教育家。
反思失误
苏霍姆林斯基在他的教育实践中也曾有过这样的失误。
那时,他刚参加工作。一个名叫斯捷帕的男孩,由于过分活泼、顽皮,在一次玩耍中无意把教室里放着的一盆全班十分珍爱的玫瑰花给碰断了。对此,苏霍姆林斯基大声斥责了这个学生,并竭力使这个闯祸的孩子触及灵魂,吸取教训。事后班上孩子们又拿来了三盆这样的花,苏霍姆林斯基让孩子们用心轮留看护,唯独斯捷帕没有获准参加这项集体活动。不久这个学生变得话少了,也不那么淘气了。年轻的苏霍姆林斯基当时想,这倒也好,说明自己的申斥对这个学生起了作用。
可是不愉快的事件在他斥责这位学生的几周之后的一天发生了。这天放学后,苏霍姆林斯基因事未了,还留在教室里,斯捷帕也在这里,他准备把作业做完回家。当发现教室里只有老师和他俩人时,斯捷帕便觉得很窘,急忙准备回家。苏霍姆林斯基没有注意到这种情况,无意中叫斯捷帕跟自己一起到草地上去采花。这时斯捷帕表情迅速变化,先苦笑了一下;接着眼泪直滚了下来,随后在苏霍姆林斯基面前跑着回家了……
这件事对苏霍姆林斯基触动很大。此时,他才明白了,这孩子对于责罚,心里是多么难受。他开始意识到自己以前的做法,是不自觉地对孩子的一种疏远,使孩子感到了委屈。因为孩子弄断花枝是无意的,而且对自己的行为感到后悔,愿意做些好事来补偿自己的过失,而自己却粗暴地拒绝了他这种意愿。对这种真诚的、儿童般的懊悔,报之于发泄怒气的教育影响,这无疑是对孩子的当头一棒。
此后,苏霍姆林斯基吸取了这一教训,在以后的工作中很少使用责罚。通常,他对由于无知而做出不良行为后果的儿童,采取宽恕态度。他认为,宽恕能触及学生自尊心最敏感的角落。
“不要死背”
苏霍姆林斯基担任校长之后,曾多次提出:“要思考,不要死背”的口号,然而人们却很少知道,触发他产生这一思想的契机,却是在一次听小学低年级语文教师讲课的课堂上。
一天上午,苏霍姆林斯基同往常一样,去听一位小学低年级语文教师的课。课堂上的最初几分钟,学生们正紧张地思索着老师提出的一个个问题。这位青年教师开始叫学生回答问题,苏霍姆林斯基认真地记录下了学生的回答,可是学生们的回答,并不能让他感到满意。他发现学生使用的许多词和词组在他们的意识里,并没有很鲜明的表象,跟周围世界的事物和现象联系不起来。学生们仅仅是重复别人的思想,让人听到的仅仅是一些被学生硬挤出来的、笨拙的、背诵下来的句子和词组。它们的意思是什么,似乎学生并没有搞清楚,苏霍姆林斯基想:“为什么学生的回答总是那样贫乏、苍白无力、毫无表情呢为什么在这些回答里常常缺乏儿童自己的活生生的思想呢”这时课正在进行中,只听见教师提示学生;“课后要复习,词意、句式一定要记住,下节课提问……”听到这里,苏霍姆林斯基皱起了眉头,思维再也集中不到听讲上了。
他想到,难道教学摆在学生面前的唯一任务就是识记、保持和再现看来自己工作还存在缺陷,自己在实践中已经解决了的问题,还没有及时推广到广大教师中间。这时一年级学生娜塔莎的一篇作文,在他头脑中再次清晰地映现出来:
“这是夏天的事儿,刮了一阵大风,大风把一粒长着毛茸茸翅膀的种子带到了草原上,种子落到了草原上的青草丛里,青草惊奇地问:‘这是谁呀’,种子说:‘这是带翅膀的花儿。我准备在这儿,在草丛里生长。’青草高兴地欢迎新来的邻居。冬去春来,草儿发青了。在种子原来落下的地方,露出了一根粗壮的茎,在它的顶上,开出一朵朵**的花儿,它是那么鲜艳,就象一个小小的‘太阳’。‘啊!这原来是蒲公英呀!’青草说。”
这是带学生观察了花的形状,颜色,这种花与那种花不同的特点,引导学生把闪烁的阳光、白色的花瓣、忙碌的蜜蜂、颤动的树枝、悠闲的小蝴蝶等这些事物之间相互联系起来看,然后让学生充分想象,自编出各种有关花的故事。
学生能写出这样的作文,说明词已进入了学生的精神生活,虽然表达还带有给他们所讲的童话故事的影响,但这是他们自己的语言。会思考已成为这类孩子的显著特点。对于学习效果差的学生,总听到一些教师议论是“愚笨”、学习不努力,现在看来,不能不说教师惯用的传统教学思想造成了孩子智能的局限,从而导致学生不会学习——不会观察、思考、推论,只好依靠死记硬背。现代学校的整个教学体系需要加以科学的改进,应当建立在三根支柱上;鲜明的思想、活生生的语言和儿童的创造。看来教师在课堂上不仅要教给学生一定范围的知识,还要加强学生的思维训练……
“当!当!当!……”下课的铃声打断了苏霍姆林斯基的思考,可是现在他已想好了下次校务会议上的一个议题,这就是“如何让学生学会思考。”他将要向全校师生提出“要思考,不要死背”这个口号。
循循善诱
苏霍姆林斯基对小学生的教育,方法上灵活多样。他把运用民间童话故事作为自己在学校教育的方法之一,并且收到了良好的效果。我们仅从他运用这一方法的众多教育实例中撷取其中的一个片断。
这是暑假后的一天,苏霍姆林斯基所带的三年级甲班准备去野营训练。考虑到所带东西较多,其中一个学生建议,两个人结成一对,有的东西可以合用,这样可以减轻旅途负担。建议受到班主任苏霍姆林斯基的赞扬,孩子们开始自由组合,呈现一片欢乐的场面。大家都有了对子,唯独平时自以为是而妄自尊大的学生安德烈卡没有对子,他在一边哭泣着。
苏霍姆林斯基把安德烈卡叫到一边,问明情况,知道是同学都不愿和他组合成对。这孩子委屈地认为,是同伴们嫉妒他。苏霍姆林斯基深知这个学生的天性,认为这是一个很好的教育时机,便直接了当地对安德烈卡说:“你要明白,安德烈卡,最困难的就是迫使自己去感觉。你迫使自己去感觉,那你就会以另一种目光看你的同学、去看人。如果你老是认为,你是最聪明的人、最有才能的人、最好的人,那么到头来你就会成一个最孤立的人……”
“但是,实际上我就是在解题上比谁都强,并比谁都快地背会诗歌……多少次您自己都说:‘'好样的,安德烈卡,安德烈卡学习了,现在就懂了……’我比谁都懂得多,这难道是我的错”孩子哭得更伤心了。
苏霍姆林斯基还能用什么语言再去解释呢说教显然对这个孩子没有多大效果。他思索着如何对这位男孩子进行解释,才能让他懂得、认识并相信……
“安德烈卡,咱们找个荫凉的地方坐下,我给你讲一个故事,这个故事与我们这件事十分相似,愿意听吗”安德烈卡点点头。他们来到大橡树的树荫下,坐在一条长凳上,苏霍姆林斯基讲了一个“菊花和葱头”的故事:
“在一个农村老大娘的住处旁,长着一株菊花。菊花老是沾沾自喜:‘你们瞧,我多美啊!在这地方我是最美的’,在菊花旁边长着一棵葱头,一颗普普通通的葱头。夏末,葱头熟了。绿色的茎叶蔫了,葱头散发出辛辣的气味。
菊花扇动鼻子。‘呸,你发出一股多难闻的味道呀!’它对邻居说到。‘我真感到奇怪,人们干吗要种这种植物呢想必是为了薰跳蚤……’葱头没有作声,它把自己视为灰姑娘。
这时,大娘从屋子里走出来朝菊花走去。菊花屏住了呼吸。她想:大娘马上就会说,她的花多美啊。菊花由于心满意足,已经感到有点飘飘然了。大娘走近菊花却弯腰拔起了葱头。大娘端详着葱头,惊呼了一声:‘多好看的葱头啊!’
菊花感到困惑了:难道葱头会被认为是好看的吗”
听完了这个故事,安德烈卡眼泪已经干了,从这个故事中他好象悟出了一条道理:人各有所长,各有所用,不能自作聪明,看不起同学。他羞愧地低下了头,一言不发。
苏霍姆林斯基采用这种讲童话故事的方法,使小学生易于接受,并从类比中受到了应有的教育。这无疑是一个伟大的创造。
挽救“困难生”
在苏霍姆林斯基领导的巴甫雷什中学里,形成了这样一个观念:就是相信一切孩子都能被教育好。这里没有“差生”的概念,只存在“困难学生”或“难教育学生”的说法。在教育实践中,对这类学生一般不单纯由某个教师去进行教育,对他们进行教育往往是整个集体的义务。苏霍姆林斯基一生中就教育过178名“难教育的学生”,这178名学生都有一个艰难的教育过程。每周苏霍姆林斯基都要走访困难孩子的家庭,以便深入了解形成他们道德的最初环境,他跟家长们、家长的邻居们,教过这些孩子的老师们进行交谈。
这一天,他来到了小学生高里亚的“家庭。”这个“家”给他留下了这样一个印象:高里亚是个非常不幸的孩子,他从小失去了父亲,母亲在他刚满周岁时,又犯了严重的罪行,被判处十年徒刑。高里亚从小住在姨母家,姨母把他看成额外的负担。高里亚成了一个典型的“难教育学生,”这就是他的家庭背景。
原来,高里亚从上学一个月后,大家就对他产生了一个鲜明的形象:这是一个懒惰成性、常会骗人的学生。在短短的一段时间里,他就表现出了“难教育”的特点。秋天,当高年级学生植树时,他有意破坏了几株树苗的根部,并向全班同学夸耀自己的“英雄行为”。有一次课间,他把手伸进别人的书包,拿出课本,用墨水把它弄脏,再放回原处,并以天真无辜、泰然自若的态度来欺骗教师审视的眼光。还有一天,他们班去森林远足考察,他一路上撞这打那。当班主任一位女教师故意不理睬他,向其他学生讲解山谷、丘陵、山和冲沟的有关知识时,他走到全体学生面前,做出滑稽动作,还登上峭壁往下看。老师旁敲侧击地提醒:“同学们,不能走近冲沟边缘,跌下去很危险!”他突然高声喊到:“我不怕!这个冲沟我滚下去过!”说着就卷起身子滚了下去……
苏霍姆林斯基根据家访的情况,找来班主任等有关教师共同分析高里亚上述行为产生的原因。他提出了自己的看法:高里亚对自己的行为所抱的态度,是故意装出来的、不自然的。家庭环境的影响,使高里亚对人们失去了信心。对他来说,生活中没有任何神圣的、亲切的东西。苏霍姆林斯基的看法对教师们思想触动很大。大家一致认为,高里亚所以不好,是因为过去只看到他恶劣,放荡的一面,而没有主动关心、挖掘他身上闪光的地方。这个学生表现出来的缺点,是在向周围的人对他漠不关心、冷淡无情的态度表示抗议。这样的分析增强了教师们的同情心、关注之情、教育的敏锐性和观察力。
一次,苏霍姆林斯基发现这个孩子单独玩耍,好象很随便的样子,他把高里亚请进了生物实验室,要高里亚帮忙挑选苹果树和梨树的优良种子。虽然高里亚装出不屑栽培树苗的样子,可是孩子的好奇心还是占了上风,他们两人一起做了两个多种头,直到很累为止。这件事引起了高里亚的极大兴趣,当班主任再次去高里亚家时,已发现他正在施肥栽树。此后班主任老师因势利导,在班级栽树活动中,让高里亚指导别的孩子们。及时的发现和鼓励温暖着这个孩子的心灵。虽然后来高里亚曾多次反复出现不良倾向,老师们却着眼于长善救失,循循善诱。“功夫不负有心人”,在这个教师集体的共同教育下,这个孩子在三年级时,光荣地加入了少先队,以后还经常帮助有困难的其他同伴,为集体默默地做好事。高里亚好像重新变成了另一个人了。
从这里可以看到苏霍姆林斯基的一个教育信念:热爱孩子、关心尊重孩子,相信一切孩子在教育中能够向好的方面转变。
“特殊奖励”
苏霍姆林斯基在对学生的教育过程中,善于因势利导,进行积极的鼓励,激发学生心灵的火花。人们把这赞为“特殊奖励。”
一次,苏霍姆林斯基把12岁的儿子谢廖扎叫到眼前,给了儿子一把新铁锨,并对他说:“儿子,你到地里去,量出一块长宽各一百个脚掌的地块,把它刨好。”儿子很高兴地拿了铁锨,来到地里就刨了起来。
在没有用惯铁锨之前,谢廖扎感到很费力。随后干得越来越轻松了。可是待到他用铁锨准备翻出最后一锨泥土时,铁锨把折断了。
谢廖扎回到家里,心里感到忐忑不安:父亲一旦知道铁锨坏了,会怎么说我呢“爸爸,您可别怪罪我”,儿子说:“我让家里失掉了东西。”“什么东西”父亲问。“铁锨坏了。”这时,苏霍姆林斯基并没有责怪孩子,而是问:“你学会刨地了没有刨到最后,是觉得越来越费劲,还是感到越来越轻松了呢”
孩子回答:“刨到最后,越来越轻松了。”这时苏霍姆林斯基说:“看来你不是失,而是得”。孩子疑惑不解。他继续说:“愿意劳动了,这就是最宝贵的收获。”这时孩子一颗忐忑不安的心顿时平静下来了。这不仅是精神上得到了一种愉悦,而且孩子从中看到了劳动的价值,树立起了良好的劳动观点。
还有一次,一年级女学生季娜的祖母病得很重。季娜想给祖母采一朵鲜花,使她在病中得到一些欢乐。但是,时值严冬,到哪里去找鲜花呢这时她想到学校的暖房里有许多菊花,其中最美的一棵是全校师生都极为喜爱的那朵蓝色的“快乐之花。”季娜一心想着重病的祖母,忘记了学校的规定,她一清早就走进暖房,采下了那朵“快乐之花。”
这时,苏霍姆林斯基走进了暖房,当他看到季娜手里的菊花时,大为吃惊。但是,他很快注意到了孩子眼里那种无邪的、恳求的目光。他向季娜问明了情况后,非常感动地说;“季娜,你再采三朵花,一朵给你,为你有一颗善良的心;另外两朵送给你的父母,为他们教育出了一个善良的人。”
“娇花”问题
深夜,静悄悄,苏霍姆林斯基正伏案写作。现在他又在进行着一个新的课题的研究,这就是关于那些由于记忆过于孱弱而能力较差儿童的教学问题。
这样的孩子,人们通常称之为“智能低下者”;而苏霍姆林斯基则把他们比作人类“娇嫩的花朵”,虽为数不多,但每年总会有两三名。据苏霍姆林斯基对这些孩子学习结果的观察分析,他们的精神生活十分空虚贫乏,常常被列入留级生的行列,往往还要多次重读。因此在教员休息室里常有人谈论这种学生。
现在他就是针对这些儿童的特点来研究对他们的教育与教学问题。他全神贯注地想着、写着,突然,皱起了眉头,停下笔来。他遇到的一个问题,就是究竟应如何对待这类儿童这时他又想到了白天发生的一幕:
那是在教员休息室,当一位女教师知道有一个重读一遍的低智能儿童还要留级、被校长同意的消息后,她眼里含着泪水追问苏霍姆林斯基:“怎么还能在学校里留这样的学生要知道,他简直是个糊涂蛋,性格又那么坏!是个不可造就的人。”
对这位老师的焦躁心情,作为校长、同事的苏霍姆林斯基是能够理解的。一般学校是不会接收这样的孩子的,因为这类孩子看起来思维正常,可是他们的记忆“轮子”却转得很慢,还可能“空转”;他们智能较低,往往使教他们的老师陷入苦恼。但他不能默认这位教师的观点,依然有信心地进行了反驳:
“我认为,他不是没有希望……”
“请您看看他怎么回答三六得几……或者听听他怎么朗读……”“依我看,应当把这种孩子说成是人类最脆弱、最娇嫩的花朵。”苏霍姆林斯基温和地说,“他们来上学,象人们所说的,脑子差劲,这不能怪他们……”
“应该送他们去上特殊学校。”
“可我认为,我们的人道使命在于挽救他们,让他们回到正常的精神生活和美的世界里来……”。
“您只是出于怜惜才这样讲”。
“正是这样,是出于怜惜和同情”。
看来要教育好这些孩子,首先应端正教师们所持的态度。这时他从回忆中又回到了思考这个问题上来子。“这些孩子的思维到底有什么特点”“应该告诉教师们注意些什么呢”他又提笔写道:“思维、儿童的记忆,的确应是从这里开始的——从赤子之爱和怜悯之心,从惊奇和赞叹,从儿童生活中发出的种种事件的情感色彩开始的。”教师应牢牢记住“学校教育中的智育目标不仅在于发展和充实智能,而且也在于形成高尚的道德和优美的品质。教师绝不应持片面观点,放弃对这些孩子的全面教育。”(完)
我们这里来看看聚类分析。
比较流行的有聚类方法有k均值聚类,属于分割式聚类的方法。
K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。目的是最小化E=sum(x-\miu_i), 其中\miu_i是每个簇的均值。
直接求上式的最小值并不容易,这是一个NP难的问题,因此采用启发式的迭代方法K-Means。
K-Means很简单,用下面一组图就可以形象的描述。上图a表达了初始的数据集,假设k=3。在图b中,我们随机选择了三个k类所对应的类别质心,即图中的红绿和草绿色质心,然后分别求样本中所有点到这三个质心的距离,并标记每个样本的类别为和该样本距离最小的质心的类别,如图c所示,经过计算样本和红绿和草绿色质心的距离,我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红绿和草绿色点分别求其新的质心,重复了这个过程,将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的三个类别如图。
首先我们看看K-Means算法的一些要点。
1 对于K-Means算法,首先要注意的是k值的选择,一般来说,我们会根据对数据的先验经验选择一个合适的k值,如果没有什么先验知识,则可以通过交叉验证选择一个合适的k值。
2 在确定了k的个数后,我们需要选择k个初始化的质心,就像上图b中的随机质心。由于我们是启发式方法,k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心,最好这些质心不能太近。
传统的K-Means算法流程。
输入样本集合,然后划分成k 人为分类,凭经验将样品进行初步的分类
选择凝聚点后,求均值,求距离,归类
更新质心
重新求均值和距离,再重新归类
大样本优化Mini Batch K-Means
在统的K-Means算法中,要计算所有的样本点到所有的质心的距离。如果样本量非常大,比如达到10万以上,特征有100以上,此时用传统的K-Means算法非常的耗时,就算加上elkan K-Means优化也依旧。在大数据时代,这样的场景越来越多。此时Mini Batch K-Means应运而生。
顾名思义,Mini Batch,也就是用样本集中的一部分的样本来做传统的K-Means,这样可以避免样本量太大时的计算难题,算法收敛速度大大加快。当然此时的代价就是我们的聚类的精确度也会有一些降低。一般来说这个降低的幅度在可以接受的范围之内。
在Mini Batch K-Means中,我们会选择一个合适的批样本大小batch size,我们仅仅用batch size个样本来做K-Means聚类。那么这batch size个样本怎么来的?一般是通过无放回的随机采样得到的。
为了增加算法的准确性,我们一般会多跑几次Mini Batch K-Means算法,用得到不同的随机采样集来得到聚类簇,选择其中最优的聚类簇。
K-Means与KNN
K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。
两者也有一些相似点,两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。
KNN(K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
总体来说,KNN分类算法包括以下4个步骤:
1准备数据,对数据进行预处理
2计算测试样本点(也就是待分类点)到其他每个样本点的距离
3对每个距离进行排序,然后选择出距离最小的K个点
4对K个点所属的类别进行比较,根据少数服从多数的原则,将测试样本点归入在K个点中占比最高的那一类
该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数 , 该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点 。
K-Means小结
K-Means的主要优点有:
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k。
K-Means的主要缺点有:
1)K值的选取不好把握
2)对于不是凸的数据集比较难收敛
3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
4) 采用迭代方法,得到的结果只是局部最优。
5) 对噪音和异常点比较的敏感。
PAM算法。 PAM法和K-means法很相似,但是它保证跑出来你的数据是最优的,和k-means不一样的是,虽然它也随机选择群中心,但是群中心的选择并非虚拟的,而是选取真正的数据点作为群中心。比如一开始选择3和20两个点作为群中心,并得到SS值。然后用不同的点去替换3或者20,选择最小SS值的点作为新的群中心,依次类推,直到SS值不能进一步优化。然后根据最后的群中心去聚类。PAM算法能够处理非数值类型的字段,但是其效率很慢,难以处理大数据量的情况。
除了分割聚类的方法,还有阶层式聚类的方法。我们看看ward方法。
华德法( Ward’s Method ): 华德法是阶层式聚类分析法中效果最好的,但是其运算速度较慢。理论差平方是判断聚类效果好不好的一个指标(每个资料点同群中心距离的平方和),其计算方式如下,SS值最小则说明聚类效果最好。华德法采用了一个取巧的方法,保证效果最好,仍然以上述例子示范。第一次聚类(聚成4类)有十种可能性,选择AB使得SS值最小,第二次(聚成3类)选择DE使得SS最小,第三次(聚成2类)选择CDE使得SS最小,直到聚成一类。
聚类分析是非常有用的,比如在公司可以给客户分类,或者说客户画像。如何了解用户的需求,把握用户的期望,对迅速对用户作出精准的投放这些手段已经成为企业能否的关键了。
某移动运营商在5月发展了19999个新用户,在新用户入网后一个月后,1、希望通过提供一些优惠提高用户的忠诚度 2、希望通过推荐一些产品提升客单价。
为达到这一目的,我们需要对新用户进行洞察,弄清楚以下的问题: a、应该给客户提供什么优惠? 我们的优惠能否给客户带来惊喜?不同的客户是否该根据他们的喜好提供不同的优惠?b、客户对我们的什么产品感兴趣?不同的客户是否应该推荐不同的产品?
这个时候就可以使用聚类分析。
大数据挖掘的算法:
1朴素贝叶斯,超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。
2 Logistic回归,LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型。如果你想要一些概率信息或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。
3决策树,DT容易理解与解释。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题,DT的主要缺点是容易过拟合,这也正是随机森林等集成学习算法被提出来的原因。
4支持向量机,很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。
如果想要或许更多更详细的讯息,建议您去参加CDA数据分析课程。大数据分析师现在有专业的国际认证证书了,CDA,即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。点击预约免费试听课。
与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。
随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。
那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)
以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。
情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。
1 篇章级情感分析
篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。
对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。
例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。
不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。
在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。
2 句子级情感分析
与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。
既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。
但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。
所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。
总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。
句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。
3 属性级情感分析
上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。
为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:
关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。
做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。
具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。
情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。
当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。
但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。
另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。
基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。
第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。
除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。
最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。
构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。
尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。
我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。
首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1
在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。
第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。
当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。
采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。
除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。
随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:
情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。
导读众所周知,随着社会的发展,数据分析师成为了炙手可热的热门执业,一方面是其高薪待遇另一方面就是其未来广阔的发展前景。一般情况下用人单位会给问答题和动手题来检测应聘者的真实实力,可以说面试笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。为此小编就以此为例和大家说说2020年数据分析面试解答技巧:问答题,希望对大家有所帮助。
问答题
1 用一种编程语言,实现 1+2+3+4+5+…+100。
这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如 Python、Java、PHP、C++ 等。这里我用 Python 举例:
sum = 0
for number in range(1,101):
sum = sum + number
print(sum)
2 如何理解过拟合
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。
欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
3 为什么说朴素贝叶斯是“朴素”的
朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
4 SVM 最重要的思想是什么
SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM
的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM
和非线性 SVM。
5 K-Means 和 KNN 算法的区别是什么
首先,这两个算法解决的是数据挖掘中的两类问题。K-Means是聚类算法,KNN是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识。最后,K值的含义不同。K-Means中的K值代表K类。KNN中的K值代表K个最接近的邻居。
以上就是小编今天给大家整理发送的关于“2020年数据分析面试解答技巧:问答题”的相关内容,希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析,关注小编持续更新。
趣头条是真的。官方的说法是新手号转正将有两种方式:
平台不定期审核通过。
头条号指数达标自助转正。
同时满足以下条件的新手号,可在“设置”-“帐号状态”中自助转正:头条号指数超过650分(近30日内,至少有1天头条号指数超过650分)和“已推荐”文章累计超过10篇。
像本人的头条号:“陇塬明珠”连续发文10天就给过了新手,又连续发文3天开通头条广告跟自营广告。目前只挂头条广告。赚钱看你怎么看。小钱还是可以赚的,大钱看你能耐了。
“趣头条”作为一款新生代内容资讯APP,由上海基分文化传播有限公司开发。团队致力于让用户的阅读更有价值,通过大数据算法和云计算等技术,为用户提供感兴趣、有价值的个性化内容及服务。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)