说明你的数据集不符合该方法的要求。对于关联规则挖掘来讲,通常都是因为数据是数值型的且未离散化。相关的问题我已经回答过很多次了,具体你可以参考我之前的回答,不明白可以继续追问:
http://zhidaobaiducom/question/554012782&oldq=1
http://zhidaobaiducom/question/548971966&oldq=1
你用weka做二次开发,你也没说你哪些接口用的weka的,首先你生成的arff文件中,文档有没有先分词,分词后有没有离散化,确保你的arff文件中attribute必须是一个一个的词,当然训练时也要包含类别信息,用于聚类后的验证,离散化后转成vsm模式,聚类方法你估计用的weka接口实现的,kmeans的输入参数可以指定聚几个类。
ClusterEvaluation eval = new ClusterEvaluation();
evalsetClusterer(KM);
evalevaluateClusterer(ins);
//这句获得了每条记录所属的clusterer
/
double[] cnum = clgetClusterAssignments();
如果单指软件本身,显然是weka,至少有这方面的功能模块。matlab本身是数值计算软件,根本没有这类功能。
另外这两个软件都可以添加功能库,相对来说weka可加的库只能是java的,步骤也麻烦。matlab的添加工具箱之类很简单,引用也方便,但估计做这方面研究的很少拿matlab做,应该很难找相关资源。
如果专门搞这个的,应该找找其它软件。
当然如果是做研究的,深入到具体算法,那还都是数学问题,可以在matlab底下处理。
1 Excel / Spreadsheet
http://wwwopenofficeorg/download/
excel 基本上支持了最常用的数据分析功能:用来概述(总结)数据特征,数据可视化,对数据转型(去除噪音数据)从而得到新的数据集用来分析等。尽管Microsoft excel这个软件是付费的,但你可以用其替代品,例如open office, google docs!
2 Trifacta
https://wwwtrifactacom/start-wrangling/
excel在数据大小上有限制,但这个工具没有这样的局限,您可以安全地用它处理大数据集。这个工具有令人难以置信的特性,如图表推荐、内置算法、分析洞察力,您可以使用这些特性在任何时间内生成报告。
3 Rapid Miner
https://rapidminercom/
在建立机器学习模型方面的具有专业性,包含了我们经常使用的所有ML算法。能闪电般的快速水平上提供分析经验。他们的生产线上有几个为大数据、可视化、模型部署而构建的产品,其中一些产品(企业)包括订阅费。
4 Rattle GUI
https://cranr-projectorg/bin/windows/base/
提供了足够的选项来探索、转换和建模数据。它在统计分析方面的选择比SPSS少。但是,SPSS是一个付费工具。
5 Qlikview
http://globalqlikcom/us/landing/go-sm/qlikview/download-qlikview
获得商业洞察力并以一种极具吸引力的方式将其呈现出来。有了它较先进的可视化功能,你会惊讶于你在处理数据时所得到的控制量。它有一个内置的推荐引擎,可以不时地更新有关较佳可视化的信息。
6 Weka
https://wwwanalyticsvidhyacom/learning-paths-data-science-business-analytics-business-intelligence-big-data/weka-gui-learn-machine-learning/
使用Weka的一个优点是它很容易学习。作为一个机器学习工具,它的界面是足够直观的,你可以迅速完成工作。它为数据预处理、分类、回归、聚类、关联规则和可视化提供了选择。建立在Java之上。
7 KNIME
https://wwwknimeorg/knime-analytics-platform
提供了一个开放源码的分析数据的平台,以后可以使用其他支持KNIME的产品进行部署。该工具在数据融合、可视化和先进的机器学习算法等方面具有丰富的特点。
8 Orange
http://orangebiolabsi/
目的是产生交互式数据可视化和数据挖掘任务。YouTube上有足够的教程来学习这个工具。它有一个广泛的数据挖掘任务库,包括所有的分类、回归、聚类方法。
9 Tableau Public
https://publictableaucom/s/
Tableau是一个数据可视化软件。快速探索数据的可视化软件,每一次观察都可使用各种可能的图表。它是一种由自己计算出数据类型、可用的较佳方法等的智能算法。
10 Data Wrapper
这是一个闪电般的快速可视化软件。可视化桶由线条图、条形图、列图、饼图、叠加条形图和地图组成。此工具启用浏览器,不需要任何软件安装。
11 Data Science Studio (DSS)
http://wwwdataikucom/dss/trynow/
它是一个旨在连接技术,业务和数据的强大工具。它可分为两部分:编码和非编码。它对任何旨在发展,建立,在网络上部署和扩展模型的组织来说都是一个完整的软件包。
12 OpenRefine
http://openrefineorg/downloadhtml
专门研究混乱的数据;为预测建模目的而清理、转换和塑造数据。使用Open Refine进行改进,分析人员不仅可以节省时间,还可以将其用于生产工作。
首先,如果数据量大于物理内存没办法使用软件解决的。
weka是基于java的,内存不足指java虚拟机的内存不足,设置方法
打开weka安装目录的RunWekaini可以看到:
# The JAVA_OPTS environment variable (if set) Can be used as an alternative way to set
# the heap size (or any other JVM option)
javaOpts=%JAVA_OPTS%
设置环境变量: JAVA_OPTS
例如:JAVA_OPTS=-Xmx2048m -Xms512m
这样weka启动时建立的虚拟机就会变大,但是还是以物理内存为限制的。
找k的软件叫做KMSpico。
KMSpico是一款绿色免费的激活工具,可以激活Windows和Office等操作系统和软件。使用KMSpico可以让你免费激活Windows系统和Office软件,无需购买正版授权,节省了大量的金钱。此外,KMSpico还可以自动续期激活,让你无需担心授权过期。
使用KMSpico激活Windows和Office等软件时,需要先关闭杀毒软件和防火墙等安全软件,否则可能会导致激活失败。同时,也要注意下载安装KMSpico的来源,避免下载到不安全的版本,以免被恶意软件感染。
需要提醒的是,使用盗版软件存在法律风险,并且不能得到官方软件的技术支持和更新服务。因此,建议用户购买正版授权,以获得更好的软件体验和服务。
总之,KMSpico是一款方便实用的激活工具,可以帮助用户免费激活Windows和Office等软件,但也需要用户注意安全问题和法律风险。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)