数据仓库1实验报告.doc

上传人：飞*** IP属地：河南上传时间：2020-04-12 格式：DOC 页数：18 大小：1.09MB 积分：12 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

甘肃政法学院本科生实验报告（一）姓名:学院:计算机科学学院专业:11级信息管理与信息系统班班级:11级信管一班实验课程名称: 数据仓库与数据挖掘实验日期: 2013年 4月26日指导教师及职称: 实验成绩:开课时间：20122013学年第二学期甘肃政法学院实验管理中心印制实验题目weka软件的安装与使用小组合作否姓名班级信管一班学号一、实验目的1、掌握在Eclipse下安装Weka的步骤。2、掌握Weka的运行环境以及各个界面的含义。3、掌握在Weka下如何打开相应的文件并作出简单的操作。二实验环境Windows 7电脑一台三、实验内容与步骤1、在Eclipse下新建一个java项目,点击完成图1_1图1_22、选中Weka项目，单击右键选择新建“source folder”文件夹，单击完成图2_1图2_23、把解开压缩的源文件目录，即weka目录，在资源管理器中拖入到src目录中图3_1图3_2图3_34、打开weka.gui包，找到GUIChooser,并运行所得截图如下图4_15、打开WEKA，首先出现一个命令行窗口。原以为要在这个命令行下写java语句呢，不过稍等一秒，WEKA GUI Chooser的出现了。这是一个很简单的窗体，提供四个按钮：Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple CLI应该是一个使用命令行的界面，有点像SAS的编辑器；Explorer是则是视窗模式下的数据挖掘工具；Experimenter和 KnowledgeFlow的使用有待进一步摸索.图5_1（1） Explorer 使用 WEKA 探索数据的环境。在这个环境中，WEKA提供了数据的预处理，数据格式的转化（从CSV格式到ARFF格式的转化），各种数据挖掘算法（包括分类与回归算法，聚类算法，关联规则等），并提供了结果的可视化工具。对于一个数据集，通过简单的数据的预处理，并对数据挖掘算法进行选择（在WEKA3.5版本之后，加入了算法的过滤功能，可以过滤掉那些不适合当前数据集类型的算法），接着通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可视化和对部分结果的可视化，并且我们可以通过属性选择工具(Select Attribute)，通过搜索数据集中所有属性的可能组合，找出预测效果最好的那一组属性。Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后，可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征，如含有多少属性，各属性的一些简单统计量，右下方还给出一些可视化效果图。这些都是比较直观的分析，如果想发现隐藏在数据集背后的关系，还需要选择Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后，点击Start按钮，就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。（2）Experimenter 运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以让用户创建，运行，修改和分析算法试验，这也许比单独的分析各个算法更加方便。例如，用户可创建一次试验，在一系列数据集上运行多个算法（schemes），然后分析结果以判断是否某个算法比其他算法（在统计意义下）更好。Explorermenter主要包括简单模式，复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充，而远程模式允许我们通过分布式的方法进行实验。就功能模块而言，分为设置模块，运行模块和分析模块。在设置模块中我们可以自定义实验，加入多个算法和多方的源数据（支持ARFF文件，CSV文件和数据库），在运行模块中我们可以运行我们的实验，而在分析模块中，我们可以分析各种算法的的准确性，并提供了各种统计方法对结果进行检验比较。值得一提的是，我们可以把实验的各种参数，包括算法，数据集等，保存以方便下一次相同实验的进行；也可以把各种算法保存，方便应用在不同的数据集上；如果数据集来源于数据库的话，实验在过程中可以中止并继续（原因可以是被中止或者是扩展了实验），这样就不用重新运行那些已实验过的算法/数据集祝贺，而仅计算还没有被实验的那些。（2）KnowledgeFlow Explorer的一个不足在于，当用户打开一个数据集时，所有数据将全部被读入到主存当中，随着任务规模的增大，普通配置的计算机很难满足要求。Knowledge Flow提供了一个用于处理大型数据集的递增算法，专门处理这一问题。这个环境本质上和 Explorer所支持的功能是一样的，但是它有一个可以拖放的界面。它有一个优势，就是支持增量学习（incremental learning）。KnowledgeFlow 为WEKA 提供了一个数据流形式的界面。用户可以从一个工具栏中选择组件，把它们放置在面板上并按一定的顺序连接起来，这样组成一个知识流（knowledge flow）来处理和分析数据。目前，所有的WEKA 分类器（classifier）、筛选器（filter）、聚类器（clusterer）、载入器（loader）、保存器（saver），以及一些其他的功能可以在KnowledgeFlow 中使用。KnowledgeFlow 可以使用增量模式（incrementally）或者批量模式（inbatches）来处理数据（Explorer 只能使用批量模式）。当然对数据进行增量学习要求分类器能够根据各实例逐个逐个的更新现在WEKA 中有五个分类器能够增量地处理数据：NaiveBayesUpdateable，IB1，IBk，LWR（局部加权回归）。还有一个meta 分类器RacedIncrementalLogitBoost 可以使用任意基于回归的学习器来增量地学习离散的分类任务。（4）SimpleCLI提供了一个简单的命令行界面，能通过键入文本命令的方式来实现其他三个用户界面所提供的所有功能，从而可以在没有自带命令行的操作系统中直接执行 WEKA 命令。使用命令行有两个好处：一个是可以把模型保存下来，这样有新的待预测数据出现时，不用每次重新建模，直接应用保存好的模型即可。另一个是对预测结果给出了置信度，我们可以有选择的采纳预测结果，例如，只考虑那些置信度在85%以上的结果。6、导入已处理好的天气数据图6_1我们用“Explorer”打开训练集“Fund-data-normal.arff”，。切换到“Classify”选项卡，点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。树型框下方有一个“Filter.”按钮，点击后勾选“Binary attributes”“Numeric attributes”和“Binary class”。点“OK”后回到树形图，可以发现一些算法名称变灰了，说明它们不能用。选择“trees”下的“J48”，这就是我们需要的C4.5算法。点击“Choose”右边的文本框，弹出新窗口为该算法设置各种参数。我们把参数保持默认。选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快，用文本表示的一棵决策树以及对这个决策树的误差分析结果出现在右边“Classifier output”中。如图所示。图6_2用“Explorer”打开刚才得到的“Fund-data-normal.arff”，并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”，这是WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters”为6，说明我们希望把这734条实例聚成6类，即K=5。下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。选中“Cluster Mode”的“Use training set”，点击“Start”按钮，观察右边“Clusterer output”给出的聚类结果。如图所示。图6_37、关联规则我们打算对前面的“Fund-data-normal”数据作关联规则的分析。用“Explorer”打开“Fund-data-normal.arff”后，切换到“Associate”选项卡。默认关联规则分析是用Apriori算法，我们就用这个算法，但是点“Choose”右边的文本框修改默认的参数。从网上获得的Apriori有关知识：对于一条关联规则L-R，我们常用支持度（Support）和置信度（Confidence）来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R)，而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是Lift（提升度？）： P(L,R)/(P(L)P(R) Lift=1时表示L和R独立。这个数越大，越表明L和R存在在一个购物篮中不是偶然现象。Leverage（不知道怎么翻译）：P(L,R)-P(L)P(R) 它和Lift的含义差不多。Leverage=0时L和R独立，Leverage越大L和R的关系越密切。Conviction（更不知道译了）：P(L)P(!R)/P(L,!R) （!R表示R没有发生）Conviction也是用来衡量L和R的独立性。从它和lift的关系（对R取反，代入Lift公式后求倒数）可以看出，我们也希望这个值越大越好。值得注意的是，用Lift和Leverage作标准时，L和R是对称的，Confidence和Conviction则不然。现在我们计划挖掘出支持度在10%到100%之间，并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1，“metricType”设为lift，“minMetric”设为1.5，“numRules”设为10，其他参数不变。点击“start”见图7-1. 图7_1我们也可以利用命令行来完成挖掘任务，在“Simlpe CLI”模块中输入如下格式的命令：java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d: fund-data-normal.arff即可得到如图7_2的结果。图7_28、属性分析用“Explorer”打开刚才得到的“Fund-data-normal.arff”，并切换到“Selectattributes”。点“Attribute Evaluator”中的“Choose”按钮选择“ClassifierSubsetEval”，点“Search Method”中的“Choose”按钮选择“RaceSearch”。在“Attribute Selection”中选中“Cross-validation”项，参数默认Folds=10和Seed=1。点击“start”，如图所示。图8_19、可视化分析用“Explorer”打开刚才得到的“Fund-data-normal.arff”，并切换到“Visualize”。如图所示。图9_1四、实验过程与分析这次实验主要是熟悉并学会weka的安装以及他的环境，以便于以后进行试验时能熟练的进入环境并进行操作。Weka的安装虽然比较简单，但是不熟悉如何操作，虽然花费了大量的时间进行练习学习但也只是学会了基本的操作对其中主要的操作还是不太清楚和熟练，这是需要及时掌握的。五、实验总结以上实验只是对券商的基金某一个时段交易业务数据做了一些分析，通过本次数据挖掘实验，重新学习了一下数据挖掘的相关概念和知识，理解了数据挖掘的用途和使用步骤；进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。并且对WEKA的分类与回

人人文库> 全部分类> 应用文书 > 规章制度

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库1实验报告.doc

文档简介

温馨提示

最新文档

评论

数据仓库1实验报告.doc

文档简介

温馨提示

最新文档

评论

相关文档