智能信息获取技术实验指导书_第1页
智能信息获取技术实验指导书_第2页
智能信息获取技术实验指导书_第3页
智能信息获取技术实验指导书_第4页
智能信息获取技术实验指导书_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、智能信息获取技术实验指导书实验一一、实验名称:基于Naivea的信息获取二、实验目的:通过一个已有的训练数据集,观察训练集中的实例,,建立ae网络的预测模型,更好地理解和掌握ae算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。三、实验要求1熟悉e平台2掌握Naivea算法、对数据进行预处理,利用e和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。四、实验平台新西兰怀卡托大学研制的e系统五、试验数据i使用银行对资产进行评估的数据andaa,数据里有个属性,ara分别是idaeex,region,income,married,ch

2、ildrenrrenar共a个实例para2将含有个实例的“andaa”文件中取出个实例用做训练集,在另外个实例中取个作为待预测的实例。3本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?表示。六、试验方法和步骤1、数据准备()将原来的“andaa文V牛转化为ar文件“andaavar()“ID”属性不需要的去掉。()把“Children”属性转换成分类型的两个值“YES”和“NO”。()将“andaa”v文件的条数据中前条数据作为训练数据集,并保存为文件。()从后条数据里抽取条数据作为测试数据集,它们的“pep”属性都设为缺失值,并保存为文件。2、训练过程(1)用“pl

3、orer打开训练集,观察一下它是不是按照前面的要求处理好了。()切换到“Classify”选项卡。()点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。树型框下方有一个“Filter.”按钮,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型即只有两个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binaryattributes”“Numericattributes”和“Binaryclass”。()点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能选用。()点击“Choose

4、”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。()看左中的“TestOption”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfittin)的现象,我们有必要采用10折交叉验证(10folcCrossvalidation)来选择和评估模型,选上“Crossvalidation”并在“Folds”框填上“10”。()点“Start”按钮开始让算法生成Bayes模型。这个模型的误差分析等等结果将出现在右边的“Classifieroutput”中。同时左下的

5、“Resultslist”出现了一个项目显示刚才的时间和算法名称。()右键点击“Resultslist”刚才出现的那一项,弹出菜单中选择“Visualizetree”,可以看到可视化结果。、测试过程(1)注意待预测数据集和训练用数据集各个属性的设置必须是一致的。()在“TestOpion”中选择“Suppliedtestset”,并且“Set”成要应用模型的数据集,这里是“banknew.arff”文件。()右键点击“Resultlist”中刚产生的那一项,选择“Reevaluatemodeloncurrenttestset”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上

6、表现将如何。我们的lass属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。()点击右键菜单中的“Visualizeclassifiererrors,将弹出一个新窗口显示一些有关预测误差的散点,点击这个新窗口中的“Save”按钮,保存一个rff文件。(5)打开这个文件可以看到在倒数第二个位置多了一个属性(reice),e这个属性上的值就是模型对每个实例的预测值,点“”按钮可以查看这个数据集的内容。七、通过实验,要求同学在贝叶斯信息获取实验中解决以下问题,并递交完整的实验报告1、在数据预处理中,通过转换与否的实验比较,判断是否一定要把“订”属性转换成分类型的两个值“”

7、S“”。2在算法选择时点击“oose按钮后可以看到哪些分类的算法分门别类的列在一个树型框里将些数据截图在实验报告中进行详解。、点击“oose右边的文本框,弹出新窗口为该算法设置各种参数。点“ore查看参数说明,点“aaili”i查看算法适用范围。请在实验报告中详解的参数设置情况。4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:出现在“lassifierou中的模型准确度等将这些数据截图在实验报告中进行详解。5、如果你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?6通过点击“esulsli并选择可视化在图形模式中打开你的模型并将它截图,在实验报告中显示你的实验结果。实验二一

8、、实验名称:基于关联规则的信息获取二、实验目的:通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。三、实验要求i熟悉e平台2掌握关联规则算法、对数据进行预处理,利用e和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。四、实验平台新西兰怀卡托大学研制的e系统五、实验数据1使用银行对资产进行评估的数据,数据里有个属性,分另I是ieeeiimemieileem共个实例。pep2本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?

9、表示。六、实验方法和步骤i打开界面如下:界面中有四个选择SimpleCLCplepeimee。哦们ge择lpl进行实验。文件格式转化为的方式。2选择pl选项,选择pe:打开数据,打开可以看见数据中的属性,选择属性从右边可以看到它的取值范围)CS换成格式将CS转换为最迅捷的办法是使用所带的命令行工具。运行的主程序,出现后可以点击下方按钮进入相应的模块。我们点击进入“SimpleCLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上javaweka.core.converters.CSVLoaderfilename.cs即可完成转换。在EA中提供了一个“ArffViewer”

10、模块,我们可以用它打开一个文件将进行浏览,然后另存为A文件。进入“Explorer”模块,从上方的按钮中打开文件然后另存为A文件亦可。)x换成A格式用exel打开用键分开的x文件然后另存为在用wei打开另存为rfof、进行数据过滤选择il中的ire方法,点击Appl,先对A文件进行离散化:用lrEd其进行编辑:rieilree改i为:riitere然后用ire算法对和ioe离散化,并删掉i项因为它对关联规则分析无影响,保存文件。4选择Aoi项中的Apriori算法分析进行关联信息获取,并进行参数设置,七、通过实验,要求同学在关联规则信息获取实验中解决以下问题,并递交完整的实验报告对于非xl格式

11、的数据如何转换成A数据类型请给出你了解到的几种数据类型到A的转换方式在算法出来的lif排前的规则中如ES1rreicaomcet=Eaxlecone=52_maxsaveconf:()0.5l4ift请说明其中of都表示什么含义请说明其中of都表示什么含义?请问:通过在左下方“elli”列出的结果上右击,点“Vili,eleri”f弹出的窗口是否能给出实例完成后的可视化结果,如果有,请截图,并在实验报告中给出详解实验三一、实验名称:基于聚类分析的信息获取二、实验目的:通过一个已有的训练数据集,观察训练集中的实例,进行聚类信息获取,更好地理解和掌握聚类分析算法基本原理,建立相应的预测模型,然后对

12、新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。三、实验要求i熟悉eka平台2、掌握聚类分析算法3对数据进行预处理,利用eka和不同参数设置进行聚类分析,对比结果,得出结论,对问题进行总结。四、实验平台新西兰怀卡托大学研制的eka系统五、实验数据save_ac1使用银行对资产进行评估的数据bankdata.ar,数据里有个属性,分别是idaesexreinincearriedchildrencarsave_accrrentactrta共e个实例。2本测试集中将e属性作为分类的目标类别,因此将其设为缺失值.缺失值用?表示。六、实验方法和步骤1首先对于原始数据做预处理。把“bankda

13、ta.xls”格式数据转换为“bankdata.csv”,并删去属性“id”,保存为格式后,修改属性“children”为分类型。这样得到的数据文件为“bankdata.ar”,含条实例。具体操作如下。()将xls格式文件转化为csv格式文件。打开bankdata.xls,另存为csv格式的文件,并命名为bankdata接着将文件,转换为格式文件bankdata,ar。()删去属性“id”,保存为格式;用ltradi打开bankdata.ar文件修改属性“children”为分类型.把attribtchildren然1后,然1后,保2存,即3可2用ek打开bankdata.arf文件,进行相应

14、设置后开始分析。()用“Explorer打开刚才得到的“bankdata.arff,并切换到“Cluster。点“Choose”按钮选择“SimpleKMeans”,这是EK中实现K均值的算法。点击旁边的文本框,修改“numClusters”为,说明把这条实例聚成类,即K。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。设它的值为()选中“ClusterMode的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果。也可以在左下角“Resultlist”中这次产生的结

15、果上点右键,“Viewinseparatewindow”在新窗口中浏览结果。、实验分析()首先我们注意到结果中有这么一行:ithinclustersumofsuarederrors:1,04.741,93522332这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结果。例如我们让“seed”取,就得到ithinclustersumofsuarederrors:1555.,241507这,样2就9选2择1后8面,这个。当然再尝试几个seed

16、这个数值可能会更小。(2接下来“Clusterentroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Stdevs()最后的“ClusteredInstances”是各个簇中实例的数目及百分比。()观察可视化的聚类结果,我们在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,它们分别代表实例的位置和年龄属性第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。()可以在这里点“Save”把聚类结果保存成R文件。在这个新的RCluster属性表文件中,“instance_number”属性表示某实例的编号,Cluster属性表七、通过实验,要求同学在聚类分析信息获取实验中解决以下问题,并递交

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论