利用Apache+PHP+MySql构建数据仓库.doc_第1页
利用Apache+PHP+MySql构建数据仓库.doc_第2页
利用Apache+PHP+MySql构建数据仓库.doc_第3页
利用Apache+PHP+MySql构建数据仓库.doc_第4页
利用Apache+PHP+MySql构建数据仓库.doc_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用ApachePHPMySql构建数据仓库牡丹江师范学院(自然科学版)2005.1$JJApache+PHP+MySql构建数据仓库木楚飞舟心J/(牡丹江广电集团牡丹江157000)数据仓库是把一个单位的历史数据收集到一个中央仓库中以便于处理,是支持决策过程,面向主题,随时问而变,持久的数据集合.调查研究表明,大多数企业并不缺乏数据,而是受阻于过量的冗余数据和数据不一致.而且它们变得越来越难于访问管理和用于决策支持,信息中心面临着开发决策支持应用的需求被大量积压,所要开发的应用变得越来越复杂和耗费人力,数据仓库正是解决这一矛盾的工具.近年来,WWW成为当今网络上的信息主体,它是一个巨大的数据源,因此,人们自然产生了将www和数据仓库相互转换的需求,并形成了当前Web数据库的研究热点.1安装并设置程序安装相关软件PHP4.3.5,mysql4.0.17,Apache.1.1编辑php的配置文件php.ini文件.修改相应信息extensiondir=c:winntksystem32mysq1.defaulthost=localhostmysq1.dcfaultuser=rootmysq1.defauh_password=1.2修改Apache的配置文件httpd.confScriptAlias/php4,”C:/PHP4/”AddTypeapplication/x-httpdphp.php3AddTypeapplication/xhttpdphp.phpAdd1)peapplication/x-httpd-php.phtmlActionapplication/x-httpd-php”/php4/php.exe到此,安装完毕,运行apache:exe,注意运行结果和提示信息.W_Warehouse数据仓库原型目前市场上的数据仓库产品解决了从关系型数据库和一些文件系统中获取数据.但是,还没有一个数据仓库系统很好地解决从web中提取数据的问题.W_Warehouse是一个在Windows平台上,用ViscualC+开发的.W_Warehouse的特点及难收稿日期:2004-1019点都在于从Web中提取数据.目前W_Warehouse支持从SQI_Server及Web中获取数据.Visualc+十的MFC类库可以通过ODBC(开放数据库链接)和ODBC驱动程序访问数据库.而通过Winlnet类可以编写使用Http协议从网络数据源(服务器)访问信息的Internet客户应用程序.各模块的功能:2.1WrapperWrapper将查询转换为数据源系统可以理解的命令或查询,并将得到的原始的结果数据翻译为数据仓库中HBase的数据格式.对每一种数据源需要不同的Wrapper,因为Wrapper的功能依赖于数据源的类型.对于运作数据库系统(如:SOLServer),Wrapper的功能是将查询转化为在运作环境中的查询,并将数据从运作数据库中的数据模型翻译成数据仓库中的数据模型.2.2ViewSpecifierViewSpecifier的功能是提出查询,指出Web页中感兴趣的数据及其关系模型的定义.Wrapper根据ViewSpecifier所定义的视图提取及翻译数据.Wrapper根据定义的视图提取数据,放入.WDB数据文件.目前在WWarehouse中用图形界面的形式实现视图定义.2.3LoaderLoader将Wrapper获取的数据文件转化为HBase中的DBF数据库文件,装载到数据仓库.在装载从不同数据源获取的数据时,Loader还有集成数据的功能.3Wrapper算法在W-Warehouse中,Wrapper根据ViewSpecifier定义的视图提取web中相关数据,由机器来确定哪些是用户感兴趣的数据.采用机器学习中基于例子进行学习的方法,给Wrapper输入Web中的数据作为训练的实例,Wrapper通过学习获得该页中用户感兴趣的数据的格式描述,然后用模式匹配的方法将此Web页中所有满足(自然科学)2oo5.i牡丹江师范学院?23?此格式描述的数据提取出来.对于不同Web的页,根据视图定义及训练实例,Wrapper均可提取出用户感兴趣的数据,这一点对于不断增加,变化的web页是非常有意义的.3.1对HTML文本预处理HTML文件中没有明确的标记表示数据的结构,结构隐含于标签中.预处理的目的是利用标签将文本划分为逻辑上的行.各个Web站点的文档结构各不相同,体现结构所用的标签也不同.例如,在一些文本中用<BR>表示新的一行的开始,而在另一些文本中用<P>表示新的一行的开始.针对标签的特点,该算法定义了两级分隔符,首先利用第一级分隔符分隔文本,若所得到的行的长度大于5O个字符,则用第二级分隔符继续分隔此行.分隔符不是固定的,针对一些特殊的页面可以修改,增加,删除.经过预处理后,HTML文本被分为行,放人数组strLine中.3.2LearnerViewSpecifier以图形界面的方式要求用户输入有关视图的定义,包括属性名称,数据类型,数据长度.接着用户输入符合此视图定义的一条记录作为Leamc:的训练实例.Learner在strLine-中找到例子数据所在的行,并产生其行描述LineDes.LineDes是通过移去标签中的参数并用变量代替所有出现的自由格式文本而产生.4W_Warehouse中的数据组织wWarehouse中的数据按照决策的需要组织成不同主题的数据仓库表.为了易于OLAP,DSS等数据仓库用户的操作,WWarehouse构造了多维结构的汇总表.在W_Warehouse中还有对数据仓库所有组成单元的解释性数据无数据.环境主题表1主题裘n汇总裹1汇总裘n(关系模型)(关系模型)(多维模型)(多维模型)卜一源数据描述文件卜一Wmpp”产生的元数据_一Loadea”产生的元数据LHBase中的元数据目前数据仓库的研究已经越过了初期的模型研究阶段,数据仓库与WWW的结合是一项方兴未艾的热点技术.在Web数据仓库实现方面仅仅是探索和尝试,在数据的组织及加工方面还需要进一步的研究.参考文献1唐常杰,张天庆,魏志毅,周韬擞据库管理系统内部结构及其C话善实现【.西安:电子科技大学出版社,19952HinderS.Gill数据仓库客户/St务器计算指M】一E京:清华大学出版杜,1997嫡辑:文心硬盘不能启动的原因分析及处理丰初秀娟(黑龙江省绥化学院绥化152061)在使用计算机的过程中,很多用户都遇到过H,算机无法启动的情况引起系统启动故障硬盘引导型故障一般在启动时出现,有呵的原因有很多种,而其中跟硬盘相关的问题特能是系统本身的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论