SAS与科研数据处理方案研讨.ppt_第1页
SAS与科研数据处理方案研讨.ppt_第2页
SAS与科研数据处理方案研讨.ppt_第3页
SAS与科研数据处理方案研讨.ppt_第4页
SAS与科研数据处理方案研讨.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS与科研数据处理,河南科技学院生科院2007.07.27,报告提纲:,1.SAS公司简介2.SAS主要技术架构3.SAS语言和运行环境4.SAS常用科研数据的处理方法5.SAS常用资源,SAS公司简介,SAS(StatisticalAnalysisSystem)公司的用户包括财富500强中的96%企业以及福布斯100强中的98家企业;SAS被誉为全球数据分析专家,具有被广泛认知的权威性,多次赢得行业顶级大奖;SAS一直被公认为是具有行业优势的、分析标准软件的首选。SAS是全球最大的私人软件公司。排名第九位的独立软件商SASSPSSSplusSTATA等但唯一美中不足的是该软件价格太昂贵,不是一般学校和企业所能承受的.,SAS公司简介之SAS的历史,1976年在北卡罗莱纳州卡瑞市创立SAS软件研究所(SASInstitute)与IBM建立合作伙伴关系第一个产品:BaseSAS软件上市,SAS公司简介之SAS的历史,1981年SAS软件的销售额为每月150件产品3,000多个软件安装点上安装了SAS软件1983年亚洲第一家分公司在新加坡成立,SAS公司简介之SAS的历史,1985年与Hewlett-Packard建立合作关系在日本大阪和香港地区成立分公司第一个PCDOSSASSystem版本(BaseSAS和SAS/RTERM软件)取得成功,SAS公司简介之SAS的历史,1986年SAS软件研究所收购Lattice有限公司与微软公司建立合作关系统计数据质量改进成为最新的SAS软件(SAS/QC软件)的主要应用面向个人计算机的SAS/IML和SAS/STAT软件上市,SAS公司简介之SAS的历史,1989年在比利时、加拿大和台湾地区成立分公司办事处1990年与Intel建立合作关系在中国、韩国、菲律宾、西班牙和瑞士成立分公司,SAS公司简介之SAS的历史,1990年与Intel建立合作关系在中国、韩国、菲律宾、西班牙和瑞士成立分公司1995年面向Windows95、WindowsNT和UNIX的Orlando(SASSystem6.11版本)上市,SAS公司简介之SAS的历史,1997年SAS收购生命科学统计软件StatViewSAS在WorkingMother杂志的“BestCompaniesforWorkingMothers”评比中排名前10位(连接第9年上榜和第5次排名前10位)在Fortune杂志的“美国100强公司”评比中排名第3;在BusinessWeek的“BestCompaniesforWorkandFamily”名单中排名第四,SAS公司简介之SAS的历史,1999年SAS在Fortune杂志的“美国100强公司”名单上位列第三2000年SAS在Fortune杂志的“美国100强公司”名单上位居次席,SAS公司简介之SAS的历史,2006年,SAS年收入为19亿美元,继续保持每年收入和利润的持续增长。为支持新技术的开发,SAS还将年收入的26%投入研发,该投入是一般大型软件公司平均投入研发资金的两倍。,目前最新版本:2005年推出SAS9.1.3,现在,SAS客户:遍布112个国家总客户数:42,000装机点按行业划分的全球客户群企业:商业:73.3%;教育机构:16.8%;政府部门:9.9%SAS客户:2004财富500强企业位列前100家公司中的97家2003财富全球500强企业位列前100家公司中的96家2003福布斯超级100强企业中的97家,2SAS主要技术架构,1分析智能2商业智能3数据仓库,分析智能,考虑到即将制订的高风险、战略性决策的日益增加,企业需要的不仅仅是信息,它还需要更多。它们需要推动企业智能化的洞察力。SAS分析智能提供无与伦比的功能,帮助您将数据转变成富有见地的资讯,从而您能够解决跨所有行业和职能领域的问题。,分析智能,除了其它商务智能供应商谈论的钻入、排序、过滤和排列等“分析”之外,SAS还通过以下功能提供真正的分析能力,如预测性和描述性建模、预测、模拟和优化。SAS分析智能提取基本信息,区别重要的信息和无关紧要的信息,从而帮助用户迅速确定重要的信息,快速、自信地做出明智的决策。无论结构如何复杂或涉及的数据量有多大,SAS都堪称是解决问题和开辟新机会的分析环境的首选。,分析智能,使用SAS分析智能,您可以:减少欺骗最大限度地降低投资组合风险预测产品和服务需求优化产品组合规范优价战略改进产品和服务质量确定重要的客户及有可能发展为重要的客户,提高客户满意度简而言之,SAS分析智能提供优质的信息资讯和深邃的洞察力。在SAS分析智能的帮助下,您能够了解您的潜在目标及如何实现这一目标。,分析智能之数据和文本挖掘,通话数据、邮件订单地址、销售历史记录、POS数据、Web交易、甚至无格式文本注释,如果您的企业可以充分挖掘和利用这类丰富的信息,潜力将是巨大的。数据挖掘将为您带来无限商机。,分析智能之数据和文本挖掘,数据挖掘技术一经推出就遥遥领先并受到行业专家和用户的一致好评。SAS最近增加了文本挖掘功能,这一功能使您能够迅速确定大文档集合中包含的重要信息,将基于文本的信息和结构化的数据集成起来,作为数据挖掘过程的有力延伸。,分析智能之数据和文本挖掘,那些目光远大的企业目前使用数据挖掘技术来减少欺诈、预测资源需求、增加购买和减少客户冲突。SAS屡次获奖的数据挖掘解决方案使您能够:确定和挽留最具盈利性的客户。使用人口统计数据和客户购买模式与客户建立长期合作关系,预测并满足客户需求。有针对性的细分市场。有针对性的开展市场推广活动,以显著增加客户响应率、分析clickstream数据和明确电子商务战略。预测未来需求和确定成功因素。通过提前预测故障来提高生产流程质量,预测资源需求、增加购买和了解客户信用应用风险。,分析智能之数据和文本挖掘,数据挖掘定义数据挖掘是使用大数据存储设备的数据甄选、探究和建模流程,以揭示未知的客户购买模式。这对您又意味着什么呢?您还可以基于从众多数据源收集的数据来建立真实世界模型,包括公司事务处理、客户购买记录和人口统计数据,然后您可以使用这一模型来开发支持决策制订和预测新业务商机的信息模式。借助于文本挖掘功能,您可以向文本文档应用此类分析。您还可以使用SAS丰富的文本处理和分析工具套件,发现大文档集合中包含的基本主题或概念、将文档分组到论题群中、将文档分类到预先定义的类中以及集成文本数据和结构数据来增强预测建模流程。,分析智能之数据和文本挖掘,数据挖掘遍及各行各业和企业职能部门电信、证券交易所、信用卡以及保险公司使用数据挖掘技术来检测欺诈、优化市场推广活动和开发最可盈利的战略。医疗行业使用数据挖掘技术来预测外科手术、体检和药物治疗的效率。零售商使用数据挖掘技术来评估优惠券和优价活动的效果,以及预测不同的客户需要什么样的产品。,分析智能之预测和计量经济学,今天,日趋激烈的竞争环境迫使企业高效运行,不仅仅是日常工作,还包括未来规划。竞争优势要求的不仅仅是评估和推测迄今为止,只有业务专家可以帮助您实现这一目标。为了实现企业成功和持续增长,您需要准确的未来描述和可靠描述市场因素影响的能力。对于战略商业规划来说,您必须能够建模和仿真任何商业流程,以及影响这些流程的因素,无论它多么复杂!借助于SAS预测技术,您可以准确分析和预测未来将部署的流程。您可以确定以前未发现的动态和预见市场波动,从而您可以更有效地规划未来。影响您业务的因素,如经济、市场条件、客户人口统计数据、营销活动等都可以确定、量化和包括在您的预测流程中,以改进结果。,分析智能之预测和计量经济学,SAS软件提供广泛的集成功能,包括时间序列分析和预测、计量经济学和系统建模、财务分析和报告以及商业财务数据库的直接访问。借助于SAS的强大功能,您可以:预测产品和服务需求运行促销分析预测员工和资源需求运行场地选择分析做出有效的计价决策规划和了解市场预测客户和市场行为分析投资意向,分析智能之预测和计量经济学,SAS软件提供众多业务流程建模的方式和“what-if”分析的强大机制。您可以仿真复杂的业务流程和测试大量的环境,从而为您提供在实施之前评估和精简建议的策略的安全方法。无论您是希望了解过去的动态、预测未来还是洞悉您的业务如何运行,SAS都提供广泛的分析工具来确保您成功。,分析智能之预测和计量经济学,研究历史数据以获得洞察力。借助于历史数据的图形和分析研究功能,您可以发现和量化以前未检测到的趋势。随着时间的推移深入了解发生的一切。从海量数据迅速、自动的生成大量准确的预测结果。迅速、自动、准确的生成数千,甚至数百万个预测结果。每个预测结果使用统计优化的参数进行单独计算,从而您可以确信您的预测结果是最新的和准确的。使用预测结果来推动战略规划。,分析智能之预测和计量经济学,通过为分析家提供解决任何预测问题的能力,预测中无需进行任何推测。SAS/ETS软件包含流行的预测方法,如衰减分析、动态研究、指数平滑法、Winter方法(加乘法)、RIMA(Box-Jenkins)和动态或转移功能模式。对于多变量时间序列的预测来说,SAS提供VARMAX和一般的状态空间模式。通过交互界面帮助预测新手获得优质结果,它还包括为经验丰富的分析人员提供的强大工具。通过从候选模式清单中选择最合适的预测模式,SAS/ETS时间序列预测系统可以自动生成预测结果。对于经验丰富的预测人员来说,我们还提供创建定制模式的开发工作区。该界面还允许用户使用交互式图形工具轻松的研究图形和结果。,分析智能之预测和计量经济学,仿真业务流程以实现战略性预测和规划。用户可以仿真复杂的系统和流程和测试大量的环境,从而可以评估和提出建议。通过“假设”分析获得强大的洞察力。分析投资意向的价值。我们的交互式投资分析系统提供贷款、储蓄、贬值、债券和其它投资的一般现金流表示的货币时间价值(time-value-of-money)分析。您可以分析投资意向的价值:时间价值、periodicequivalent、内部回报率、成本收益率和损益平衡分析。您可以通过其来证明任何资本投资项目的合理性。SAS可以独一无二地满足决策制订所有级别的预测和分析需求,从战术到战略,从短期到长期运行。无任何一家供应商可以提供如此完整的解决问题的论坛,对未来收集的数据进行分析。,分析智能之运筹规划和管理科学,战略规划是商业计划和整个组织机构成功的重中之重。但您如何对无数的因素和决策进行分类以确定将创造最佳成果的战略呢?借助于SAS运筹规划和管理科学解决方案,您可以获得回答每天发生的复杂的商业问题需要的知识。您可以从影响业务和流程的因素中获得更大的洞察力。您可以做出更明智的决策和获得最佳成果。,分析智能之运筹规划和管理科学,SAS优化和管理科学方法技术可以确定大量的商业问题,包括:资源分配和管理生产和库存规划产品组合员工分配配送、日程安排、调度和运输供应链管理和优化资本预算、资产管理和投资组合选择考虑预算和其它限制,确定最佳的客户产品渠道,分析智能之质量改进,自从W.EdwardsDeming强调统计分析在理解和解决问题方面的作用以来,质量改进成为了全球行业的主要议题。许多企业应用了统计技术,这些技术的应用已经融入到航空、汽车、电子、制药、半导体和其它制造工业当中。近几年来,银行、保险公司、政府机构和医疗保健企业也在探究统计方法,他们对改进客户服务的质量很感兴趣。,分析智能之质量改进,虽然目前市场上有很多质量改进工具,但只有SAS提供完整、全面、集成的数据分析平台。使用SAS的产品,您可以轻松访问任何数据源的数据、进行数据管理、运行统计分析、然后使用大量报表和图表来提交调查结果所有这一切在一个易于管理的软件环境中来进行。SAS分析平台的集成组件SAS/QC软件提供为整个企业中所有质量改进工作提供广泛的专业化工具,从设计实验和评估产品可靠性到监视流程稳定性和确定加工能力。由于SAS秉承了不断丰富其统计产品的优良传统,您可以获得最新的质量改进技术,不仅仅是今天,还包括未来。,分析智能之质量改进,了解流程和定位关键问题。SAS/QC中的动态图形环境使您能够轻松地为质量改进工作分配优先级。基于一组质量问题或根据多个变量权利分类的Pareto表使您能够迅速确定需要重大改进工作的原因。均值分析技术允许您对众多部门的响应指标进行图形化比较,以确定相互之间的差异。,分析智能之质量改进,建立控制和减少变化。您可以使用大量的控制图来监视流程数据,包括Shewhart表研究流程变化最流行的方法。您可以重复使用前面分析创建的控制门限、根据变化的样本大小来自动调整控制门限和由于特殊的原因运行测试(WesternElectric规则,运行测试)。您还可以对均值或单个测度创建累积总量控制图,生成均匀或指数级加权地移动平均数的控制图并生成历史记录控制图来显示未来的流程演进。,分析智能之质量改进,确定加工能力。在建立了统计控制之后,计算能力指数和使用柱状图(使用规格限制和拟合的曲线来叠加)、分位数-分位数图和概率图来确定您的产品满足设计规范的情况。,分析智能之质量改进,设计实验以改进产品或工艺。ADX界面指导您完成整个设计和分析统计实验流程。您可以创建因素、部分因素和混合水平设计,使用或不使用区组。对于标准设计并不适应的环境,您可以构建A-、G-和D-优化设计。,分析智能之质量改进,评估产品可靠性。了解产品或部件故障风险有助于未来产品保修计划的标准化和计划维护措施,以确保优秀的客户体验。可靠性工程师和统计人员可以利用正确和定期检测的数据来创建概率图和拟合生命分步、拟合回归模型,包括加速生命检验模型和分析可修复系统中重现的数据。,分析智能之统计分析,目前的竞争环境使得制订明智的决策和成功之间的关联比以往任何时候都更重要。从公司和政府部门到研究机构和大学,越来越多的企业求助于统计分析来指导决策制订流程。使用最佳的统计技术可以提供新的信息,这一功能有助于改进流程、推动开发和创收、帮助您维系重要和满意的客户。虽然目前市场上有众多统计分析工具,但只有SAS提供完整、全面和集成的数据分析平台。SAS广泛的统计功能可以满足整个企业的需要。,分析智能之统计分析,使用SAS的产品,您可以轻松访问任何数据源的数据、进行数据管理、运行统计分析、然后使用大量报表和图表来提交调查结果所有这一切全在一个易于管理的软件环境中来进行。SAS产品使您能够评估多个数据源的数据,包括临床试验、营销数据库、健康调查、客户喜好研究、股票市场研究等,而且SAS技术为跨越各行各业的应用提供综合的统计技术:确定半导体制造流程中的关键因素进行市场调研,以确定客户喜好和选择新服务模式采用统计抽样技术来生成公众意见测验结果使用空间统计数据来描述大气污染基于一系列新的种子来评估早期调研结果客户行为建模,为新的电子商务工作确定潜在的目标市场从传统的方差分析到精确的方法和统计可视化技术,SAS提供功能强大的工具来满足专业化和企业级分析需要。由于SAS秉承了不断丰富其统计产品的优良传统,您可以获得最新的质量改进技术,,分析智能之统计分析,SAS分析平台的完整组件SAS/STAT提供广泛的统计功能和工具,以满足专业化和企业级分析需要。立即可用的过程步处理广泛的统计分析,包括方差分析、回归、分类型数据分析、多变量分析、生存分析、心理测量分析、聚类分析和非参数分析。SAS致力于丰富其统计产品,以保持与不断发展的统计方法齐头并进,每个新的SAS/STAT软件版本都包括反映这一承诺的增强功能。,分析智能之统计分析,研究数据分析SAS/INSIGHT软件是利用可视化数据来揭示动态、发现外部信息和获得您通过其它分析方法无法得到的信息的动态工具。您可以通过多个窗口间广泛的交互式图形和分析来研究数据并描述数据分布和匹配解释模型。,分析智能之统计分析,矩阵编程语言SAS/IML软件在动态、交互式环境中为程序开发人员、统计人员和研究人员提供强大、灵活的矩阵编程语言。您可以使用SAS来进行数据操作和统计分析,然后采用SAS/IML矩阵语言来进行更专业的分析和研究。,分析智能之统计分析,矩阵编程界面SAS/IMLWorkshop是SAS/IML软件的扩展,它是一个图形用户界面,允许用户使用标准统计图形和表格交互研究数据。SAS/IMLWorkshop提供集成的开发环境来编写、调试和运行SAS/IML程序。它还实施IMLPlus编程语言IML编程语言的增强版本。IMLPlus提供全新的语言特性,如调用SAS程序和外部C/Fortran/Java函数的能力。IMLWorkshop需要运行MicrosoftWindows操作系统的PC。,分析智能之统计分析,向导式数据分析SAS/LAB软件为工程和研究应用提供向导式数据分析,指导分析员了解可以用图形表示的基本统计分析方法。,分析智能之统计分析,市场分析市场分析应用为市场分析中常用的分析提供点击界面,如联合分析、离散选择分析和多维偏好映射。其它SAS统计组件SAS系统中的多个其它组件还提供统计支持。EnterpriseGuide是面向项目的Windows应用,旨在使统计人员、商业分析人员和SAS编程人员能够迅速访问大量SAS的分析功能。AnalystApplication提供SAS/STAT软件中基本统计功能的点击接入。SAS/QC软件提供统计质量改进工具,包括统计质量控制工具和实验设计界面。SAS/ETS软件包括经济和时间序列分析工具。SAS/OR软件提供广泛的优化方法以及大量的统计应用。,2商业智能,在机构为提高收益率和发展的努力中,为不断增长的商业用户,分析家和决策人提供更快更好的信息便成为压力。每一个人都要求在需要时获得可以信任的信息,来做出决策。SAS商业智能功能抓住SAS集成结构的优势,在正确的时间,给正确的人,以他们最习惯的格式发送准确,统一的企业信息。它也对SAS强大的分析功能开放,分析家和业务经理可以将过去的分析集成为准确的形式并预测未来。,3数据仓库,数据仓库在今天市场机遇瞬息万变的商业环境中,信息技术是企业取得成功的重中之重。IT部门的战略使命是提供有助于提高企业绩效的技术。处在企业商业战略中心的位置取决于能够在正确的时间向正确的人提供优质的信息。借助于SASDataWarehousing,您可以洞悉供应商、客户和整个组织机构的需求,为低风险开发战略眼光奠定基础。由于我们整合了行业最强大的ETL功能和集成的数据质量-其它供应商不能提供这一优势可以确保获得信息的完整性和准确性。灵活和可扩展的存储选件确保信息可以迅速、经济高效的向商业和分析应用传播。有了集成的数据仓库管理,您可以统一管理整个企业内的流程。SASDataWarehousing可以跨平台无缝运行,允许您充分利用现有的硬件、软件、数据和人力资源,将传统和非传统数据源集成到高度灵活、易于维护的环境中。对于提供价值和智能决策者应用的集成流程来说,我们提供准确和清理过的信息,供SAS智能架构的分析和商务智能功能使用。,三SAS语言和运行环境,系统组成:三十几个模块,如BASE,GRAPH,ETS,FSP,AF,OR,IML,SHARE,QC,STAT,INSIGHT,ANALYST,ASSIST,CONNECT,CPE,LAB,EIS,WAREHOUSE,PCFileFormats,GIS,SPECTRAVIEW,SHARE*NET,R/3,OnlineTutor:SASProgramming,MDDBServer,ITServiceVisionClient,IntrNetComputeServices,EnterpriseReporter,MDDBServercommonproducts,EnterpriseMiner,AppDevStudio,IntegrationTechnologies等,界面:三个基本窗口Editor编辑窗:在此编写SAS程序Log记录窗:记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色-错误绿色-警告兰色-正常)Output结果输出窗:统计分析的结果。Result窗口,Explorer窗口其他:keys窗、libname窗、options窗、var窗、dir窗(在command命令窗或命令行command=输入相应的命令可激活这些窗口),SAS会话窗口,程序编辑窗口,运行记录窗口,结果输出窗口,命令窗口,Results窗口,在命令窗口输入“keys”后情况,命令行,命令窗(条),SAS9.01中文界面的几个窗口,使用ToolsOptionsPreferences可修改的界面显示,或输出文件的格式等。在命令窗输入num并回车,可在编辑窗口中加入行号。SAS文件的扩展名*.sd2SAS数据集(6.12版)(必须以字母开头,长度不超过8位);8.0以上版为*.sas7bdat;*.sasSAS程序文件*.loglog窗口输出*.lstSAS结果文件,SAS语句以一个关键词开始,以分号(;)结束;dataa;inputx;cards;323544565;procprint;run;,SAS程序的基本结构,数据步:创建数据,过程步:调用数据分析过程,或Lines或Datalines,运行编辑窗内程序点击图标按功能键“F8”在命令行(窗)键入“submit”在Run下拉菜单中选“submit”所激活窗口(Editor、Log、Output)内容的保存在命令行(窗)键入file“路径文件名”点击图标在file下拉菜单中选“save”或“saveas”只有编辑窗口(edit窗)才能打开文件,常用的快捷键F4recall命令,用于editor窗,将前面提交的程序调回,可多次使用F5切换到editor窗;F6切换到log窗;F7切换到output窗F8submit命令Ctrl-E清除当前窗口的内容。editor窗被清除的内容不能用F4调回,SAS语言基础,dataa;inputx;cards;435465;procprint;run;,以关键词开始SAS语句;对于8.0以上SAS软件,这些关键词显示为蓝色;如果显示为红色,则可能的关键词无效或拼写错误,dataa;inputx;cards;435465;procprint;run;,1.所有SAS语句必须以“;”结束,dataa;inputx;cards;435465;procprint;run;,初学者最容易犯的错误就是不写分号。此时SAS将两个语句误认成一个语句(statement)。注意:(1)一个SAS语句可以写成两行或多行,如“dataa;”可写成dataa;(2)多个SAS语句可以写成简单的一行。如:“procprint;run;”,2.程序的结束,dataa;inputx;cards;435465;procprint;run;,3.数据集名与变量名,dataa;inputx;cards;435465;procprint;run;,数据集名称,变量名称,数据集名与变量名取名时可以是字母、下划线、数字,不能以数字开头,最多可以32个字符(SAS8.0以下软件的最大字符数为8个字符)字母可以大写、小写或大小写混合,因此Weight、weight、WEIgHT被SAS视为相同的变量。,4.变量的排列,dataa;inputx;cards;435465;procprint;run;,如果有多个变量,如Height、Weight、Age、Sex,Job则在SAS中排列为“inputHeightWeightAgeSexJob;”如果将以上变量用代号x1、x2、x3、x4、x5表示,则语句可写为:“inputx1x2x3x4x5;”或简写为:“inputx1-x5;”,5.输入数据的标识语句,dataa;inputx;cards;435465;procprint;run;,cards;或datalines;或lines;语句之后表示数据的输入即将开始。数据的变量名、变量的格式等在input语句中定义。数据输入结束,也必须采用分号结束。,数据步,dataa;inputx;cards;435465;procprint;run;,数据分析前,数据集必须被读入。读入数据方法:1.直接创建;2.Infile和input语句创建;3.对1.、2.数据进行简单编辑,创建新的变量等。,1.直接创建数据集,datachild;/*建立临时数据集child.sd2,自动放在saswork子目录下*/inputidx1$x2x3x4x5x6;/*指明要输入的变量,$为字符型变量*/cards;/*标志数据区开始,数据之间以一个或几个空格分隔*/1m3295.514.053.549.642m3592.013.052.041.613m3389.012.553.535.81254m176168.053.582.0100.14255f3091.011.048.035.39256f3391.011.547.044.98521f178163.051.079.087.42;/*标志数据区结束,分号必须单独一行*/run;,SAS中的常用变量类型数值型:不需特殊定义字符型:定义方式变量名$日期型:多种形式如:变量名mmddyy6.实际记录为距1960/01/01的天数输入格式可以是:09100409/10/04091004909102004其它数据库中的逻辑型、备注型变量在SAS中均为字符型变量。日期型变量转进SAS后一般也变为字符型变量。,dataa1;inputidx1$x2x3x4;cards;1m3295.52m3592.013.03m3389.012.5;procprint;run;结果:Obsidx1x2x3x411m3295.52.023m3389.012.5,dataa1;inputidx1$x2x3;cards;1m3295.52m3592.013.03m3389.012.5;procprint;run;结果:Obsidx1x2x311m3295.522m3592.033m3389.0,SAS数据集创建时存在的问题,dataesr;inputx;/*每读入一个记录后,数据指针保持原位不换行,继续读下一条记录*/cards;39865573108104;procmeans;run;结果:NMeanStdDevMinimumMaximum-26.50000002.54057973.000000010.0000000-,不分行符的使用,datachild;inputidx1$x2x3x4x5x6;cards;1m3295.514.053.549.642m35.13.052.041.613m3389.012.553.535.81254m176168.053.582.0100.14255f3091.011.048.035.39256f3391.011.547.044.98521f178163.051.079.087.42;procmeans;run;,缺失值的输入-以“.”表示,缺失值不进入分析,VariableNMeanStdDevMinimumMaximum-id7184.5714286194.96397711.0000000521.0000000 x2773.857142970.477960130.0000000178.0000000 x36116.250000038.241012089.0000000168.0000000 x4723.785714319.482593011.000000053.5000000 x5759.285714314.736171947.000000082.0000000 x6756.427142926.254044635.3900000100.1400000-,如从现有SAS文件“child”中读取数据,变成文件名为“school”的文件。dataschool;setchild;x=x3-x2;procprint;Run;,从现有SAS数据集中读取数据,前面所产生的文件都是临时文件,退出SAS后,这些文件将自动删除。为了将文件变成永久性数据集存储在磁盘上,可采用libname语句。libnameychf:/sasdata;dataych.student;setschool;run;,在磁盘上存储SAS数据集,用ych代表子目录“f:/sasdata”,可任意取名,但应与打算建立的文件名前的前缀相同,SAS数据集名称的表示方式:库关联名.数据集名永久数据集格式:libname库关联名“盘符:路径”;如:libnameychf:SASdata;ych为库关联名,代表路径f:SASdata;库关联名可任意取,一旦定义,只要不退出SAS,始终有效(因为libname命令为全局命令)。但路径必须实际存在。临时数据集:每次启动SAS时,会自动开辟一个临时存储区,其库关联名为WORK,代表sassaswork子目录。一旦退出sas,临时存储区数据集文件自动删除,称为临时数据集临时数据集的库关联名默认为work,均省略不写。如datachild;(实际为work.child),永久数据集和临时数据集,利用file下拉菜单中的import功能,可转入:文本型数据:空格分隔、逗号分隔、制表键分隔Dbase数据库(*.dbf)Excel数据库有的数据可通过粘贴的方法贴到Editor窗,然后采用input和cards等语句,直接生成sas数据集。,从其他数据集转入,变量赋值:变量名=表达式;如x5=x4*0.5;x=x3-x2;teamgreen;加减乘除、乘方运算符:-*/、*缺失值赋值举例:age.;字符型变量:team;ifthen;else;如ifsex=1thent=f1+f2+f3;子集化:用keep或drop语句整理变量名表keep;drop;,修改SAS数据,datab1;setchild;ifid200thengroup=1;elsegroup=2;renameid=x0;keepidx1x2group;procprint;run;注:keepidx1x2group等价于dropx3-x6;,OBSX0X1X2GROUP11m32122m35133m3314254m17625255f3026256f3327521f1782,SAS数据集的整理举例,过程步过程步(procedurestep)是以关键字PROC开始的一个或多个SAS语句。过程步的结构一般为:PROC过程名过程选择项;语句/语句选择项;语句语句选择项;语句;,常用SAS过程步,UNIVARIATE、MEANS(定量资料的描述、配对t检验,一个样本对应总体与一个已知总体的比较t检验)TTEST(两样本对于的总体均数的比较)FREQ(卡方检验,Fisher精确检验)GLM、ANOVA(方差分析)NPAR1WAY(非参数检验)CORR(相关)REG(简单与多重回归)CHART、GPLOT(绘图)SORT(排序)PRINT(按要求输出结果),4常用科研数据的SAS处理方法,TtestAnovaregression,统计分析实例Ttest,例1已知某水样中含CaCO3的真值为20.70mg/L,现用某法重复测定该水样11次,得其含量(mg/L)分别为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。问用该法测CaCO3含量所得的总体均数与真值之间有无显著差别?,Ttest检验均值与指定某一数值是否相等,解答:H0:0,H1:0,=0.05。Sas程序:DATAD2;INPUTx;y=(x-20.7);CARDS;20.9920.4120.1020.0020.9122.6020.9920.4120.0023.0022.00;PROCMEANSMEANSTDERRTPRT;VARy;RUN;,专业结论说明用该法测水样中CaCO3含量所得的总体均数与真值之间无显著差别,即该法可信。,例2为了检验某化验员的化学分析是否有系统误差,今取了4个等级的铁矿石标样,4个指标的理论均值向量0=(22.75,32.75,51.50,61.50),让他进行分析,每个等级的标样重复化验了21次,数据如下,问该化验员的化验结果是否有系统误差?标样(X1):22.88,22.74,22.60,22.93,22.74,22.53,22.67,22.74,22.62,22.67,22.8222.67,22.81,22.67,22.81,23.02,23.02,23.15,22.88,23.16,23.13标样(X2):32.81,32.56,32.74,32.95,32.74,32.53,32.58,32.67,32.57,32.67,32.8032.67,32.67,32.60,33.02,33.05,32.95,33.15,33.06,32.78,32.95标样(X3):51.51,51.49,51.50,51.17,51.45,51.36,51.44,51.44,51.23,51.64,51.3251.21,51.43,51.30,51.70,51.48,51.55,51.58,51.54,51.48,51.58标样(X4):61.51,61.39,61.22,60.91,61.56,61.22,61.30,61.30,61.39,61.50,60.9761.49,61.15,61.27,61.49,61.44,61.62,61.65,61.54,61.41,61.58,DATAd2p2;INPUTx1-x4;y1=x1-22.75;y2=x2-32.75;y3=x3-51.50;y4=x4-61.50;cards;22.8832.8151.5161.5122.7432.5651.4961.3922.6032.7451.5061.2222.9332.9551.1760.9122.7432.7451.4561.5622.5332.5351.3661.2222.6732.5851.4461.3022.7432.6751.4461.3022.6232.5751.2361.3922.6732.6751.6461.5022.8232.8051.3260.9722.6732.6751.2161.4922.8132.6751.4361.1522.6732.6051.3061.2722.8133.0251.7061.49

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论