




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Ch0:FirstThingsFirstandCh1:DefiningandcollectingdataLearningObjectives,WhatisStatistics?什么是统计学BasicconceptsinStatistics统计学中的基本概念Data,variable,population,sample,parameter,statistic,etc数据、变量、人口样本统计量、参数,等等Data/variabletypes数据/变量类型Howtocollectdata如何收集数据Thedifferentwaystocollectasample收集样本的不同方法Thetypesofsurveyerrors调查误差的类型,1,WhatisStatistics?,Statisticsreferstomethodsthathelptransformdataintousefulinformationfordecisionmakers.统计指的是帮助决策者将数据转化为有用信息的方法。Statisticsisawayofthinkingthatcanleadtobetterdecisions.统计是一种可以带来更好决策的思维方式。,2,WhyStatistics?,Intodaysdigitalworldeverincreasingamountsofdataaregathered,stored,reportedon,andavailableforfurtherstudy.Businessinformationsystems在当今的数字世界中,越来越多的数据被收集、存储、报告,并可供进一步研究。-商业信息系统Youheartheworddataeverywhere.你到处都听到“数据”这个词。Dataarefactsabouttheworldandareconstantlyreportedbyaneverincreasingnumberofsources.数据是关于世界的事实,并且不断地被越来越多的来源所报道。,3,ToProperlyApplyStatisticsYouShouldFollowAFrameworkToMinimizePossibleErrors为了正确地应用统计数据,您应该遵循一个框架,以尽量减少可能出现的错误。,InthiscoursewewilluseDCOVADefinethedatayouwanttostudyinordertosolveaproblemormeetanobjectiveCollectthedatafromappropriatesourcesOrganizethedatacollectedbydevelopingtablesVisualizethedatabydevelopingchartsAnalyzethedatacollectedtoreachconclusionsandpresentresults在这个过程中我们将使用DCOVA-定义你想研究的数据,以解决问题或达到一个目标。-从适当的来源收集数据-组织开发表收集的数据-通过开发图表来可视化数据-分析收集到的数据,得出结论并给出结果,4,UsingTheDCOVAFrameworkHelpsYouToApplyStatisticsTo:使用DCOVA框架帮助你申请统计:,Summarize&visualizebusinessdata总结和可视化业务数据Reachconclusionsfromthosedata从这些数据中得出结论Makereliableforecastsaboutbusinessactivities对业务活动作出可靠的预测Improvebusinessprocesses改进业务流程,5,BusinessAnalytics:TheChangingFaceOfStatistics商业分析:统计数据的变化,Useinformationsystemsmethodstocollectandprocessdatasetsofallsizes,includingverylargedatasetsthatwouldotherwisebehardtoexamineefficiently.使用信息系统方法收集和处理各种大小的数据集,包括非常大的数据集,否则很难有效地检查这些数据集。Usestatisticalmethodstoanalyzeandexploredatatouncoverunforeseenrelationships.使用统计方法分析和探索数据,以发现不可预见的关系。Usemanagementsciencemethodstodevelopoptimizationmodelsthatimpactanorganizationsstrategy,planning,andoperations.使用管理科学方法开发影响组织战略、规划和运作的优化模型。Thegrowthof“BigData”spurstheuseofbusinessanalytics“大数据”的增长刺激了商业分析的应用“Bigdata”orverylargedatasetsarearisingbecauseoftheautomaticcollectionofhighvolumesofdataatveryfastrates.“大数据”或非常大的数据集的出现,是因为以非常快的速率自动收集大量数据。,6,DataVocabulary数据的词汇,Data:measurementsthatarecollected,recorded,andsummarizedforpresentation,analysis,andinterpretation数据:收集、记录和总结用于陈述、分析和解释的测量Variable:characteristicoftheelementswhosevaluesmaydifferfromelementtoelementandisofinteresttothedatacollector变量:元素的特征,其值可能不同于元素到元素,并且对数据收集器感兴趣。Element:anentityorobjectonwhichdataarecollected.Alsocalledcase,subject,individual,item-元素:收集数据的实体或对象。也称案件、主体、个人、项目Observation:measurementofavariableonasingleelement-观察:单个元素上变量的测量,7,DataVocabulary,8,DataVocabulary,TypesofVariables变量类型Qualitative:labelsornamesforacharacteristic(position,gender,name)-定性:特征的标签或名称(位置,性别,名字)Quantitative:measurementofamountorquantity-定量:量或量的测量Discrete(counting)(#offamilynumbers):limitedvaluesinarange离散(计数)(#家属):在一个有限的范围值Continuousvariable(measuring)(age,income):anyvalueinarange连续变量(测量)(年龄,收入):某一范围内的任何值,9,DataVocabulary,Words?,Integers?,10,定性的(名义的,明确的,变量类型,定量(数值),分离的,不相关联的,连续的,整数?,语言?,Noorderordered/rankede.g.EyecolorRatingofaprofessor,AbsolutezeroDifferenceismeaningfulRatioisalsomeaningfulSalary,Levels/Scalesofmeasurement,NotruezeroDifferenceismeaningfulRatioisnotmeaningfulTemperature,FourLevelsofMeasurement,11,测量的四个层次,信息量,水平/测量尺度,1。标称等级2。顺序层次,3.区间水平4.率水平,FourLevelsofMeasurement,Qualitativedata:NominalandOrdinallevelsNominalscale/level:Valuesrepresentcategoryorgroupmembershipofelements.Onlyshowdifference).Noorderimplied.定性数据:名词和序数级-名义量表/级别:值表示元素的类别或组成员关系。仅表现出差异)。无订单暗示。Ordinalscale/level:valuesconveylessthan,equalto,andgreaterthanrelationshipsamongelements,i.e.therelativeranksoftheelementswithrespecttotheirvaluesforthevariableinquestion(onebetterthananother?)(ratingsofcustomerservice:good,average,poor)-序数量/等级:值传递小于,等于,大于元素之间的关系,即相对于变量的值的元素的相对秩(一个比另一个更好?)(客户服务等级:好的,一般的,差的),12,FourLevelsofMeasurement,Quantitativedata:IntervalandRatioScalesIntervalscale/level:thedifferencebetweenmeasurementsisameaningfulquantitybutdoesnotinvolveatruezeropointFahrenheittemperature:differencebetween68-70isthesameas70-72.0degreedoesnotmeannotemperature.定量数据:区间和比率标度-间隔刻度/水平:测量之间的差异是有意义的数量,但不包括真正的零点。华氏温度之间的差别是:6870-72相同。0度并不意味着没有温度。Ratioscale:valuescantakeonanaturalorabsolutezeroandratioismeaningfulSalary:0meansnoincome.40000istwiceasmuchas20000.80000istwiceasmuchas40000.比例标尺:值可以是自然的或绝对的零,比率是有意义的。工资:0表示没有收入。40000是20000的两倍。80000是40000的两倍。,13,Datacollectionmethods数据收集方法,Datadistributedbyanorganizationoranindividual由组织或个人分发的数据Adesignedexperiment设计的实验Asurvey/Anobservationalstudy调查/观察性研究Datacollectedbyongoingbusinessactivities正在进行的业务活动收集的数据,14,SourcesofData数据来源,PrimarySources:Thedatacollectoristheoneusingthedataforanalysis主要来源:数据采集器是一个用数据分析Datafromapoliticalsurvey从政治的调查数据Datacollectedfromanexperiment试验数据采集Observeddata观测数据SecondarySources:Thepersonperformingdataanalysisisnotthedatacollector次要来源:进行数据分析的人不是数据采集器Analyzingcensusdata分析人口普查数据Examiningdatafromprintjournalsordatapublishedontheinternet.检查数据从印刷刊物或在互联网上公布的数据,15,MoreDefinitions更多的定义,Population:entiresetofobjectsofinterest人口:一整套感兴趣的对象Sample:apartofthepopulationofinterest样本:感兴趣人群中的一部分Parameter(populationcharacteristics)vs.SampleStatistic(samplecharacteristics)参数(人口特征)与样本统计(样本特征)Inpractice,weusuallycollectasampletostudythecharacteristicsofapopulation在实践中,我们通常收集样本来研究人口的特征。,16,ProcessofStatisticalInference/inferentialStats统计推断/推断统计过程,Astudyshows研究表明.,17,人口包括所有的利益因素。,一个项目的样本被接受和检查。,统计被用作人口特征的估计,示例数据提供描述性统计。,Sampling,ExpenseSpeedDestructivenatureofdatacollectionInaccessibilityofsomeelementsRandom/ProbabilitySamplingMethodsOtherapproaches,Whysample?Howtosample?,18,抽样,为什么抽样?,怎么抽样,费用速度-数据收集的破坏性交通不便的一些元素,-随机/概率抽样方法其他方法,Howtosample:ProbabilitySample,Inaprobabilitysample,itemsinthesamplearechosenonthebasisofknownprobabilities.,ProbabilitySamples,SimpleRandom,Systematic,Stratified,Cluster,19,如何抽样:概率抽样,在概率抽样中,根据已知概率选择样本中的项。,概率抽样,简单的随机,有系统的,有规则的,集群,分层,SimpleRandomSample,Numbereachunitfrom1toN每个单元从1到nUsearandomnumbergeneratortoselectndistinctnumbersbetween1andN,inclusivelyAvailabletoolsEasiertoperformforsmallpopulationsCumbersomeforlargepopulations,RandomnumbergeneratorTableofrandomnumbersExcelfunctions:Randbetween(min,max)Add-in:SamplingWithreplacementorwithoutrep.,20,简单随机样本,使用随机数发生器选择n个不同的数字之间的1和N,含,可用的工具,随机数发生器随机数表Excel函数:randbetween(min,max)加入:抽样更换或不带代表,对小群体来说更容易执行,庞大人口的累赘,SystematicSampling,PopulationelementsareanorderedsequenceFirstsampleelementisselectedrandomlyfromthefirstkpopulationelementsThen,sampleelementsareselectedataconstantinterval,k,fromtheorderedsequenceframe,21,系统抽样,人口要素是一个有序序列,第一个样本元素是从第一k个人口元素中随机选取的。,然后,样品的元素是在一个恒定的间隔,K的选择,从有序的序列帧,试样量,样本大小,群体大小,选择间隔的大小,SystematicSampling,N=20n=5k=N/n=4,First,findarandomstartingpointThenitemsfromevery4invoices,Invoice0618Invoice0620Invoice0721Invoice0802Invoice0808Invoice0906Invoice1002Invoice1012Invoice1014Invoice1113,22,系统抽样,发票,首先,找到一个随机出发点,每4张发票的项目,StratifiedRandomSample,Whatifourpopulationcanbeclearlydividedintosubgroupsbasedonsomecharacteristicsandwewantoursampletoincludeallsubgroups?PopulationisdividedintononoverlappingsubpopulationscalledstrataArandomsampleisselectedfromeachstratumPotentialforreducingsamplingerrorProportionate-thepercentageofthesampletakenfromeachstratumisproportionatetothepercentagethateachstratumiswithinthepopulation,23,分层随机样本,如果我们的人口可以根据一些特征明确地划分为亚组,我们希望我们的样本包括所有子组,该怎么办?,种群分成互不重叠的亚群,称为地层,从每个阶层挑选一个随机样本。,减少抽样误差的可能性,比例-从每个阶层抽取的样本比例与每个阶层在人口中所占的百分比成比例,StratifiedRandomSample,Supposewewanttostudytheadvertisingexpendituresforthe352largestcompaniesintheUnitedStates.假设我们想研究美国352家最大公司的广告支出。Tomakesurethatasampleof50companiesisafairrepresentationofthe352companies,thecompaniesaregroupedonpercentreturnonequityandasampleproportionaltotherelativesizeofthegroupisrandomlyselected.,24,分层随机样本,为了确保50家公司的样本是这352家公司的公平代表,公司按股本回报率分组,而与该集团相对规模成比例的样本是随机的。,ClusterSampling(two-stagesampling),Populationisdividedintonon-overlappingclustersorareas人口分为不重叠的群体或地区。Eachclusterisaminiature,ormicrocosm,ofthepopulationAsubsetoftheclustersisselectedrandomlyforthepopulationSimplerandomsamplingfromeachclusterselected.,25,(两阶段抽样),分群组抽象法,每一个集群都是人口的缩影或缩影。,集群的一个子集是随机选择的。,选择每个群集的简单随机抽样。,NonprobabilitySample,Inanonprobabilitysample,itemsincludedarechosenwithoutregardtotheirprobabilityofoccurrence.Inconveniencesampling,itemsareselectedbasedonlyonthefactthattheyareeasy,inexpensive,orconvenienttosample.Inajudgmentsample,yougettheopinionsofpre-selectedexpertsinthesubjectmatter.Snowballsampling.,26,非概率抽样,在非概率抽样,项目包括有选择不考虑其发生的概率。,-在便利抽样中,仅根据容易、便宜或便于取样的事实选择项目。,在一个判断样本中,你可以得到预先选定的专家在主题问题上的意见。,滚雪球抽样,TypesofSurveyErrors,Coverageerrororselectionbias覆盖误差或选择偏移ExistsifsomegroupsarenotincludedinthepoolandhavenochanceofbeingselectedNonresponseerrororbias无回答误差或偏差PeoplewhodonotrespondmaybedifferentfromthosewhodorespondSamplingerrorVariationfromsampletosamplewillalwaysexistMeasurementerrorDuetoweaknessesinquestiondesign,respondenterror,andinterviewerseffectsontherespondent,27,测量误差类型,如果某些组不包含在池中,并且没有被选中的机会,则存在,没有回应的人可能不同于那些做出反应的人,抽样误差,从样品到样品的变化总是存在的,测量误差,由于问题设计的弱点,回答错误,以及面试官对被告的影响。,DescriptivestatisticsvsInferentialStatistics,Descriptivestatistics描述统计(学)Tabular,graphical,andnumericalmethodsusedtosummarizeoneormorecharacterist
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》模拟题库(培优b卷)附答案详解
- 2025年六五普法测试试题及答案
- 幼儿园廉政教育月活动方案
- 部队组织生活自我评价及整改措施
- 教师招聘之《小学教师招聘》试题(得分题)【a卷】附答案详解
- 教师招聘之《小学教师招聘》每日一练附完整答案详解(有一套)
- 教师招聘之《小学教师招聘》强化训练带答案详解(综合题)
- 教师招聘之《幼儿教师招聘》测试卷含答案详解【达标题】
- 教师招聘之《小学教师招聘》考前冲刺练习题库提供答案解析带答案详解(培优a卷)
- 教师招聘之《小学教师招聘》模拟卷包带答案详解(培优b卷)
- 上饶市市级机关选调真题2024
- 妇幼信息安全课件
- 高一学生手册考试试题及答案
- 妊娠滋养细胞肿瘤护理查房
- 廉政参观活动方案
- 律师事务所客户数据安全管理制度
- 孕妇学校健康教育课件
- 中国大麻酚油(CBD油)行业发展监测及投资战略研究报告
- 医务人员艾滋病知识培训
- 图书馆培训管理制度
- 2025船舶光租合同范本
评论
0/150
提交评论