




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020年2月10日8时54分 数据 模型与决策 濮晓龙 2020年2月10日8时54分 华东师范大学金融与统计学院手机2020年2月10日8时54分 教材 数据 模型与决策简明教程作者 王静龙 梁小筠 王黎明出版社 复旦大学出版社 2004 2020年2月10日8时54分 关于统计学的定义很多 英国是现统计学的发源地 英国 不列颠百科全书 上把统计学定义为收集和分析数据的艺术 当然还有其它各种定义 大同小异 如 统计学是研究不确定性现象数量规律性的方法论科学 等等 统计是什么 2020年2月10日8时54分 北京时间2006年6月30日晚23点 在德国世界杯的一场1 4决赛中 东道主德国120分钟内与阿根廷战成1比1平 最后的点球大战 德国以4比2击败阿根廷 德国门将莱曼扑出阿根廷两个点球 例1 1难以置信 http www my4g org node 530 莱曼之所以表现得如此神勇 与一张柏林城堡酒店 Schloss 的便条有非常大的关系 这张纸条是德国守门员教练科普克在点球大战前亲手交给莱曼的 这张神秘的纸条犹如一张 武功秘笈 上面到底写了些什么呢 德国 图片报 的记者将这张 秘笈 公布于众 2020年2月10日8时54分 有懂德文的吗 克鲁兹 长距离助跑 右上角阿亚拉 注意他的射门腿 左下角罗德里格斯 大力抽射右边坎比亚索 短距离助跑 左上角 2020年2月10日8时54分 例1 234 7 的受访者后悔上大学 2006 08 14 中国青年报 2006年8月 中国青年报社会调查中心与某网站联合开展了一项调查 共有8777人参与 结果显示 34 7 的受访者在谈到自己的大学生活时 都觉得 后悔 之所以会 后悔 调查显示 51 5 的人认为 自己在大学里 没学到什么有用的东西 调查发现 让一些人觉得 后悔 的原因 还有 念了四年 出来还是找不到工作 39 2 对这份调查结果 你可有什么想法呢 2020年2月10日8时55分 例1 3中国美女标准大家认同吗 美女标准粉皮书 中国美 一书作者运用美学 文学 医学 营养学 色彩学和心理学等专业知识 第一次用审美的心态和一双发现美的眼睛 系统地总结和论述了中国美女的内涵和标准 给出如下美女标准 你是该书观点的支持者或是反对者 你想搜集证据说明你是对的 有什么办法 2020年2月10日8时55分 例1 4面对浩如烟海的帐单 会计如何例行查账 有23594份运货单的运费总额需要核查 根据全面调查 委托方应支付给受托方总费用565647元 现抽样检查2032份 占8 61 运货单 经过推算认为23594份运货单中应支付给受托方的运费总额为564968元 显然 这次受托方吃亏了 少收入679元 下次呢 长期来看 也就是平均来看 积累的误差为零 此外 抽样检查成本至多为10000元 而全面检验的成本至少为50000元 可是要大家分担的 2020年2月10日8时55分 例1 5怎么回事 下表是1976至1977年美国佛罗里达州29个地区杀人案件中被告肤色和是否被判死刑的326个犯人的情况 2020年2月10日8时55分 白人被判死刑的比例较高 难道美国歧视白人 如下的表是上面这张表的细分 2020年2月10日8时55分 归纳起来 通常认为统计是用来搜集和处理数据的 而数据由数字组成 但并不是单纯的数字 统计从数据中找出信息 并做出结论 需要工具 图表 计算 判断 但要注意 数据并不总显得牢不可破 数据从何而来非常重要 统计结论不是绝对的 但在绝大多数场合是有用的 数据 决策的依据 数据 数据 数据 我们不能做无米之炊 商场选址 肯德基开一家新店进行的商圈研究 周边情况 周边商厦 饮食店 学校 娱乐场所 公交站点的数量和分布等 半径范围 从拟建的餐厅出发 朝不同方向半分钟 1分钟 1分半钟乃至5分钟步行路程内上述这些设施的准确位置等 人流量测试 在拟建的餐厅处 周一至周日 每天按不同时段严格统计 市场调查 康泰克要不要复活 市场调查 康泰克要不要复活 数据的涵义 数据并不仅仅是数值的意思 数据的英文名是data 它是拉丁文datum的复数形式 其涵义简单地说是 事实资料 数据包括的既有数值型资料 也有文字型资料 模型 模型 用图表 文字 数字 符号 以及数学表达式等对客观现象的描述 模型淡化甚至忽略了客观现象的次要因素 是对它的本质核心部分的描述 要不要开发新产品 例 某公司正面临一个需要做两次决策的决策问题 第1次决策 要不要开发一个新产品 第2次决策 如果决定开发 则工厂需要扩建 究竟是中型扩建为好 还是大型扩建为好 决策树模型 这类需要做多次决策的决策问题 我们可以用决策树 按时间先后顺序形象地将所有可能的决策表示出来 决策树由结点和树叉组成 决策树模型 不开发新产品某公司大型扩建开发新产品中型扩建 决策树模型 不确定因素 开发和不开发新产品 中型扩建还是大型扩建为好 市场对该新产品需求量究竟是高 中还是低 是这个决策问题的不确定的因素 决策树模型 市场需求高不开发新产品市场需求中某公司大型扩建市场需求低开发新产品市场需求高中型扩建市场需求中市场需求低 六个西格玛 SIGMA 理论 1998年3月10日解放日报的 管理新知 栏目中有一篇文章 其标题为 全球着名的美国通用电气 GE 公司上上下下掀起了一股学习管理理论的热潮 这一切皆因董事长韦尔奇而起 六个西格玛 SIGMA 理论 杜绝误差 杜绝误差 每百万次操作中至多只有3 4次失误 2020年2月10日8时55分 统计无处不在 Whenyouanalysisanytopic youareinvolvedinstatistics 当然并非没有统计就无法运作 但有了统计加入 可以做出更好 更精致的决策 因此统计是无所不在的 2020年2月10日8时55分 数据的产生 数据大体上可分为二种 已存在的数据 二手数据 和原始数据 第一手数据 二手数据包括公司内部数据和外部数据 如 公司内部现有的有关商务 经济和管理等方面的资料 公司外部 包括政府部门 现有的有关商务 经济和管理等方面的资料 每天翻开报纸或打开电视 就可以看到各种数据 比如高速公路通车里程 物价指数 股票行情 外汇牌价 犯罪率 房价 流行病的有关数据 确诊病例 疑似病例 死亡人数和出院人数等等 当然还有国家统计局定期发布的各种国家经济数据 海关发布的进出口贸易数据等等 这些数据都是二手数据 2020年2月10日8时55分 获得第一手数据则不象得到二手数据那么轻松 它通常需要通过实验或调查得到 调查得到的数据也称为观测数据 调查得到数据的例子 某些在华的外资企业每年至少要花三四千万元来收集和分析数据 他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势 他们调查不同地区 不同阶层的民众对其产品的认知程度和购买意愿以改进产品或推出新品种争取新顾客 他们还收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场 市场信息数据对企业是至关重要的 他们很舍得在这方面花钱 因为这是企业生存所必需的 绝不是可有可无的 2020年2月10日8时55分 对于有些问题 比如在不同的医疗手段下某疾病的治疗结果有什么不同 不同的肥料和土壤条件下某农作物的产量有没有区别 用什么成分可以提高某物质变成超导体的温度等等 这种在人工干预和操作情况下收集的数据就称为实验数据 2020年2月10日8时55分 数据有时也称为样本 不过 并不是所有的数据都可以称为样本的 样本总是相对总体而言的 任何一个问题都有其研究对象 研究对象的全体称为总体 譬如 要想了解上海市民对建设沪杭磁悬浮高速列车的观点 需要进行调查 调查对象是所有上海市民 调查目的是希望知道市民中对这个问题的不同看法各自占有的比例 显然 不可能去调查所有的上海市民 而只能够调查一部分 并根据这一部分的观点来了解整个上海市民的观点 这种情况下 称所有 每个 上海市民对这个问题的观点为一个总体 而调查时问到的那部分市民的观点为该总体的一个样本 总体和样本 2020年2月10日8时55分 假设我们要考察股票投资者的组成情况 比如 股民的受教育程度 则全国几千万股民就是我们要调查了解的对象 我们称之为总体 而每一位股民称为一个个体 一般 我们可以这样定义总体 总体就是为了某特定研究目的而连结在一起的个体的集合 在统计中总体可分为有限总体和无限总体 如果构成总体的个体的数量是有限的 则它是一个有限总体 上面提到的几千万股民就是一个有限总体 若构成总体的个体数量无穷多 则它是一个无限总体 对有限总体 如果总体中包含的个体数目很多 通常我们也将其视为无限总体 因为这样处理起来会方便很多 2020年2月10日8时55分 例1 6彩电的彩色浓度彩电的彩色浓度是彩电质量好坏的一个重要指标 它可用一个实数表示 二十世纪七十年代在美国销售的SONY牌彩电有两个产地 美国和日本 两地的工厂是按同一设计方案和相同的生产线生产同一牌号SONY彩电 连使用说明书和检验合格的标准也是一样的 关于彩色浓度X的标准是 目标值为m 公差为5 即当X在 m 5 m 5 内该彩电的彩色浓度合格 否则不合格 在七十年代后期 美国消费者购买日本产SONY彩电的热情高于购买美国产SONY彩电 原因何在 2020年2月10日8时55分 表各等级彩电的比例 2020年2月10日8时55分 例1 7鱼塘估鱼为了了解鱼塘里大概有多少条鱼 我们先捞出50条鱼 将其做了标志并放回鱼塘 一天后从鱼塘里再捞出100条鱼 发现其中8条鱼有我们做的标志 则我们可以粗略地认为鱼塘里大概有50 100 8 625条鱼 这里 鱼塘里所有的鱼是总体 其总体数量多少不知道 正是我们要了解的 而捞出的100条鱼则是样本 根据样本的情况 有标志的鱼所占的比例 可以对总体的情况做出估计 这里估计的效果好不好呢 2020年2月10日8时55分 样本质量不好的原因通常有如下几种原因 登记性误差 低级误差 人为干扰 官出数字 数字出官 恶劣可恶 统计法 代表性误差 代表性不强 数据正确 但它不能说明问题 设计不合理 方便样本 样本的质量 有时可对数据的质量作检查 2020年2月10日8时55分 统计软件 统计软件的种类很多 如SAS SPSS S plus Statistica Eviews GAUSS MATLAB R软件等 有些功能齐全 有些价格便宜 有些容易操作 有些需要更多的实践才能掌握 还有些是专门的软件 只处理某一类统计问题 面对太多的选择往往给决策带来困难 这里介绍下述二种软件 2020年2月10日8时55分 Excel 它严格说来并不是统计软件 但作为数据表格软件 必然有一定统计计算功能 而且凡是有MicrosoftOffice的计算机 基本上都装有Excel 但要注意 有时在装Office时没有装数据分析的功能 那就必须装了才行 当然 画图功
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省许昌市建安区第三高中2026届化学高二第一学期期末达标检测模拟试题含答案
- 四川省达州市开江县普安中学2024-2025学年七年级下学期第三次月考数学试卷(含答案)
- 汉字录入课件
- 北师大版五年级上册数学期末检测卷(无答案)
- Unit1 Friendship单元综合测评卷(含答案)译林版(2024)八年级英语上册
- 3DMAX基础建模知到智慧树答案
- 《企业财务会计》知到智慧树答案
- 电子游戏安全风险防范策略
- “两山”之光:理论与实践知到智慧树答案
- 军事理论(四川卫生康复职业学院)知到智慧树答案
- GB/T 9869.2-2025橡胶用硫化仪测定硫化特性第2部分:圆盘振荡硫化仪
- 保密教育培训课件内容
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 2024-2025学年人教版数学五年级下学期期末试卷(含答案)
- 采气工技能操作题库
- 贵州省遵义市红花岗区小升初数学试卷
- 高压氧治疗相关知识
- 外科学麻醉专题知识讲座培训课件
- 课程设计与评价
- 霍尔电流传感器实训台课件
- 2023年国药控股股份有限公司招聘笔试题库及答案解析
评论
0/150
提交评论