数据挖掘实习报告

上传人：世*** IP属地：贵州上传时间：2020-12-23 格式：DOCX 页数：33 大小：31.26KB 积分：20 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据挖掘实习报告篇一：数据挖掘实习报告通过半年的实习，我在这里得到了一次较全面的、系统的锻炼，也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。经历了实习，对社会也有了基本的实践，让我学到了书本以外的知识，实习期间，我努力尽量做到理论与实践相结合，在实习期间能够遵守工作纪律，不迟到、早退，认真完成领导交办的工作。在实习鉴定中，我参与了整个数据分析工作，从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等，让我充分学习了数据分析岗位的实际操作。在实习初期，项目经理安排了我参与数据获取的相关工作，主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对

2、SQL语言了解较多，以为这份工作非常简单。但实际操作起来才知道，在数据量达到几百兆甚至上GB级别的时候，所学的SQL根本解决不了问题。经向项目经理学习，这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。完成数据获取阶段之后，项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初，对数据清洗并没有太多的认识，以为很多都是按照数据挖掘教材中步骤进行就可以的。但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解，只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值，哪些数据又是不正常的，制定报告或者交给模

3、型分析师时需要去除的等等。同时，在制定数据报表的同时学习了很多excel函数的使用，透视表的使用，PPT报告的书写等等。在实习的后三个月，开始接触了模型的分析与监控。在学习机器学习以及数据挖掘书本时，总会想到各种各样的分类模型，也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前，项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型，回归分析和时间序列模型是常用的预测模型，这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经络模型之时，项目经理说，由于模型结果都是要给市场部门的同事报告的，所以模型结果最好能够简

4、单易懂的。在实际工作才知道，一般除了用模型准确率来衡量模型的效果外，还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单，并不是用R软件上的几个函数，几行代码就能解决的，选择什么参数、选择什么样的模型，当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的，这才发现项目经理之前提到的业务知识是多么的重要。在模型建立之后就是模型监控了，由于是我负责的项目，所以项目经理也将监控这一任务交给了我。数据挖掘模型通常情况下都是要上线的，但模型的效果会随着数据的变化而变化，当模型的指标达到一定程度时就需要修改模型。在这一阶段，充分锻炼了我的程序编写能力。在整一个

5、实习过程，非常感谢项目经理给予了我数据挖掘整一个流程学习的机会，让我真正对数据挖掘的实际工作有了一定的认识，也让我学习到了很多学校学习中学不到的实际操作能力，在此表示衷心的感谢。篇二：数据挖掘实验报告经贸学院市场营销专业数据挖掘管理实验报告实验名称：数据挖掘聚类分析实验时间：XX年12月21日班级 11252 姓名潘宏学号成绩指导老师王林一、数据建模过程1、启动SPSS 双击窗口底部节点选项板中的“源”中的statistics文件建立文件，如图1。图1 2、右击statistics文件编辑，如图2。图 23、点击省略号其中一个选择文件打开。单击应用并确定，如图3和

6、图3 图 4 4、双击输出选项中的表节点，如图5所示，表节点出现在工作区中。图5 5、如图6所示，右击运行表节点。可以看到图中关于客户资产购平台价值的数据记录。该数据包含A1，A2等字段。图 6 6、如图7，在字段选项中双击类型节点，则类型节点出现在工作表中。图7 7、如图8，右击类型节点选择编辑，则出现一张关于字段的表，将所有字段角色项设为“输入”，这表示要将所有字段进行聚类分析。最后点击应用、确定。图 8 篇三：数据挖掘实训weka实验报告论文（报告、案例分析）院系信息学院专业统计班级 10级统计 3 班学生姓名李健学号XX任课教师刘洪伟XX年 01月17

7、日课程论文评分表数据挖掘实训课程论文选题要求：根据公开发表统计数据，请结合数据挖掘理论与方法，撰写一篇与数据挖掘领域相关的论文。写作要求：（1）数据准确、有时效性，必须是最新的数据。（2）文章必须有相应的统计方法，这些统计方法包括以前专业课中学到的任何统计方法，如参数估计、假设检验、相关与回归、多元统计等等。（3）论文的内容必须是原创，有可靠的分析依据和明确的结论。（4）论文按照规定的格式化撰写；（5）字数不少于XX字。数据挖掘（WEKA软件）实验报告统计学专业学生李健学号 XX 关键词：数据挖掘；游玩；因素；WEKA 本次实验指在熟练的运用软件weka进行数据处理，其中包括数

8、据准备，关联规则等同时了解weka的基本用法。一、软件介绍1简介数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特征提取，算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境(Waikato Environment forKnowledge Analysis)，是由新西兰怀卡托(Waikato)大学开发的机器学习软件，纯Java技术实现的开源软件，

9、遵循于GNU General Public License，跨平台运行，集合了大量能承担数据挖掘任务的机器学习算法，分类器实现了常用ZeroR算法、Id3算法、J48算法等40多个算法，聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法，能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖，WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff

10、(AttributeRelation File Format)的数据文件结构。这种arff文件是普通的ASCII文本文件，内部结构很简单，主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立，也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文件可以分为两个部分。第一部分给出了头信息(Head information)，包括关系声明(Relation Declaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation)，即数据集中给出的数据。关系声明的定义格式为：relation；属性声明

11、的定义格式为：attribute；数据信息的定义格式为独占一行的data，后面跟着的就是数据信息。 2.安装Weka的官方地址是http:/ml/weka/。点开左侧download栏，可以进入下载页面，里面有windows，mac os，linux等平台下的版本，我们以windows系统作为示例。目前稳定的版本是。如果本机没有安装java，可以选择带有jre的版本。下载后是一个exe的可执行文件，双击进行安装即可。安装完毕，打开启动weka的快捷方式，如果可以看到下面的界面，那么恭喜，安装成功了。共有4个应用，分别是 1）Explorer用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联

12、规则，特征选择，数据可视化的功能。（An environment for exploring data with WEKA） 2）Experimentor用来进行实验，对不同学习方案进行数据测试的环境。（An environment for performing experiments and conducting statistical tests between learning schemes.） 3）KnowledgeFlow功能和Explorer差不多，不过提供的接口不同，用户可以使用拖拽的方式去建立实验方案。另外，它支持增量学习。（This environment supports

13、 essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.） 4）SimpleCLI篇四：实训报告移动络优化实训报告班级：通信141 学生姓名：班级序号：一、设计背景内容包括：络优化应用背景介绍 2G系统图、LTE系统图1、络优化应用背景介绍由于核心、传输的元少且环境稳定，移动通信优化实际上以无线优化为主，因此移动通信络优化也可称为无线络优化。无线络是通过改善手机和

14、基站的空中接口信号性能来完成优化过程，提高通信质量的。由于移动络变是不固定的，其动态变化频率高，再加上庞大的用户群体、用户的移动性、话务密度的不均匀性、频率不均匀性等，导致无线络的信号接口稳定性能差，反映到用户方面即是通信质量的不稳定及弱势。比如，无法接通、通话无端中断、杂音干扰、单方通话等故障。移动通信络的建设耗费大量人力、财力，但是就目前此阶段现状而言，通信质量的不尽如意使得其投资与回报不成正比。而不间断的络硬件、数据调整，资源优化配置等途径可以优化通信络，可保持络处于最佳运行状态，由此改善通信服务质量，使得用户可以切身感觉到通畅淋漓的络速度。2、移动络优化的现状由于当前技术的限制，移动

15、通信络优化的实现需要借助于一定的工具，并且要求相关工作人员要具备较高的技能素质。一般而言，优化队伍的组成需具有资深的络优化工程师，若干技术人员，以及大量的自动化、智能化软件工具。现有的络优化工具主要有以下三种类型：其一，各系统供应商提供的OMC系统；其二，无线络及交换络测试分析的仪器、第三方软件，如路测软件和信令分析软件；其三，无线频率规划软件。其中，路测软件等是用来提供数据的，供应商提供的OMC系统多用来维护系统的。但是二者之间的联系甚是不紧密，再加上络优化涉及到交换技术、无线技术、频率配置、切换和信令、话务统计分析等技术，形成海量的信息急需高技术处理的局面，最终致使优化工作比较粗放。络

16、优化的具体操作大致分为数据采集、数据分析、实施、评估四个阶段。数据采集需要耗费大量的人力通过人工操作、整理、归类、汇总各类工具采集的海量数据。此阶段工作量大，但是难度较低。数据分析阶段工作量虽小但是很有难度。此阶段中，工程师需通过前阶段的数据来判断、分析、确定所反映的问题，并得出一个包含不同地点、层次元的优化方案。然后是实施阶段，实施调整方案中确定的络调整操作。最后是评估阶段，此阶段需再次进行数据采集工作，观察调整方案是否达到了效果，如果没有达到预期的效果，需再次重复整个过程；如果达到了效果，就再次设定新的、更高的优化目标，整个过程将再次在更高的层次重复。3、移动络发展的趋势智能优化是移动通

17、信络优化发展的趋势。具体说来，可以分为下三个层面：一体化处理和简单分析正如前文多说，络优化涉及到众多技术及工具。但是不同类别的工具确只对特定的问题才能发挥效能，这就造成了优化工具虽然多，却各自分散难以整合，不能针对整个待整治的络组成优化方案。我们认为，系统供应商或者第三方软件提供商应该与运营商形成长期的战略合作络伙伴关系，通过持续努力，开发将环境数据和系统数据紧密绑定的软件系统，使该软件系统逐步具备对海量数据的一体化处理、简单分析、数据挖掘、辅助智能决策、自动络参数调整等功能，使运营商的优化和维护人员从工作量大但难度相对较低的简单、低层次的数据采集、实施阶段的工作中解放出来，从而可以专注于深

18、层次的系统和环境方面的优化方法的研究，将研究成果迅速应用于软件系统，并且能够迅速得到证明的高级优化工作中来。这就是一体化处理和简单分析。数据挖掘、辅助智能决策数据分析是络通信优化难度最大的一个阶段，它需要处理将大量不同技术领域的数据，而其中的寻求各种数据的内在关系是难中之难。数据挖掘是统计学和机器学的综合提，通过数据挖掘技术可以从数据库有效地筛过滤、筛选、分析、并提取价值信息，从而挖掘各数据的内在关联。数据挖掘可以挖掘一系列数据之间的联系，使得工程师建立符合自身团队特色的数据分析体系，从而为整体优化方案的确立提供辅助决策的功能。数据挖掘可以使络优化人员在短时间内挖掘各数据间的关联，可以解决许多

19、以前我们想解决却缺乏解决办法的问题。自动络参数调整当移动络优化系统的优化工具具备了辅助决策功能后，其数据分析结果是相当精确无误的，这点已被无数次实验结果所验证。然而，这并不是优化工具进化的终结点，在其前方仍然有大量可进步的空间。此时，我们可将优化软件的输出直接作用于OMC系统的配置功能模块上，通过OMC系统直接“指挥”络调整自己的系统参数。由此省去中间的设备经过及缓解，可以更好地适应络环境参数的动态变化，从而为为用户提供更加稳定及完善的通信质量。2G系统图LTE系统图二、新建GSM站点设计（1）按要求补充新建GSM站点信息（2）在EASYRNP的相应位置上新建站点，显示相关信息站点名

20、、小区名、LAC、频点等信息 GSM站点信息表三、新建LTE站点设计（1）按要求补充新建LTE站点信息（2）在MapInfo的相应位置上新建站点，显示相关信息站点名、小区名、TAC、频点、PCI等信息（3）根据站点具体位置规划邻区篇五：实习报告辽宁工程技术大学本科生实习报告书教学单位理学院专业数学与应用数学班级学生姓名学号指导教师四大分支。生物统计学用统计方法研究生物界的客观现象；数量遗传学用数学方法研究在各种不同情况下全体基因型的变化，研究数量性遗传规律；数学生态学用数学理论和和方法描述生态系统的的行为动态定量关系，建立各种生态模型，模拟动物行为；数学生物分类学使

21、用现代数学方法和工具（特别是电子计算机）对古老的生物分类学进行研究。数学方法几乎渗透到生物学的每个角落。有人预言：生物学将会取代物理学成为使用数学工具最多的部门，21世纪可能是生物数学的黄金时代。生物数学具有丰富的数学理论基础，包括集合论、概率论、统计数学、对策论、微积分、微分方程、线性代数、矩阵论和拓扑学,还包括一些近代数学分支,如信息论、图论、控制论、系统论和模糊数学等。由于生命现象复杂,从生物学中提出的数学问题往往十分复杂,需要进行大量计算工作。因此，电脑是生物数学产生和发展的基础，成为研究和解决生物学问题的重要工具。然而就整个学科的内容而论，生物数学需要解决和研究的本质方面是生物学问

22、题，数学和电脑仅仅是解决问题的工具和手段。因此，生物数学与其他生物边缘学科一样，通常被归属于生物学而不属于数学。在以前的学习中，生物就是生物，数学就是数学，两者看似没有什么关联。而实际上生物与数学息息相关，现实中大多数学科都与数学有关并以之为基础，通过本次学习，我意识到数学的强大，无处不在。三数据科学家数据科学家，一个极具发展潜力的职业，现在的数据科学家已成为了高薪职业。招聘站报告称，数据科学家平均年薪为万美元，而程序员平均年薪为万美元，差距由此可见。“数据科学家”在XX年由Natahn Yau首次提出，其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家集技术专家与

23、数量分析师的角色于一身，与传统数量分析师相比：后者通常利用企业的内部数据进行分析，以支持领导层的决策;而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程，为客户提供有意义的增值服务。数据科学家”其实是从“大数据”引发的术语混乱中形成的。数据科学的核心能力被定义为：SQL、统计、预测建模和编程、Python等，这些听起来很合理。但是很快就有更多名词添加到其中：Hadoop/MapReduce、机器学习、可视化，甚至还有传统的数学、物理、计算机科学等类似能力。许多人呼吁专业领域、商业智慧、创造力及表达能力也是同样重要的。一个数据科学家不能只擅长数字(这种人被称为统计学家或分析师)，也要

24、能够理解业务：什么样的数据或结果才是有参考性的;能够找到新的数据集并为其创造新产品;然后能够让CEO们理解这一切。这是一个艰巨的任务，这个世界上这类人是很少的。作为顶尖的数据科学家，不要求他们对环境做出什么积极的改变，但是需要他们尝试做一些真正先进的东西，帮助大家更好的解决业务上的问题。数据科学家的六种能力：1.对数据的提取与综合能力；2.统计分析能力；3.数据洞察与信息挖掘能力；4.开发软件能力；5.络编程能力；6.数据的可视化表示能力。现在是一个大数据时代，几乎所有的事情都离不开数据处理。数据科学家，非常有前景的职业，也是我立志的目标。四数学建模从学习专业课开始，我就了解到，应用数学的

25、学习离不开数学建模。在不断的学习中，深刻的学习到数学建模的重要性。当需要从定量的角度分析和研究一个实际问题时，人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上，用数学的符号和语言作表述，也就是建立数学模型，然后用通过计算得到的结果来解释实际问题，并接受实际的检验。这个建立数学模型的全过程就称为数学建模数学是研究现实世界数量关系和空间形式的科学，在它产生和发展的历史长河中，一直是和各种各样的应用问题紧密相关的。数学的特点不仅在于概念的抽象性、逻辑的严密性、结论的明确性和体系的完整性，自从20世纪以来，随着科学技术的迅速发展和计算机的日益普及，人们对各种篇六：暑假实习

26、报告合肥学院计算机科学与技术系系别：专业：班级：姓名：学号：成绩：认知实习报告计算机科学与技术计算机科学与技术 10级计本班年日月认知实习报告根据合肥学院人才培养方案中的第五学期认知实习教学大纲的要求，我于XX年6月18号至XX年9月1日在校实习，进行“冰箱泄漏热负荷及性能预测”项目研究。一、项目简介项目名称：冰箱泄漏热负荷及性能预测研究委托方：合肥美菱股份有限公司技术目标和内容：1、对已有产品漏热测试数据进行分析处理，拟合出冰箱保温层和门封泄漏热负荷的计算方法；2、根据冰箱泄漏热负荷、制冷系统设计、零部件选型，研究制定出冰箱性能（耗电量、开机率等）预测方法。二、认知实习经历项目需要大

27、量有关聚类和分类的知识基础，我负责的是K-means算法、支持向量机（Support Vector Machine，SVM）的研究。1、K-means算法的学习MacQue既在1967年提出的K-means算法,是一种被广泛应用于科学研究和工业应用中的经典聚类算法。K-means算法的核心思想是把n个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小。K-means算法是典型的局域原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最

28、有分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。2、K-means算法的研究我们经常接触到的聚类分析，一般都是数值聚类，一种常见的做法是同时提取 N 种特征，将它们放在一起组成一个 N 维向量，从而得到一个从原始数据集合到 N 维向量空间的映射总是需要显式地或者隐式地完成这样一个过程，然后基于某种规则进行分类，在该规则下，同组分类具有最大的相似性。假设我们提取到原始数据的集合为(x1, x2, , xn)，并且每个xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k n）值的条件下，将原始数据分成k类 S = S1, S2, , Sk，在数值模型上，即对

29、以下表达式求最小值：(1)这里i 表示分类Si 的平均值。设我们一共有 N 个数据点需要分为 K 个 cluster簇，k-means 要做的就是最小化(2)这个函数，其中0 。直接寻找先固定和在数据点 n 被归类到 cluster k 的时候为 1 ，否则为来最小化并不容易，不过我们可以采取迭代的办法：，很容易看出，只要将数据点归类到离他最近的那，再求最优的应该满足：。将对求导并，选择最优的个中心就能保证最小。下一步则固定令导数等于零，很容易得到最小的时候(3) 亦即的值应当是所有 cluster k 中的数据点的平均值。由于每一次迭代都是取到的最小值，因此只会不断地减小（或者不

30、变），而不会增加，这保证了 k-means 最终会到达一个极小值。虽然 k-means 并不能保证总是能得到全局最优解，但是对于这样的问题，像 k-means 这种复杂度的算法，这样的结果已经是很不错的了。K-means算法流程如下，流程如图1所示：(1)从n个数据对象中任意选取k个对象作为初始的聚类中心。(2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。(3)所有对象分配完成后,重新计算k个聚类的中心。(4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。(5)输出聚类结果。图1 K-means流程图虽然K-means易于实现，但存在

31、如下的缺点：(1)在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。(2).K-means算法是动态聚类，具有一定的自适应性，但是结果容易收到类别个数和出师聚类中心的影响，因此聚类结果取决于K值和初始聚类中心的选择。(3).从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。(4).不能处理噪声数据和孤立点,不适合发现非凸面形状的簇。K-means的提出较早且易于理解和实现，但是由于上诉的不足，所以在实

32、际应用中往往会在传统K-means上加以改进。比如通过加权、主成成分分析、近邻比较等。具体的应用包括：模式识别，空间数据分析（通过聚类特征空间创建GIS中的主题映射，探测空间簇,用空间数据挖掘解释它们），图像处理（例如遥感图像处理），经济学(特别指市场研究)，络（文档分类，对web日志数据进行聚类以发现相似访问模式组），商务（帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征），土地使用（在一个地球观测数据库中识别相似土地使用的地区），保险业（汽车保险单持有者的分组），城市规划（房子的类型，价值和地理分布来识别房子组），生物学（用于推导植物和动物的分类，对

33、基因进行分类）等。但是应用K-means的领域有一个共同的特征，那就是K值可以借助经验或者一些数学工具给出以明确且上下限相差较小的范围。 3、K-means算法的设计(1)数据结构 typedef struct srcdouble dtM; src;int k;/分类个数int n=0;/数据行数int *iindex;/随机产生质心序号src *index;/存放质心src *indexback;/备份index里的数据int *sumi;/每个质心簇存放的个数src *data;/存放原始数据src *group;/存放聚类后的数据，二维(2)算法设计void Initializ();/读

34、入数据并进行质心初始化void Randomnum();/第一次随机产生质心组void CopyIndex();/备份质心组，将本次产生的质心记录以和下次迭代的质心比较，当两次质心完全一致时，认为已经聚类完毕。void Creatgroup();/为每一个数据分配组 void Group(int ti,src val);/int ComIndex();/比较两次质心，如果完全一致结束迭代void IndexChange();/每次分配数据后改变质心组for(i=0;i篇七：百度XX数据挖掘、机器学习实习一面百度XX数据挖掘机器学习实习一面(非计算机专业应聘百度技术类实习)5月6号上午百度数据挖

35、掘、机器学习实习笔试，从十点到十一点半，我提前了半个小时交卷，一行代码也没写，本来没想着能通过笔试了，没想到6号晚上正在上课时接到百度的面试通知，小小的兴奋了一下，不过第二天面试，连衣服都没来得及准备，晚上急匆匆的在上查了一些面试的技巧和注意事项。5月7号中午坐公交车到了国际饭店，没有见到有人接待，熟悉了一下环境，还有半个小时1点，于是坐在休闲沙发上等了一会。我提前5分钟去敲门了，面试官是一个三十岁左右的中年男士，看上去不是很严肃。他面前摆着一台笔记本，我是和他面对面的位置坐着的。我首先把简历给他看，他看了看就问了一个问题，然后又继续看我的简历，还有在笔记本上不知道写什么。我心里想怎么没有让自

36、我介绍哇，见他这时候没有在继续问，有一点冷场，于是我赶紧说“我先自我介绍一下吧”，他说好。我就按照事先准备的自我介绍了一下，过程中他没有打断，我基本就按照从本科到研究生的时间顺序介绍了一下自己都干过什么。然后他问到最大熵原理，我不懂。后来又问我对线性回归和logistic回归的理解，我只记得线性回归（由于刚考完计量经济学，对这个记得很清楚），跟他讲了关于最小二乘法估计参数，还有回归做完后要进行检验等等。至于logistic回归，实在是不记得了。他接着问我是偏重于系统还是算法，我说目前在项目里研究的主要是算法，他看看简历，问我关于遗传算法和蚁群算法。对遗传算法，我把它的流程讲了一遍，然后面试官问

37、我遗传算法主要在哪些方面应用，我回答组合优化、分类等，他就让我举例GA怎么应用在分类上的，我停顿了一两秒在冥思苦想，他看我不太知道，就让我说在其他方面的应用吧。于是我就把我们项目里的那个遗传算法跟他讲了（感觉跑题了，而且他在听到时候好像没怎么在意）。然后他继续问我ACO，就大概说了一下它的原理。然后，面试官出了一个情景题，大概是说从北京出发有很多旅游路线，怎样从上百万个游客旅游路线中选出最优旅游路线。跟ACO的机制很像，我冥思苦想用ACO解决，结果被他说出很多问题，然后问我有没有什么解决方法，讨论了半天，貌似是可以用关联规则挖掘。当我说出关联规则这个词时，他说可以用这个解决，我才恍然大悟，原来

38、思路被蚁群给限制了。他听到关联规则时，便在笔记本上写了啥，他就问我对关联规则了解多少，我就跟他说了Apriori算法。然后问我你对分类、聚类了解吗，我就列举了k均值聚类、神经络、k最近邻等。他还问我了一个问题，以后工作倾向于金融、计算机、互联的哪一方面，具体我也不太懂，我就说是互联，说研究生学的更偏重于互联。最后他问我能什么时候去实习，还有什么问题。我问了两个问题，一个是百度工作累不累，第二个是百度在深圳的发展。总的感觉就是，一定要把自己的想法说出来，不要被面试官限制思路，一定要有什么想法就说出来，我之前那个关联规则就一直没说出来，其实一开始是有这个想法的。然后就是表达要清楚，一开始那个线性

39、回归的原理我就没解释清楚，说的一塌糊涂。然后，对自己所说的一定要心里有底，你提到的每一个词都可能被考官抓来深入的问。最后，我后悔最后问的那个问题了，问他百度工作累不累，问完我就后悔了，不应该问这样的问题，就好像你怕累似的。篇八：实习报告实习报告学院：姓名：郭喜锋班级：实习单位：一、实习基本情况（一）、实习目的为了加强对统计学知识的理解，完善自己的知识理论体系。参观、学习企业的生产、销售流程和理解企业文化精髓，有利于加深对现代企业营销管理现状的了解，加深对统计学在企业中的感性和理性认识，并通过实习调研活动，锻炼分析实际综合问题的能力，培养认真、严谨的工作作风，为就业和将来的

40、学习工作提供一些宝贵的指导意见和实践经验。我们这次实习的主要目的有：1、企业对大学生的素质和知识技能的需求。2、统计在企业中的应用。3、统计的重要性。（二）、实习时间XX年7月12日XX年7月23日（三）、领队老师牛胜强（四）、实习地点兰石集团有限公司（五）、实习部门统计核算部（六）、实习单位简介兰州兰石集团有限公司（简称兰石集团）是按照建立现代企业制度的要求，在原兰州石油化工机械设备工程集团公司的基础上，于XX年12月27日改制组建的新型集团公司。兰石集团主营石油钻釆机械、炼油化工设备及通用机械设备制造。兰石集团的前身兰州石油化工机器总厂始建于1953年，是我国第一个五年计划期间国家156个

41、重点建设项目中的两个项目兰州石油化工机械厂和兰州炼油化工设备厂合并而成的，是我国最大的石油钻釆机械和炼油化工设备生产基地，企业占地面积万平方米。兰石集团现有兰州兰石国民油井石油工程有限公司、兰州兰石重型装备股份公司、兰州兰石机械制造有限公司、兰州兰石换热设备有限责任公司、兰州兰石精密机械设备有限公司、兰州四方容器设备有限责任公司、兰州兰石重工新技术有限公司、兰州兰石铸造有限责任公司、兰州兰石锻造热处理有限责任公司、兰州润安房地产开发有限公司、兰州兰石球罐工程有限责任公司、兰州兰石化工机械技术工程有限公司、兰州兰石环保工程有限责任公司、兰州石油化工机器工程有限责任公司、兰州安一物业管理有限公司、

42、甘肃机械电子职工大学兰州兰石集团公司分校（模拟法人运行）等16个控、参股子公司；有兰石商业运营管理公司、综合经营管理公司、新闻中心、动力公司、测试中心等企业化单位5家。（七）、实习日志7月12日：在集团人力资源部杨同事的带领下，我们参观了集团内部分属子公司的生产车间、装配车间、检测车间以及办公环境，学习了集团员工的规章制度、企业建设制度等。7月13-14日：我被安排在了集团下属的兰石重工新技术有限公司实习，在人力资源部吴部长的带领下，我参观了装配车间的生产环节，学习了车间工人应遵守的规章制度，最后被分派到公司统计核算部工作，在部门杨主任的引导下，了解了该部门的主要职能、工作重心以及对于统计专业

43、知识方面的应用。7月15-16日：依照工作原则，我学习了产业核算知识和企业经营统计知识，认识到了统计核算在起义当中的重要性，并且对与工业经营统计有了初步的了解，懂得了在一个企业当中应该怎样做统计核算工作。7月19-20日：学习了有关统计的各式报表，如统计台帐、统计报表、产品统计汇总表等。7月21-22日：和办公室同事一起学习做一些简单的报表，并仔细他们的讲解和指导意见，然后反复思考，融会贯通。7月23日：实习期满的最后一天，联系到了人力资源部的吴部长，从他那儿得知企业对于人才选拔的评价重点，尤其是统计专业的学生，必须得注重企业的应用，把学到的理论与实践很好的结合起来，本着企业的目标去学习专业知识。作为学生，在学校里一定要把学习搞好，这是一个学生走出社会接受工作的唯一评价标准。（八）、理论指导及内容为了让我们对于自己所学的专业（统计学）理论及应用有一个更深层次的理解，我院特组织了此次暑期专业性实习，我们一行五人与XX年7月12日-7月23日在兰石集团有限公司进行了为期十天的专业实习，主要围绕实习目的，于此，我们被安排在了公司统计核算部门实习，并且也了解到了有关公司的统计软文，统计报表、统计台帐、有关此行业的统计资料，让我们认识到了统计在现代企事业单位的应用及方向，可以说没有统计就没有行业，无论哪一行都会用到统计，尤其是

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘实习报告

文档简介

温馨提示

最新文档

评论

数据挖掘实习报告

文档简介

温馨提示

最新文档

评论

相关文档