数据挖掘实习报告

上传人：咫*** IP属地：江苏上传时间：2023-10-22 格式：DOCX 页数：31 大小：38.80KB 积分：30 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘实习报告篇一：数据挖掘实习报告通过六个月的实习，我在这里得到了一次较全方面的、系统的锻炼，也学到了许多课本上所学不到的知识和技能。下列是我这次的实习鉴定。经历了实习，对社会也有了基本的实践，让我学到了课本以外的知识，实习期间，我努力尽量做到理论与实践相结合，在实习期间能够恪守工作纪律，不迟到、早退，认真完毕领导交办的工作。在实习鉴定中，我参加了整个数据分析工作，从数据获取到数据清洗、数据报表的制订到模型的建立以及模型监控等等，让我充足学习了数据分析岗位的实际操作。在实习早期，项目经理安排了我参加数据获取的有关工作，重要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言理解较多，觉得这份工作非常简朴。但实际操作起来才懂得，在数据量达成几百兆甚至上GB级别的时候，所学的SQL根本解决不了问题。经向项目经理学习，这才懂得了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充足认识到所学知识远远不够。完毕数据获取阶段之后，项目经理开始安排数据清洗以及数据报表制订的有关工作。接到这份工作之初，对数据清洗并没有太多的认识，觉得诸多都是按照《数据挖掘》教材中环节进行就能够的。但通过项目经理指导之后才懂得数据清洗之前首先要对项目业务进行一定的理解，只有清晰了业务数据的来源、数据的实际意义才懂得哪些数据能够称为极端值，哪些数据又是不正常的，制订报告或者交给模型分析师时需要去除的等等。同时，在制订数据报表的同时学习了诸多excel函数的使用，透视表的使用，PPT报告的书写等等。在实习的后三个月，开始接触了模型的分析与监控。在学习《机器学习》以及《数据挖掘》课本时，总会想到多种各样的分类模型，也总会认为模型精确率高的模型才会是好模型。在运用统计模型之前，项目经理首先向实习生介绍了现在挖掘部门惯用的分类模型以及具体的某些使用办法。其中逻辑回归模型、决策树模型是惯用的分类模型，回归分析和时间序列模型是惯用的预测模型，这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经络模型之时，项目经理说，由于模型成果都是要给市场部门的同事报告的，因此模型成果最佳能够简朴易懂的。在实际工作才懂得，普通除了用模型精确率来衡量模型的效果外，尚有例如敏捷度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简朴，并不是用R软件上的几个函数，几行代码就能解决的，选择什么参数、选择什么样的模型，固然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的，这才发现项目经理之前提到的业务知识是多么的重要。在模型建立之后就是模型监控了，由于是我负责的项目，因此项目经理也将监控这一任务交给了我。数据挖掘模型普通状况下都是要上线的，但模型的效果会随着数据的变化而变化，当模型的指标达成一定程度时就需要修改模型。在这一阶段，充足锻炼了我的程序编写能力。在整一种实习过程，非常感谢项目经理予以了我数据挖掘整一种流程学习的机会，让我真正对数据挖掘的实际工作有了一定的认识，也让我学习到了诸多学校学习中学不到的实际操作能力，在此表达衷心的感谢。篇二：数据挖掘实验报告经贸学院市场营销专业数据挖掘管理实验报告实验名称：数据挖掘—聚类分析实验时间：XX年12月21日班级11252姓名潘宏学号1125219成绩指导老师王林一、数据建模过程1、启动SPSS双击窗口底部节点选项板中的“源”中的statistics文献建立文献，如图1。图12、右击statistics文献编辑，如图2。图23、点击省略号其中一种选择文献打开。单击应用并拟定，如图3和图3图44、双击输出选项中的表节点，如图5所示，表节点出现在工作区中。图55、如图6所示，右击运行表节点。能够看到图中有关客户资产购平台价值的数据统计。该数据包含A1，A2等字段。图66、如图7，在字段选项中双击类型节点，则类型节点出现在工作表中。图77、如图8，右击类型节点选择编辑，则出现一张有关字段的表，将全部字段角色项设为“输入”，这表达要将全部字段进行聚类分析。最后点击应用、拟定。图8篇三：《数据挖掘实训》weka实验报告论文（报告、案例分析）院系信息学院专业统计班级10级统计3班学生姓名李健学号XX210453任课教师刘洪伟XX年01月17日课程论文评分表《数据挖掘实训》课程论文选题规定：根据公开发表统计数据，请结合数据挖掘理论与办法，撰写一篇与数据挖掘领域有关的论文。写作规定：（1）数据精确、有时效性，必须是最新的数据。（2）文章必须有对应的统计办法，这些统计办法涉及以前专业课中学到的任何统计办法，如参数预计、假设检查、有关与回归、多元统计等等。（3）论文的内容必须是原创，有可靠的分析根据和明确的结论。（4）论文按照规定的格式化撰写；（5）字数不少于XX字。数据挖掘（WEKA软件）实验报告统计学专业学生李健学号XX210453核心词：数据挖掘；游玩；因素；WEKA本次实验指在纯熟的运用软件weka进行数据解决，其中涉及数据准备，关联规则等同时理解weka的基本使用方法。一、软件介绍1介绍数据挖掘、机器学习这些字眼，在某些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要诸多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特性提取，算法选择和参数调优上。那么，一种能够方便地提供这些功效的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)，是由新西兰怀卡托(Waikato)大学开发的机器学习软件，纯Java技术实现的开源软件，遵照于GNUGeneralPublicLicense，跨平台运行，集合了大量能承当数据挖掘任务的机器学习算法，分类器实现了惯用ZeroR算法、Id3算法、J4．8算法等40多个算法，聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法，能对数据进行预解决、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月，在第11届ACMSIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖，WEKA系统得到了广泛的承认，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(Attribute—RelationFileFormat)的数据文献构造。这种arff文献是普通的ASCII文本文献，内部构造很简朴，重要是测试算法使用的轻量级的数据文献构造。arff文献能够自己建立，也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文献能够分为两个部分。第一部分给出了头信息(Headinformation)，涉及关系声明(RelationDeclaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation)，即数据集中给出的数据。关系声明的定义格式为：@relation；属性声明的定义格式为：@attribute；数据信息的定义格式为独占一行的@data，背面跟着的就是数据信息。2.安装Weka的官方地址是http:///ml/weka/。点开左侧download栏，能够进入下载页面，里面有windows，macos，linux等平台下的版本，我们以windows系统作为示例。现在稳定的版本是。如果本机没有安装java，能够选择带有jre的版本。下载后是一种exe的可执行文献，双击进行安装即可。安装完毕，打启动动weka的快捷方式，如果能够看到下面的界面，那么恭喜，安装成功了。共有4个应用，分别是1）Explorer用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联规则，特性选择，数据可视化的功效。（AnenvironmentforexploringdatawithWEKA）2）Experimentor用来进行实验，对不同窗习方案进行数据测试的环境。（Anenvironmentforperformingexperimentsandconductingstatisticaltestsbetweenlearningschemes.）3）KnowledgeFlow功效和Explorer差不多，但是提供的接口不同，顾客能够使用拖拽的方式去建立实验方案。另外，它支持增量学习。（ThisenvironmentsupportsessentiallythesamefunctionsastheExplorerbutwithadrag-and-dropinterface.Oneadvantageisthatitsupportsincrementallearning.）4）SimpleCLI篇四：实训报告移动络优化实训报告班级：通信141学生姓名：班级序号：一、设计背景内容涉及：络优化应用背景介绍2G系统图、LTE系统图1、络优化应用背景介绍由于核心、传输的元少且环境稳定，移动通信优化事实上以无线优化为主，因此移动通信络优化也可称为无线络优化。无线络是通过改善手机和基站的空中接口信号性能来完毕优化过程，提高通信质量的。由于移动络变是不固定的，其动态变化频率高，再加上庞大的顾客群体、顾客的移动性、话务密度的不均匀性、频率不均匀性等，造成无线络的信号接口稳定性能差，反映到顾客方面即是通信质量的不稳定及弱势。例如，无法接通、通话无端中断、杂音干扰、单方通话等故障。移动通信络的建设耗费大量人力、财力，但是就现在此阶段现状而言，通信质量的不尽如意使得其投资与回报不成正比。而不间断的络硬件、数据调节，资源优化配备等途径能够优化通信络，可保持络处在最佳运行状态，由此改善通信服务质量，使得顾客能够切身感觉到畅通淋漓的络速度。2、移动络优化的现状由于现在技术的限制，移动通信络优化的实现需要借助于一定的工具，并且规定有关工作人员要含有较高的技能素质。普通而言，优化队伍的构成需含有资深的络优化工程师，若干技术人员，以及大量的自动化、智能化软件工具。现有的络优化工具重要有下列三种类型：其一，各系统供应商提供的OMC系统；其二，无线络及交换络测试分析的仪器、第三方软件，如路测软件和信令分析软件；其三，无线频率规划软件。其中，路测软件等是用来提供数据的，供应商提供的OMC系统多用来维护系统的。但是两者之间的联系甚是不紧密，再加上络优化涉及到交换技术、无线技术、频率配备、切换和信令、话务统计分析等技术，形成海量的信息急需高技术解决的局面，最后致使优化工作比较粗放。络优化的具体操作大致分为数据采集、数据分析、实施、评定四个阶段。数据采集需要耗费大量的人力通过人工操作、整顿、归类、汇总各类工具采集的海量数据。此阶段工作量大，但是难度较低。数据分析阶段工作量虽小但是很有难度。此阶段中，工程师需通过前阶段的数据来判断、分析、拟定所反映的问题，并得出一种包含不同地点、层次元的优化方案。然后是实施阶段，实施调节方案中拟定的络调节操作。最后是评定阶段，此阶段需再次进行数据采集工作，观察调节方案与否达成了效果，如果没有达成预期的效果，需再次重复整个过程；如果达成了效果，就再次设定新的、更高的优化目的，整个过程将再次在更高的层次重复。3、移动络发展的趋势智能优化是移动通信络优化发展的趋势。具体说来，能够分为下三个层面：一体化解决和简朴分析正如前文多说，络优化涉及到众多技术及工具。但是不同类别的工具确只对特定的问题才干发挥效能，这就造成了优化工具即使多，却各自分散难以整合，不能针对整个待整治的络构成优化方案。我们认为，系统供应商或者第三方软件提供商应当与运行商形成长久的战略合作络伙伴关系，通过持续努力，开发将环境数据和系统数据紧密绑定的软件系统，使该软件系统逐步含有对海量数据的一体化解决、简朴分析、数据挖掘、辅助智能决策、自动络参数调节等功效，使运行商的优化和维护人员从工作量大但难度相对较低的简朴、低层次的数据采集、实施阶段的工作中解放出来，从而能够专注于深层次的系统和环境方面的优化办法的研究，将研究成果快速应用于软件系统，并且能够快速得到证明的高级优化工作中来。这就是一体化解决和简朴分析。数据挖掘、辅助智能决策数据分析是络通信优化难度最大的一种阶段，它需要解决将大量不同技术领域的数据，而其中的谋求多种数据的内在关系是难中之难。数据挖掘是统计学和机器学的综合提，通过数据挖掘技术能够从数据库有效地筛过滤、筛选、分析、并提取价值信息，从而挖掘各数据的内在关联。数据挖掘能够挖掘一系列数据之间的联系，使得工程师建立符合本身团体特色的数据分析体系，从而为整体优化方案确实立提供辅助决策的功效。数据挖掘能够使络优化人员在短时间内挖掘各数据间的关联，能够解决许多以前我们想解决却缺少解决措施的问题。自动络参数调节当移动络优化系统的优化工具含有了辅助决策功效后，其数据分析成果是相称精确无误的，这点已被无多次实验成果所验证。然而，这并不是优化工具进化的终止点，在其前方仍然有大量可进步的空间。此时，我们可将优化软件的输出直接作用于OMC系统的配备功效模块上，通过OMC系统直接“指挥”络调节自己的系统参数。由此省去中间的设备通过及缓和，能够更加好地适应络环境参数的动态变化，从而为为顾客提供更加稳定及完善的通信质量。2G系统图LTE系统图二、新建GSM站点设计（1）按规定补充新建GSM站点信息（2）在EASYRNP的对应位置上新建站点，显示有关信息站点名、社区名、LAC、频点等信息GSM站点信息表三、新建LTE站点设计（1）按规定补充新建LTE站点信息（2）在MapInfo的对应位置上新建站点，显示有关信息站点名、社区名、TAC、频点、PCI等信息（3）根据站点具体位置规划邻区篇五：实习报告辽宁工程技术大学本科生实习报告书教学单位理学院专业数学与应用数学班级学生姓名学号指导教师四大分支。生物统计学用统计办法硕士物界的客观现象；数量遗传学用数学办法研究在多种不同状况下全体基因型的变化，研究数量性遗传规律；数学生态学用数学理论和和办法描述生态系统的的行为动态定量关系，建立多种生态模型，模拟动物行为；数学生物分类学使用当代数学办法和工具（特别是电子计算机）对古老的生物分类学进行研究。数学办法几乎渗入到生物学的每个角落。有人预言：生物学将会取代物理学成为使用数学工具最多的部门，21世纪可能是生物数学的黄金时代。生物数学含有丰富的数学理论基础，涉及集合论、概率论、统计数学、对策论、微积分、微分方程、线性代数、矩阵论和拓扑学,还涉及某些近代数学分支,如信息论、图论、控制论、系统论和含糊数学等。由于生命现象复杂,从生物学中提出的数学问题往往十分复杂,需要进行大量计算工作。因此，电脑是生物数学产生和发展的基础，成为研究和解决生物学问题的重要工具。然而就整个学科的内容而论，生物数学需要解决和研究的本质方面是生物学问题，数学和电脑仅仅是解决问题的工具和手段。因此，生物数学与其它生物边沿学科同样，普通被归属于生物学而不属于数学。在以前的学习中，生物就是生物，数学就是数学，两者看似没有什么关联。而事实上生物与数学息息有关，现实中大多数学科都与数学有关并以之为基础，通过本次学习，我意识到数学的强大，无处不在。三．数据科学家数据科学家，一种极具发展潜力的职业，现在的数据科学家已成为了高薪职业。招聘站报告称，数据科学家平均年薪为万美元，而程序员平均年薪为万美元，差距由此可见。“数据科学家”在XX年由NatahnYau初次提出，其概念是采用科学办法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家集技术专家与数量分析师的角色于一身，与传统数量分析师相比：后者普通运用公司的内部数据进行分析，以支持领导层的决策;而前者更多的是通过关注面对顾客的数据来发明不同特性的产品和流程，为客户提供故意义的增值服务。数据科学家”其实是从“大数据”引发的术语混乱中形成的。数据科学的核心能力被定义为：SQL、统计、预测建模和编程、Python等，这些听起来很合理。但是很快就有更多名词添加到其中：Hadoop/MapReduce、机器学习、可视化，甚至尚有传统的数学、物理、计算机科学等类似能力。许多人呼吁专业领域、商业智慧、发明力及体现能力也是同样重要的。一种数据科学家不能只擅长数字(这种人被称为统计学家或分析师)，也要能够理解业务：什么样的数据或成果才是有参考性的;能够找到新的数据集并为其发明新产品;然后能够让CEO们理解这一切。这是一种艰巨的任务，这个世界上这类人是极少的。作为顶尖的数据科学家，不规定他们对环境做出什么主动的变化，但是需要他们尝试做某些真正先进的东西，协助大家更加好的解决业务上的问题。数据科学家的六种能力：1.对数据的提取与综合能力；2.统计分析能力；3.数据洞察与信息挖掘能力；4.开发软件能力；5.络编程能力；6.数据的可视化表达能力。现在是一种大数据时代，几乎全部的事情都离不开数据解决。数据科学家，非常有前景的职业，也是我立志的目的。四．数学建模从学习专业课开始，我就理解到，应用数学的学习离不开数学建模。在不停的学习中，深刻的学习到数学建模的重要性。当需要从定量的角度分析和研究一种实际问题时，人们就要在进一步调查研究、理解对象信息、作出简化假设、分析内在规律等工作的基础上，用数学的符号和语言作表述，也就是建立数学模型，然后用通过计算得到的成果来解释实际问题，并接受实际的检查。这个建立数学模型的全过程就称为数学建模数学是研究现实世界数量关系和空间形式的科学，在它产生和发展的历史长河中，始终是和多种各样的应用问题紧密有关的。数学的特点不仅在于概念的抽象性、逻辑的严密性、结论的明确性和体系的完整性，自从20世纪以来，随着科学技术的快速发展和计算机的日益普及，人们对多种篇六：暑假实习报告合肥学院计算机科学与技术系系别：专业：班级：姓名：学号：成绩：认知实习报告计算机科学与技术计算机科学与技术10级计本班年日月认知实习报告根据合肥学院人才培养方案中的第五学期认知实习教学大纲的规定，我于XX年6月18号至XX年9月1日在校实习，进行“冰箱泄漏热负荷及性能预测”项目研究。一、项目介绍项目名称：冰箱泄漏热负荷及性能预测研究委托方：合肥美菱股份有限公司技术目的和内容：1、对已有产品漏热测试数据进行分析解决，拟合出冰箱保温层和门封泄漏热负荷的计算办法；2、根据冰箱泄漏热负荷、制冷系统设计、零部件选型，研究制订出冰箱性能（耗电量、开机率等）预测办法。二、认知实习经历项目需要大量有关聚类和分类的知识基础，我负责的是K-means算法、支持向量机（SupportVectorMachine，SVM）的研究。1、K-means算法的学习MacQue既在1967年提出的K-means算法,是一种被广泛应用于科学研究和工业应用中的典型聚类算法。K-means算法的核心思想是把n个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小。K-means算法是典型的局域原型的目的函数聚类办法的代表，它是数据点到原型的某种距离作为优化的目的函数，运用函数求极值的办法得到迭代运算的调节规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最有分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。2、K-means算法的研究我们经常接触到的聚类分析，普通都是数值聚类，一种常见的做法是同时提取N种特性，将它们放在一起构成一种N维向量，从而得到一种从原始数据集合到N维向量空间的映射——总是需要显式地或者隐式地完毕这样一种过程，然后基于某种规则进行分类，在该规则下，同组分类含有最大的相似性。假设我们提取到原始数据的集合为(x1,x2,,xn)，并且每个xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k≤n）值的条件下，将原始数据分成k类S={S1,S2,,Sk}，在数值模型上，即对下列体现式求最小值：(1)这里μi表达分类Si的平均值。设我们一共有N个数据点需要分为K个cluster簇，k-means要做的就是最小化(2)这个函数，其中0。直接寻找先固定和在数据点n被归类到clusterk的时候为1，否则为来最小化并不容易，但是我们能够采用迭代的措施：，很容易看出，只要将数据点归类到离他近来的那，再求最优的应当满足：。将对求导并，选择最优的个中心就能确保最小。下一步则固定令导数等于零，很容易得到最小的时候(3)亦即的值应当是全部clusterk中的数据点的平均值。由于每一次迭代都是取到的最小值，因此只会不停地减小（或者不变），而不会增加，这确保了k-means最后会达成一种极小值。即使k-means并不能确保总是能得到全局最优解，但是对于这样的问题，像k-means这种复杂度的算法，这样的成果已经是很不错的了。K-means算法流程以下，流程如图1所示：(1)从n个数据对象中任意选用k个对象作为初始的聚类中心。(2)分别计算每个对象到各个聚类中心的距离,把对象分派到距离近来的聚类中。(3)全部对象分派完毕后,重新计算k个聚类的中心。(4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。(5)输出聚类成果。图1K-means流程图即使K-means易于实现，但存在以下的缺点：(1)在K-means算法中K是事先给定的，这个K值的选定是非常难以预计的。诸多时候，事先并不懂得给定的数据集应当分成多少个类别才最适宜。(2).K-means算法是动态聚类，含有一定的自适应性，但是成果容易收到类别个数和出师聚类中心的影响，因此聚类成果取决于K值和初始聚类中心的选择。(3).从K-means算法框架能够看出，该算法需要不停地进行样本分类调节，不停地计算调节后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。(4).不能解决噪声数据和孤立点,不适合发现非凸面形状的簇。K-means的提出较早且易于理解和实现，但是由于上诉的局限性，因此在实际应用中往往会在传统K-means上加以改善。例如通过加权、主成成分分析、近邻比较等。具体的应用涉及：模式识别，空间数据分析（通过聚类特性空间创立GIS中的主题映射，探测空间簇,用空间数据挖掘解释它们），图像解决（例如遥感图像解决），经济学(特别指市场研究)，络（文档分类，对web日志数据进行聚类以发现相似访问模式组），商务（协助市场分析人员从客户基本库中发现不同的客户群,并且用购置模式来刻画不同的客户群的特性），土地使用（在一种地球观察数据库中识别相似土地使用的地区），保险业（汽车保险单持有者的分组），都市规划（房子的类型，价值和地理分布来识别房子组），生物学（用于推导植物和动物的分类，对基因进行分类）等。但是应用K-means的领域有一种共同的特性，那就是K值能够借助经验或者某些数学工具给出以明确且上下限相差较小的范畴。3、K-means算法的设计(1)数据构造typedefstructsrc{doubledt[M];}src;intk;//分类个数intn=0;//数据行数int*iindex;//随机产生质心序号src*index;//寄存质心src*indexback;//备份index里的数据int*sumi;//每个质心簇寄存的个数src*data;//寄存原始数据src**group;//寄存聚类后的数据，二维(2)算法设计voidInitializ();//读入数据并进行质心初始化voidRandomnum();//第一次随机产生质心组voidCopyIndex();//备份质心组，将本次产生的质心统计以和下次迭代的质心比较，当两次质心完全一致时，认为已经聚类完毕。voidCreatgroup();//为每一种数据分派组voidGroup(intti,srcval);//intComIndex();//比较两次质心，如果完全一致结束迭代voidIndexChange();//每次分派数据后变化质心组for(i=0;i{篇七：百度XX数据挖掘、机器学习实习一面百度XX数据挖掘\机器学习实习一面(非计算机专业应聘百度技术类实习)5月6号上午百度数据挖掘、机器学习实习笔试，从十点到十一点半，我提前了半个小时交卷，一行代码也没写，原来没想着能通过笔试了，没想到6号晚上正在上学时接到百度的面试告知，小小的兴奋了一下，但是第二天面试，连衣服都没来得及准备，晚上急匆匆的在上查了某些面试的技巧和注意事项。5月7号中午坐公交车到了国际饭店，没有见到有人接待，熟悉了一下环境，尚有半个小时1点，于是坐在休闲沙发上等了一会。我提前5分钟去敲门了，面试官是一种三十岁左右的中年男士，看上去不是很严肃。他面前摆着一台笔记本，我是和他面对面的位置坐着的。我首先把简历给他看，他看了看就问了一种问题，然后又继续看我的简历，尚有在笔记本上不懂得写什么。我心里想怎么没有让自我介绍哇，见他这时候没有在继续问，有一点冷场，于是我赶快说“我先自我介绍一下吧”，他说好。我就按照事先准备的自我介绍了一下，过程中他没有打断，我基本就按照从本科到硕士的时间次序介绍了一下自己都干过什么。然后他问到最大熵原理，我不懂。后来又问我对线性回归和logistic回归的理解，我只记得线性回归（由于刚考完计量经济学，对这个记得很清晰），跟他讲了有关最小二乘法预计参数，尚有回归做完后要进行检查等等。至于logistic回归，实在是不记得了。他接着问我是偏重于系统还是算法，我说现在在项目里研究的重要是算法，他看看简历，问我有关遗传算法和蚁群算法。对遗传算法，我把它的流程讲了一遍，然背面试官问我遗传算法重要在哪些方面应用，我回答组合优化、分类等，他就让我举例GA怎么应用在分类上的，我停止了一两秒在冥思苦想，他看我不太懂得，就让我说在其它方面的应用吧。于是我就把我们项目里的那个遗传算法跟他讲了（感觉跑题了，并且他在听届时候仿佛没怎么在乎）。。。然后他继续问我ACO，就大概说了一下它的原理。。。然后，面试官出了一种情景题，大概是说从北京出发有诸多旅游路线，如何从上百万个游客旅游路线中选出最优旅游路线。跟ACO的机制很像，我冥思苦想用ACO解决，成果被他说出诸多问题，然后问我有无什么解决办法，讨论了半天，貌似是能够用关联规则挖掘。当我说出关联规则这个词时，他说能够用这个解决，我才恍然大悟，原来思路被蚁群给限制了。。。他听到关联规则时，便在笔记本上写了啥，他就问我对关联规则理解多少，我就跟他说了Apriori算法。然后问我你对分类、聚类理解吗，我就列举了k均值聚类、神经络、k近来邻等。。。他还问我了一种问题，后来工作倾向于金融、计算机、互联的哪首先，具体我也不太懂，我就说是互联，说硕士学的更偏重于互联。最后他问我能什么时候去实习，尚有什么问题。我问了两个问题，一种是百度工作累不累，第二个是百度在深圳的发展。总的感觉就是，一定要把自己的想法说出来，不要被面试官限制思路，一定要有什么想法就说出来，我之前那个关联规则就始终没说出来，其实一开始是有这个想法的。然后就是体现要清晰，一开始那个线性回归的原理我就没解释清晰，说的一塌糊涂。然后，对自己所说的一定要心里有底，你提到的每一种词都可能被考官抓来进一步的问。最后，我后悔最后问的那个问题了，问他百度工作累不累，问完我就后悔了，不应当问这样的问题，就仿佛你怕累似的。篇八：实习报告实习报告学院：姓名：郭喜锋班级：实习单位：一、实习基本状况（一）、实习目的为了加强对统计学知识的理解，完善自己的知识理论体系。参观、学习公司的生产、销售流程和理解公司文化精髓，有助于加深对当代公司营销管理现状的理解，加深对统计学在公司中的感性和理性认识，并通过实习调研活动，锻炼分析实际综合问题的能力，培养认真、严谨的工作作风，为就业和将来的学习工作提供某些珍贵的指导意见和实践经验。我们这次实习的重要目的有：1、公司对大学生的素质和知识技能的需求。2、统计在公司中的应用。3、统计的重要性。（二）、实习时间XX年7月12日——XX年7月23日（三）、领队老师牛胜强（四）、实习地点兰石集团有限公司（五）、实习部门统计核算部（六）、实习单位介绍兰州兰石集团有限公司（简称兰石集团）是按照建立当代公司制度的规定，在原兰州石油化工机械设备工程集团公司的基础上，于XX年12月27日改制组建的新型集团公司。兰石集团主营石油钻釆机械、炼油化工设备及通用机械设备制造。兰石集团的前身兰州石油化工机器总厂始建于1953年，是我国第一种五年计划期间国家156个重点建设项目中的两个项目—兰州石油化工机械厂和兰州炼油化工设备厂合并而成的，是我国最大的石油钻釆机械和炼油化工设备生产基地，公司占地面积万平方米。兰石集团现有兰州兰石国民油井石油工程有限公司、兰州兰石重型装备股份公司、兰州兰石机械制造有限公司、兰州兰石换热设备有限责任公司、兰州兰石精密机械设备有限公司、兰州四方容器设备有限责任公司、兰州兰石重工新技术有限公司、兰州兰石锻造有限责任公司、兰州兰石锻造热解决有限责任公司、兰州润安房地产开发有限公司、兰州兰石球罐工程有限责任公司、兰州兰石化工机械技术工程有限公司、兰州兰石环保工程有限责任公司、兰州石油化工机器工程有限责任公司、兰州安一物业管理有限公司、甘肃机械电子职工大学兰州兰石集团公司分校（模拟法人运行）等16个控、参股子公司；有兰石商业运行管理公司、综合经营管理公司、新闻中心、动力公司、测试中心等公司化单位5家。（七）、实习日志7月12日：在集团人力资源部杨同事的带领下，我们参观了集团内部分属子公司的生产车间、装配车间、检测车间以及办公环境，学习了集团员工的规章制度、公司建设制度等。7月13-14日：我被安排在了集团下属的兰石重工新技术有限公司实习，在人力资源部吴部长的带领下，我参观了装配车间的生产环节，学习了车间工人应恪守的规章制度，最后被分派到公司统计核算部工作，在部门杨主任的引导下，理解了该部门的重要职能、工作重心以及对于统计专业知识方面的应用。7月15-16日：根据工作原则，我学习了产业核算知识和公司经营统计知识，认识到了统计核算在起义当中的重要性，并且对与工业经营统计有了初步的理解，懂得了在一种公司当中应当如何做统计核算工作。7月19-20日：学习了有关统计的各式报表，如统计台帐、统计报表、产品统计汇总表等。7月21-22日：和办公室同事一起学习做某些简朴的报表，并认真他们的解说和指导意见，然后重复思考，融会贯穿。7月23日：实习期满的最后一天，联系到了人力资源部的吴部长，从他那儿得知公司对于人才选拔的评价重点，特别是统计专业的学生，必须得重视公司的应用，把学到的理论与实践较好的结合起来，本着公司的目的去学习专业知识。作为学生，在学校里一定要把学习搞好，这是一种学生走出社会接受工作的唯一评价原则。（八）、理论指导及内容为了让我们对于自己所学的专业（统计学）理论及应用有一种更深层次的理解，我院特组织了本次暑期专业性实习，我们一行五人与XX年7月12日-7月23日在兰石集团有限公司进行了为期十天的专业实习，重要围绕实习目的，于此，我们被安排在了公司统计核算部门实习，并且也理解到了有关公司的统计软文，统计报表、统计台帐、有关此行业的统计资料，让我们认识到了统计在当代企事业单位的应用及方向，能够说没有统计就没有行业，无论哪一行都会

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘实习报告

文档简介

温馨提示

最新文档

评论

数据挖掘实习报告

文档简介

温馨提示

最新文档

评论

相关文档