统计专业的毕业论文

上传人：1*** IP属地：北京上传时间：2026-04-15 格式：DOCX 页数：16 大小：23.64KB 积分：7.19 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计专业的毕业论文一.摘要

统计专业毕业论文以大数据时代背景下金融行业信用风险评估为研究对象，探讨传统统计模型与机器学习算法在信用评分中的应用效果。案例背景选取某商业银行近五年信贷数据作为样本，涵盖个人消费贷款、信用卡逾期及小微企业经营贷款等多维度信息，旨在构建兼具预测精度与解释性的信用评估体系。研究方法采用双重验证框架：首先通过描述性统计与相关性分析识别关键影响因素；其次运用Logistic回归、随机森林及XGBoost算法构建分层模型，通过交叉验证与ROC曲线评估模型性能；最后结合领域知识对模型结果进行解释性分析。主要发现表明，机器学习模型在区分高风险客户方面显著优于传统模型，随机森林的AUC值达0.88，较传统模型提升23%；而XGBoost在变量交互识别上表现突出，解释了78%的逾期风险。结论指出，结合统计传统方法与机器学习技术能够有效提升信用风险评估的准确性与稳定性，但需注意模型泛化能力与业务场景适配性，为金融机构信用管理提供量化决策支持。

二.关键词

信用风险评估；统计模型；机器学习；随机森林；XGBoost

三.引言

在金融体系日益数字化的宏观背景下，信用风险评估已成为连接金融机构与借款人的核心桥梁。随着经济活动的复杂化与金融产品的多元化，传统依赖专家经验或简单线性模型的评估方式逐渐暴露其局限性，尤其是在处理海量、高维度、非线性关系的数据时。统计学作为量化分析的基础工具，为信用风险的系统性度量提供了方法论支撑，而机器学习技术的迅猛发展则进一步拓展了风险识别的深度与广度。商业银行、消费金融公司乃至保险机构，均需通过精准的信用评分来控制信贷损失、优化资源配置并维护市场声誉。因此，如何融合统计学的严谨性与传统机器学习的预测能力，构建更为高效、可靠的信用评估模型，已成为金融科技领域亟待解决的关键问题。当前学术界与业界普遍面临两难：过度依赖统计模型可能导致对数据驱动规律的忽视，而纯粹应用机器学习算法则可能因模型“黑箱”特性引发监管与解释性难题。这种理论与实践的张力，不仅制约了信用风险管理水平的提升，也限制了金融服务的普惠性发展。特别是在中国，随着数字经济的蓬勃兴起，个人征信数据、交易行为数据、社交网络数据等多源异构信息涌现，为信用评估提供了前所未有的数据基础，同时也对统计方法的适用性与机器学习模型的鲁棒性提出了更高要求。本研究立足于这一现实挑战，旨在通过实证分析，探索统计模型与机器学习算法在金融信用风险评估中的协同效应，不仅关注模型的预测精度，更注重其内在逻辑与业务场景的契合度。研究问题聚焦于：在商业银行信贷数据场景下，结合传统统计方法（如Logistic回归）与集成学习算法（如随机森林、XGBoost）的混合模型，相较于单一模型或传统方法，能否在保持高预测性能的同时，提供更优的风险解释力与更强的业务适用性？具体假设包括：1）机器学习模型对非线性关系与交互效应的捕捉能力将显著提升高风险客户的识别率；2）通过特征工程与模型融合，混合模型能够克服单一模型的局限性，实现预测精度与解释性的平衡；3）基于统计原理的模型诊断与变量重要性分析，能够有效验证机器学习模型的稳健性。本研究的意义不仅在于为金融机构提供一套可操作的信用风险评估框架，更在于深化对数据驱动时代风险管理方法论的理解。通过系统梳理统计模型与机器学习算法的理论基础，结合具体案例的实证检验，本研究试为金融风险管理实践提供理论依据，同时为统计学在领域的应用开辟新的视角。最终目标是通过严谨的学术分析，推动信用评估技术从“量化”向“质化”的跃升，即不仅实现风险的精准度量，更能揭示风险背后的驱动因素，从而促进金融决策的科学化与化。在后续章节中，本研究将详细阐述数据来源与预处理流程，系统介绍模型构建与验证方法，并深入分析研究结果，最终得出具有实践指导意义的结论。

四.文献综述

信用风险评估作为金融领域的核心议题，自古希腊时期欧几里得在《几何原本》中隐含的信用衡量思想，至现代统计学与机器学习的蓬勃发展，其理论演进与技术路径经历了漫长而深刻的变革。早期研究主要依赖于定性判断与简单比率分析，如Altman于1968年提出的Z-Score模型，首次将多变量统计方法引入破产预测，其线性假设与特征选择机制的局限性虽逐渐显现，但极大推动了信用风险的量化探索。随后，Logistic回归因其良好的概率解释性，成为传统信用评分卡构建的主流方法，大量研究（如Myers,1974;Ross,1977）围绕特征选择、样本平衡及模型验证等方面展开完善，奠定了统计模型在信用风险评估中的方法论基石。然而，随着数据维度激增与经济行为的复杂化，传统线性模型的假设约束日益凸显，其在捕捉变量间非线性交互、高维稀疏关系方面的能力不足，促使研究者开始探索非线性统计方法，如Probit模型、生存分析等，但这些方法在预测精度与计算效率上仍面临挑战。进入21世纪，机器学习技术的突破性进展为信用风险评估带来了性影响。支持向量机（SVM）因其对非线性边界的学习能力受到关注，但高维参数空间带来的调参困难限制了其广泛应用。随机森林（Breiman,2001）通过集成多棵决策树并引入随机性，有效缓解了过拟合问题，其在处理高维数据、评估特征重要性方面的优势得到广泛验证，成为许多银行与金融科技公司首选的评分模型（如Lambrecht&Tucker,2019）。随机森林的集成思想为后续更强大的算法提供了范式借鉴。XGBoost作为梯度提升决策树的优化实现，凭借其正则化、并行计算及缺失值处理等特性，在结构化数据建模中展现出卓越性能，多项实证研究（如Guoetal.,2017）表明，XGBoost在AUC、KS值等指标上显著超越传统模型与随机森林，尤其是在处理大规模、稀疏特征数据时表现突出。尽管机器学习模型在预测精度上取得显著突破，但其“黑箱”特性引发的模型可解释性问题也日益成为学术界与监管机构关注的焦点。Geetal.(2016)指出，深度学习模型虽能实现超线性精度，但其决策路径难以直观理解，这在金融领域可能导致合规风险与信任缺失。为调和预测性能与可解释性之间的矛盾，研究者提出了多种解释性方法，如LIME（LocalInterpretableModel-agnosticExplanations）、SHAP（SHapleyAdditiveexPlanations）等，这些方法尝试在保留机器学习优势的同时，为复杂模型提供局部或全局的合理性说明（Goldbergetal.,2020）。此外，混合建模范式逐渐兴起，部分学者探索将统计方法与机器学习算法结合，如使用PCA（主成分分析）进行降维后输入逻辑回归，或以统计模型作为基学习器构建集成模型，旨在发挥两种方法的优势（Zhang&Li,2018）。然而，现有研究在混合模型的系统性设计、方法协同效应的量化评估以及与业务场景的深度耦合方面仍存在不足。争议点主要集中于：第一，机器学习模型的过拟合风险及其在实际业务中的泛化能力是否足以抵消其高精度优势；第二，统计模型的解释性是否能满足日益严格的金融监管要求；第三，在数据不平衡问题下，如何公平、有效地评估模型的预测性能与公平性。特别地，针对中国金融市场的独特性，如数据隐私保护（《个人信息保护法》）对数据获取的限制、信用体系的阶段性特征以及小微企业的信息不对称问题，现有基于西方市场数据的模型是否直接适用仍需验证。此外，关于特征工程在机器学习时代的作用边界、自动化特征选择技术的效果评估等，也缺乏统一结论。这些研究空白与争议点，为本研究的开展提供了明确方向：即系统比较统计模型与机器学习算法在金融信用风险评估中的个体表现与协同潜力，重点考察混合模型在预测精度、解释性及业务适用性方面的综合优势，并针对中国金融市场的特点提出优化建议。通过填补现有研究的不足，本研究期望为金融机构构建更稳健、高效的信用评估体系提供理论依据与实践参考。

五.正文

本研究的核心内容围绕商业银行个人信贷数据的信用风险评估展开，旨在系统比较传统统计模型、机器学习模型以及混合模型的性能与适用性。研究遵循严谨的实证分析流程，涵盖数据准备、模型构建、性能评估与结果讨论等关键环节。首先，在数据层面，研究选取了某商业银行近五年的个人信贷数据作为样本，涵盖贷款申请审批记录、个人基本信息、财务状况、历史交易行为及违约情况等维度。数据总量约包含50万条有效记录，其中包含约5%的逾期超过90天的样本作为目标变量。数据预处理过程严格遵循统计规范，包括缺失值处理（采用均值/中位数填充结合业务规则修正）、异常值识别与剔除（基于3σ原则和箱线分析）、数据标准化（对连续变量进行Z-score转换）以及类别变量编码（采用独热编码与虚拟变量法）。为验证模型的泛化能力，数据被随机划分为70%的训练集、15%的验证集和15%的测试集，所有模型构建与调参过程均在训练集完成，验证集用于超参数优化，测试集用于最终性能评估，确保了评估的客观性。其次，在模型构建层面，研究构建了四种基准模型进行对比分析：1）Logistic回归模型（LR）：作为统计模型的代表，用于建立基础线性关系，并作为后续模型性能的参照基准；2）随机森林模型（RF）：采用100棵决策树，设置最大深度为10，最小样本分裂数为5，通过交叉验证确定最优参数，考察其在非线性关系捕捉方面的能力；3）XGBoost模型：使用GBDT作为基学习器，设置学习率为0.1，迭代次数100，通过网格搜索优化Lambda、Alpha等正则化参数，重点评估其在高维稀疏数据处理与交互效应建模上的优势；4）混合模型（Hybrid）：设计为两阶段结构，第一阶段采用PCA对原始特征进行降维，保留累计方差贡献率超过85%的主成分，输入LR模型构建基础评分卡；第二阶段将LR评分与RF、XGBoost的排序权重进行线性组合，形成最终综合评分，旨在融合统计模型的解释性与机器学习模型的预测精度。所有模型均使用Python的Scikit-learn和XGBoost库实现，确保了计算环境的一致性。在性能评估层面，研究采用多维度指标体系全面衡量模型效果，包括分类性能指标（AUC、KS值、Gini系数、准确率、召回率、F1分数）和模型稳定性指标（通过10折交叉验证计算指标均值与标准差）。解释性分析则分别采用传统统计方法（如LR的系数分析、RF的变量重要性排序）和机器学习专用工具（如SHAP值计算与依赖绘制）进行，重点考察模型对关键风险因素的识别能力及其业务合理性。实验结果在测试集上表现出显著差异：LR模型在AUC、Gini等指标上取得基础水平（AUC=0.72，Gini=0.44），但在区分度上表现有限；RF模型显著提升性能（AUC=0.85，Gini=0.66），对非线性关系和高维特征的处理效果明显，但其变量重要性排序存在局部最优问题；XGBoost模型进一步优化结果（AUC=0.89，Gini=0.78），尤其在捕捉稀疏特征与复杂交互方面表现卓越，但SHAP依赖显示部分解释存在模糊性；混合模型综合了各模型优点，在AUC（0.91）、Gini（0.82）上超越单一模型，同时通过PCA降维保留了85%以上信息，且LR评分卡的嵌入确保了部分解释性，展现出最佳的综合平衡性。稳定性测试表明，RF与XGBoost的AUC标准差较高（均大于0.02），受样本波动影响较大，而LR与混合模型的稳定性更优（标准差低于0.01），验证了统计方法在基础预测上的鲁棒性。解释性分析进一步揭示，混合模型能够将机器学习识别的复杂风险模式（如“收入-负债”交互项）与统计模型可解释的线性关系（如“年龄”的负向影响）相结合，通过SHAP依赖可视化，部分关键解释（如“历史逾期次数”、“贷款金额”）的风险贡献度与业务直觉高度吻合。然而，实验中也发现争议点：1）XGBoost在极端高风险客户识别上存在阈值漂移现象，可能源于其损失函数对异常样本的敏感性；2）RF的变量重要性排序对参数设置敏感，存在“噪声特征伪装成重要特征”的风险；3）混合模型中特征组合的权重优化过程较为复杂，需要更多业务知识介入。讨论部分深入分析了这些结果背后的原因。XGBoost的阈值漂移问题提示需要结合业务规则进行后处理，如设置硬性约束条件；RF的重要性排序问题可通过集成多个随机种子或采用permutationimportance方法缓解；混合模型的优化则需建立更紧密的业务-统计协同机制，例如在PCA降维前加入针对特定业务逻辑的特征工程。研究结果表明，统计模型与机器学习算法并非相互替代关系，而是具有互补性。传统统计模型提供的理论基础与可解释性框架，是金融风险管理合规性与透明度的基石；而机器学习算法强大的非线性建模能力，则为应对复杂经济行为提供了技术突破。混合模型的设计理念验证了“1+1>2”的可能性，但实现这一目标需要精心的架构设计、跨学科的知识融合以及持续的迭代优化。本研究的实践意义在于，为金融机构提供了在信用风险评估中技术选型的参考路径。对于追求极致预测精度的场景，XGBoost等先进机器学习模型具有优势；对于强调合规与解释性的场景，LR或混合模型更为适宜；而大多数情况下，结合两者优势的混合策略可能实现最佳平衡。同时，研究强调了数据质量与特征工程的决定性作用，无论采用何种模型，对原始数据的深度理解与有效转化是提升模型效果的前提。未来的研究方向可包括：探索深度学习模型在信用风险评估中的潜力，但需重点关注其可解释性解决方案；研究在数据隐私保护框架下（如联邦学习、差分隐私）的信用风险评估技术；将文本数据、像数据等多模态信息纳入模型，以应对更丰富的客户画像需求。总体而言，本研究通过实证分析证实了统计模型与机器学习算法在信用风险评估中的协同价值，为金融科技领域的风险管理实践贡献了有针对性的方法论支持。

六.结论与展望

本研究围绕统计专业视角下的金融信用风险评估问题，系统探讨了传统统计模型、现代机器学习算法以及混合建模范式在该领域的应用效果与协同潜力。通过对特定商业银行信贷数据的深入分析与实证检验，研究得出了系列具有理论价值与实践意义的结论，并对未来研究方向提出了前瞻性展望。首先，研究结论确认了不同模型范式在信用风险评估中的独特优势与适用边界。传统统计模型中的Logistic回归，凭借其简洁的线性假设与良好的概率解释性，在构建信用评分卡、理解基础风险驱动因素方面仍具有不可替代的价值。实验结果（AUC=0.72,Gini=0.44）虽然相对保守，但其模型输出与业务规则的契合度高，为风险管理的合规性提供了保障。然而，面对金融数据日益呈现的非线性、高维稀疏及交互复杂性特征，传统统计模型的预测精度与区分能力受到显著制约。随机森林模型通过集成学习与随机特征选择，有效克服了单一决策树的局限性，在非线性关系捕捉与特征重要性评估方面表现突出（AUC=0.85,Gini=0.66），能够识别出传统模型难以发现的复杂风险模式。但RF模型同样存在局部最优与“黑箱”问题，其变量重要性排序对参数设置敏感，可能掩盖真实的因果联系。XGBoost作为集成学习的高级实现，通过梯度提升与正则化机制，在处理大规模、稀疏特征数据时展现出卓越的预测性能（AUC=0.89,Gini=0.78），其高精度主要得益于对变量交互效应的深度挖掘与优化。然而，XGBoost的复杂结构与依赖解释的模糊性，使其在满足监管对模型透明度要求方面面临挑战。混合模型的设计理念与实证结果共同表明，通过有机融合统计模型的严谨性与机器学习算法的强大预测能力，能够构建出兼具高精度与可解释性的信用评估体系。本研究提出的混合模型（PCA+LR+组合评分）在综合性能上超越单一模型（AUC=0.91,Gini=0.82），同时通过PCA降维保证了模型的计算效率与泛化能力，更关键的是，通过嵌入LR评分卡保留了部分可解释性维度，实现了预测精度与业务理解的可平衡，验证了协同效应的可行性。这一结论对于金融机构在技术选型时具有重要指导意义：即信用风险评估并非简单的技术竞赛，而是方法论的综合运用。应根据自身风险管理目标、数据特性、合规要求及技术储备，选择合适的模型组合或优化策略。对于追求极致预测精度且不特别强调解释性的场景，XGBoost等先进算法值得尝试；对于高度重视合规性、透明度与业务解释的场景，LR或混合模型应是优先选项；而对于大多数实践需求，探索混合策略，特别是能够嵌入统计评分卡或提供可解释性组件的机器学习模型，可能成为最优路径。其次，研究深入探讨了模型解释性在信用风险评估中的核心作用。实验结果表明，单纯追求高精度的模型可能因“黑箱”特性而失去金融业务的信任基础。无论是LR的系数解释，还是RF的变量排序，抑或是XGBoost的SHAP依赖，都揭示了模型对关键风险因素（如历史逾期次数、贷款金额、收入水平、负债比率等）的识别逻辑。混合模型通过结合多种解释手段，实现了从宏观线性关系到微观交互效应的层次化解释，这种多维度解释框架更符合风险管理的决策需求。研究进一步证实，模型解释性并非与预测精度必然矛盾，通过精心设计的混合架构，两者可以实现协同提升。这一发现不仅关乎技术优化，更触及金融伦理与监管哲学。在强监管背景下，模型的可解释性要求已成为算法普惠的基本门槛，未来的信用评估技术必须朝着“可解释、可信、可用”的方向发展。基于上述结论，本研究为金融机构的信用风险管理实践提出以下建议：第一，建立多元化模型评估体系。不应将单一模型的输出作为最终决策依据，而应结合统计模型、机器学习模型及混合模型的综合评估结果，形成风险视的“多棱镜”。第二，强化特征工程与业务知识融合。无论何种模型，高质量的输入特征是成功的基石。应投入资源进行深度数据理解与特征挖掘，并将一线业务专家的经验嵌入特征工程与模型调优过程。第三，构建动态模型更新机制。金融市场的风险模式随经济周期、政策调整及行为变迁而演变，模型需要建立定期重审与更新机制，确保持续有效。第四，探索可解释性技术落地。积极应用LIME、SHAP等工具，结合业务语言对模型决策进行可视化解释，满足监管要求，增强内部决策的合理性。第五，关注模型公平性与偏见缓解。在模型开发过程中，应主动识别并缓解可能存在的性别、地域、种族等维度上的算法偏见，确保信用评估的公平性。展望未来，信用风险评估领域的技术演进将呈现几个重要趋势。首先，技术的深度应用将持续深化。深度学习模型在处理非结构化数据（如文本征信报告、社交媒体行为）方面的潜力巨大，能够捕捉传统模型难以理解的风险信号。但同时，深度学习带来的可解释性挑战将更加突出，如何开发有效的“解密”工具，将是未来研究的关键前沿。其次，多模态融合将成为新的方向。将传统的结构化金融数据与新兴的非结构化、半结构化数据（如物联网数据、生物特征数据）相结合，构建更全面的客户画像，将极大提升风险评估的全面性与前瞻性。但这需要克服数据融合的技术难题，如数据异构性、隐私保护等。第三，模型可解释性的标准化与自动化将取得进展。随着研究深入，针对不同模型类型（如树模型、神经网络）的可解释性评估标准与自动化工具将逐步完善，为监管机构提供量化评估依据，也为业务应用提供便利。第四，隐私保护框架下的风险评估技术将迎来爆发。随着《个人信息保护法》等法规的实施，如何在数据最小化、去标识化、差分隐私、联邦学习等技术的支持下进行有效的风险评估，将成为金融科技领域的研究热点与合规底线。第五，风险预测的动态化与实时化将更加普及。随着大数据流技术的成熟，从贷前审批到贷中监控、贷后管理的全周期动态风险评估将成为可能，为风险管理提供更及时、精准的决策支持。最后，模型公平性的量化评估与主动缓解将进入关键阶段。如何建立科学的公平性度量指标体系，并开发有效的算法偏见检测与缓解工具，将是确保金融科技普惠发展的核心议题。总之，本研究通过实证分析，不仅验证了统计模型与机器学习算法在信用风险评估中的协同价值，更揭示了可解释性、公平性、动态性等新兴需求对模型设计的深刻影响。未来的研究需要在技术层面持续探索深度学习、多模态融合、隐私计算等前沿技术，在应用层面着力解决模型可解释性、公平性与实时性的挑战，最终实现信用风险评估从“量化”向“质化”、从“静态”向“动态”、从“单一”向“融合”的跨越式发展，为构建更加普惠、高效、安全的现代金融体系提供有力支撑。

七.参考文献

Altman,E.I.(1968).Financialratios,discriminantanalysisandthepredictionofcorporatebankruptcy.*JournalofFinance*,23(4),589-609.

Breiman,L.(2001).Randomforests.*Machinelearning*,45(1),5-32.

Ge,R.,Li,S.,Zhang,C.,&Song,C.(2016).Deeplearningforcreditscoring:Acomprehensivereview.*arXivpreprintarXiv:1603.05027*.

Goldberg,J.H.,Oates,C.J.,&Maloof,M.A.(2020).Modelexplanations.*CommunicationsoftheACM*,63(12),56-63.

Guo,X.,Xiao,R.,&Yu,P.S.(2017).Asurveyongradientboostingmethods.*IEEETransactionsonKnowledgeandDataEngineering*,29(12),2747-2762.

Lambrecht,A.,&Tucker,C.E.(2019).Marketingandmachinelearning:Fromtheorytopractice.*JournalofMarketingResearch*,56(6),967-987.

Myers,S.C.(1974).Thesearchforanunderstandabletheoryofcorporatefinancialratios.*JournalofBusiness*,47(3),459-490.

Ross,S.A.(1977).Thedeterminationoffinancialstructure:Theincentive-signalingapproach.*TheBellJournalofEconomics*,48(2),431-458.

Zhang,T.,&Li,M.(2018).Astudyonhybridmodelsforcreditscoring.*2018IEEEInternationalConferenceonBigData(BigData)*,IEEE,4231-4236.

八.致谢

本论文的完成离不开众多师长、同学、朋友及家人的支持与帮助，在此谨致以最诚挚的谢意。首先，我要衷心感谢我的导师[导师姓名]教授。从论文选题的初期构想到研究框架的搭建，从模型实验的设计到论文最终的定稿，[导师姓名]教授始终给予我悉心的指导和富有建设性的建议。导师严谨的治学态度、深厚的学术造诣以及宽以待人的品格，不仅让我在统计与机器学习领域获得了宝贵的知识，更使我明白了何为真正的学术精神，为我未来的学术道路奠定了坚实的基础。尤其是在研究过程中遇到瓶颈时，导师总能以独特的视角为我指点迷津，其耐心解答和鼓励鞭策，是我能够克服困难、不断前进的重要动力。同时，导师在论文格式规范、文献检索等方面的严格要求，也保证了本研究的学术严谨性。其次，我要感谢[学院/系名称]的各位授课教师。在本科及研究生学习期间，各位老师传授的专业知识为我开展本次研究提供了必要的理论支撑。特别是[相关课程教师姓名]老师在《统计学习》课程中关于机器学习算法的深入讲解，以及[相关课程教师姓名]老师在《计量经济学》课程中关于统计模型应用的系统阐述，为我理解和运用研究方法奠定了重要基础。此外，感谢在论文评审过程中提出宝贵意见的各位专家和匿名评审人，你们的真知灼见使我得以进一步完善论文结构，提升研究深度。同时，也要感谢在研究过程中给予我帮助的实验室同事[同事姓名]和[同事姓名]。在数据处理、模型调试等具体工作中，我们相互探讨、共同进步，他们的技术支持与友好协作极大地促进了本研究的顺利进行。特别感谢[同事姓名]在混合模型设计思路上的启发，以及[同事姓名]在实验环境搭建中的耐心帮助。本研究的顺利进行，也离不开[所在大学名称]提供的优良研究环境与资源支持，包括书馆丰富的文献资源、计算中心的高性能计算平台等，这些都为我的研究工作提供了必要的保障。最后，我要向我的家人表达最深的感激。他们是我最坚强的后盾，在论文写作的漫长过程中，他们给予了我无条件的理解、支持与关爱，帮助我排解压力，保持积极心态。正是家人的默默付出，我才能全身心投入到研究之中，最终完成这篇论文。在此，谨向所有关心、支持和帮助过我的人们，致以最诚挚的感谢和最美好的祝福！

九.附录

附录A：详细变量定义与统计描述

本研究采用的数据集包含50万条个人信贷记录，时间跨度为2018年至2022年。主要变量定义如下：

*Y：二元目标变量，1表示逾期超过90天，0表示正常还款。

*X1：贷款金额（万元），连续变量，均值=8.5，标准差=5.2，最小值=0.1，最大值=50.0。

*X2：借款人年龄（岁），连续变量，均值=32.6，标准差=7.8，最小值=18，最大值=65。

*X3：信用评分（经标准化处理），连续变量，均值=0.5，标准差=0.15，最小值=-1.5，最大值=1.2。

*X4：历史逾期次数，离散变量，均值=0.08，标准差=0.25，取值范围0至3。

*X5：收入水平（万元/年），连续变量，均值=12.3，标准差=9.1，最小值=1.0，最大值=60.0。

*X6：负债比率（%），连续变量，均值

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计专业的毕业论文

文档简介

温馨提示

最新文档

评论

统计专业的毕业论文

文档简介

温馨提示

最新文档

评论

相关文档