基于Spark的交互式数据探索与建模系统_第1页
基于Spark的交互式数据探索与建模系统_第2页
基于Spark的交互式数据探索与建模系统_第3页
基于Spark的交互式数据探索与建模系统_第4页
基于Spark的交互式数据探索与建模系统_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DI:基于SPARK的交互式数据探索与建模系统企业级应用中,BI已经满足不了业务人员的数据分析需求用户越来越希望用高级数据分析方法提升业务能力开发数据价值依赖于大量的懂业务的数据分析人员需要强大易用的大数据分析系统大数据分析需求变化大数据分析需要掌握这么多装备数据分析往往利用多种编程语言或系统管理不同的数据挖掘任务和机器学习流程需要掌握从分布式系统到数据分析等众多门槛很高的工具和技能为什么不能有这样的分析工具?针对普通的数据分析人员几乎不需要编程开发分布式程序提供直观易用的图形化系统界面提供可扩展的数据分析手段可处理大规模数据集计算能力可线性增加部署运维简单技术选型:Spark基于内存的架构极

2、大的减少了磁盘I/O通用任务上20-100 x速度的提升精简且表达力强大的语法(如Spark2.0的Dataframe)统一的编程模型能用主流的编程语言Java,Phthon,Scala新工具减少使用的障碍(Spark2.0支持SQL2003)和已有的Hadoop生态系统能很好的工作大量的社区贡献者持续的对Spark技术栈组件进行持续的 快速更新性能高效利用Hadoop资产持续改进通过增加机器计算能力实现整体分析能力的线性扩展单个计算节点失效后自动重算利用自动持久化确保整个计算过程可靠完成扩展性Spark2.0的性能Iteration 1CPUMemoryIteration 2CPUMemor

3、yZero Read/Write Disk BottleneckHDFSReadInputChain Job Output Into New Job InputSparkDI:交互式数据探索框架常驻内存 服务TorandoWeb服务js每个工程运行在一个单 独的Spark环境Spark环境资源由YARN 分配调度DI和Spark常驻内存, 通过消息队列交互利用RDD保存探索过程 中的各种中间表DI概览操作对象抽象为表函数式编程思想所有算子不改变原表 数据增加列或生成新表新表单独保存算子操作异步运行记录算子流程DAG流程持久化,实现自 动批处理数据转换数据准备抽样过滤均匀/随机/分层抽样多条件组

4、合过滤根据距离/密度/局部离群 因子/类离群因子/离群点 检测的聚类过滤离群点去重合并左右连接Join取交集/并集合并Merge多列联合主键去重识别并移除冗余变量构造根据已有变量拆分/组合/抽取/ 运算生成新变量支持数学/统计/文本/日期等100多种函数运算及其逻辑组合根据离散或连续分布函数/等差/等比/日期分布等生成基础列 数据归一化分箱按根据字典数据替换不同变量进行取值区间归一化连续变量离散化等频/等距/Bootstrap/聚类等分箱利用变量统计值填充空值将数值型数据按箱子的个数进行等距离分箱,得到每一 行的年龄数据归属于哪一个 年龄段的数据典型功能文本抽取等距分箱文本分析利用文档预处理、

5、自然语言处理、主题检测等功能分析文本数据,便于数据分析人员处理非结 构化文本数据。文本分析文本挖掘词句段切分支持多种不同的词语切分 方法和用户词典加载提供段落和句子切分功能提供新词发现功能,利用 互信息熵、条件随机场 CRF等算法实体识别提取标准实体,如人名、地名、 时间、日期和物理量等提取特定领域的概念特征词抽取提供TFIDF统计计算利用TextRank算法抽取特 征词Word2vec词向量模型文本分类文本聚类文档矩阵主题分析典型算子:特征词提取从目标文本中按某种算法提取关键词TFIDF算法TextRank算法将待抽取关键词的文本进行分词固定长度为n(通常取5)的窗口,在一个窗口中的任两个单

6、词对 应的节点之间存在一个无向无权的边基于窗口分割后的边构建TextGraph图,利用PageRank计算每个 节点的重要性得到最重要的k个节点即提取出了k个关键词长度为3的窗口信息熵定义新词识别词频自由度(片段所有可能左右邻的混乱程度)例句:利用公用配电负荷历史负载率以及中长期配电负荷预 测结果,结合配变的容量,指出负荷容量不足和容量过剩的 配变。片段“负荷”的所有左邻字实例为电, 出 熵为 - (ln() + ln() 0.693片段“负荷”的所有右邻字实例为历, 预, 容 熵为 - (ln() + 1/3ln(1/3) + 1/3ln(1/3) 1.08“负荷”的右邻字比左邻字更丰富更灵

7、活凝合度令n为文本的长度,令f(x)为字符串x在文本中出现的次数令p(x)为f(x)/n,即字符串x出现的概率定义“负载率”的可拆分度为:max(p(负)p(载率) / p(负载率), p(负载)p(率) / p(负载率)典型算子:新词识别利用知网电力领域期刊全文数据50G文本数据抽取新词1100个俄统国际生物质燃料 热电联产 能源消费电价基 固体生物质抽 水蓄能农村电气化生物甲烷联 合循环 资产融资 乙醇燃料国际电 力运输燃料南卡生物质柴油生物质供热并网太阳能 燃料混合矿产能源部埃克森美孚特 太阳能法令光伏组件并网光伏 全球光伏卡 奥拉巴萨能源国际燃料车税收激励 许权招标亚联邦 径流式燃能系

8、统典型算子:词语语义距离分析Word2Vecl 每个词表示为一个高维向量l 利用多层神经网络和统计语言模型训练 出词的向量表示l 利用空间向量模型Cos计算距离探索分析探索分析离散相关分析特征降维(列相关分析)变量聚类主成分分析PCA支持维度的层次划分支持多种度量的计算函数变量统计描述性数据统计,包括常 见统计量、分位数等提供变量概率密度和直方 图,以及分布推断实现变量信息熵和信息值IV计算多维分组汇总OLAP行相关分析关联规则分析,支持频繁 项集的交互式筛选对连续和离散变量的 K 均值聚类,自动估计最佳 聚类数量,输出整个数据 集的聚类归属和距离测量 值超过20种相似性距离测量 方法相关性度

9、量:pearson、spearman、余弦相关系数、互 信息等共现矩阵分析自相关矩阵分析互相关矩阵分析典型算子1:多维分组统计利用cube进行分组汇总16ItemColorQtySumTableBlue123TableRed223ChairBlue101ChairRed210ItemColorQtySumTableBlue123TableRed223TableALL347ChairBlue101ChairRed210ChairALL311ALLBlue225ALLRed433ALLALl658提供了对数据进行多种维度、多种度 量方法进行汇总展示的功能。快速获取数据的宏观统计信息。X5 X6 X

10、7是维度,以交叉表的方式展现了分类 汇总的统计信息分组汇总示例支持维度、指标的交互式拖 拽和实时计算相关性分析基础:距离度量方法典型算子2:特征降维(列相关)用途数据建模则需要快速挖掘出与目标相关度最高的特征建模前无法确定输入变量对目标变量的预测能力,把可能的基础变量和衍 生变量放到模型中,但这些变量特别是衍生变量之间可能会存在相关性, 会导致模型的多重共线性,从而造成模型整体预测能力的下降。例子保险业务保单号、被保险人、车牌号、保费收入、起保日期、已赚保费解决方法主成分分析/卡方检验/岭回归等(无法解释)变量聚类采用相关系数,夹角余弦和列联系数来寻找反映元素之间亲疏关系的统计量, 然后依据此

11、把变量分为若干组。把高度相关的变量聚到一组,每一组内的变量之间信息重合度很高,互补性很 弱,而组间的变量相关性则很低,信息重合度很弱,互补性很强。从每一组选择一两个最具有代表性的变量代表整个类别,参与建模。论文数据问题:科研合作分析探索的是作者之间的合作关系 相关性方法支持pearson、cos典型算子3:离散自相关矩阵分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5R1R2R3R4R5A110100A211010A

12、311001A400101A500110A1A2A3A4A5A11111A21201A31210A41011A51101A1A2A3A4A5A110.4080.4080.50.5A20.40810.66700.408A30.4080.66710.4080A40.500.40810.5A50.50.40800.51A1A2A3A4A5A11-0.167-0.1670.1670.167A2-0.16710.167-1-0.167A3-0.1670.1671-0.167-1A40.167-1-0.16710.167A50.167-0.167-10.1671原始数据表矩阵变换共现相关性cos相关性pe

13、arson相关性投影应用:保险欺诈合谋分析案件编号人员车牌地点金额344561段建华,张 华,许卫湘A2BA32,湘AA1391,湘 ZG00069板仓南路20000344562罗坚,肖蓉湘J7ZH83,湘AL5S85开元西路50000344563王丽萍,刘 双泉湘A65N90,湘A1661K寿昌路100000344564彭发兵,周 辉,苏英雄湘A2ZB92,湘B2HL12,湘 A2KA19人民路70000344565张斌,王丽 萍,湘AT8137,湘A65N90湘江东路10000344567344568344569344570344571谢前01101敬春桥00010罗坚01001肖蓉001

14、00刘双泉01000谢前敬春 桥罗坚肖蓉刘双 泉谢前0211敬春 桥0000罗坚2001肖蓉1000刘双 泉1010谢前敬春桥罗坚肖蓉刘双泉谢前100.8160.5770.577敬春桥01000罗坚0.8160100.707肖蓉0.5770010刘双泉0.57700.70701谢前敬春桥罗坚肖蓉刘双泉谢前1-0.6120.6670.4080.408敬春桥-0.6121-0.408-0.25-0.25罗坚0.667-0.4081-0.4080.612肖蓉0.408-0.25-0.4081-0.25刘双泉0.408-0.25-1-0.251理赔数据表矩阵变换共现相关性cos相关性pearson相关

15、性合谋关系分析可视化Aduna图合作关系可视化相关矩阵分析map车辆自相关分析案件编号人员车牌地点金额344573周辉,朱师翰湘A65N90, 湘A1661K桂花路20000344574苏英雄,莫贵木, 罗坚,肖蓉,谢 前湘A2KA19, 湘AT0101, 湘J7ZH85, 湘AL5S84, 湘AA0390人民路50000344575张斌,刘荣湘A632AK, 湘AUQ852开元西路100000344576罗德臻,王丽萍湘A9HT68, 湘A65N90北斗路70000344577吴海龙,张华湘AVB590, 湘AA1391北斗路100003445733445743445753445763445

16、77湘ZG006900000湘A2KA1901000湘AA039001000湘A65N9010010湘AA139100001湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910000湘A2KA1901100湘AA039001100湘A65N9000010湘AA139100000原始数据表矩阵变换cos相关性典型算子4:离散互相关矩阵分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5B

17、1B2B3B4B5A112200A212120A312111A411101A511110A1A2A3A4A5A13333A23500A33520A43023A53003A1A2A3A4A5A110.70.7830.8490.849A20.710.8940.5660.849A30.7830.89410.7910.791A40.8490.5660.79110.8A50.8490.8490.7910.81A1A2A3A4A5A110.250.3540.5480.548A20.2510.707-0.5480.548A30.3540.707100A40.548-0.54801-0.2A50.5480.5

18、480-0.21原始数据表矩阵变换共现互相关性cos互相关性pearson互相关性投影应用:从报案地点看合作欺诈关系案件编号人员车牌地点金额344561段建华,张 华,许卫湘A2BA32,湘AA1391 湘ZG00069板仓南 路20000344564彭发兵,周 辉,苏英雄湘A2ZB92,湘B2HL12 湘A2KA19人民路70000344574苏英雄,莫 贵木,罗坚, 肖蓉,谢前湘A2KA19,湘AT0101 湘J7ZH85,湘AL5S84 湘AA0390人民路50000344563王丽萍,刘 双泉湘A65N90,湘A1661K寿昌路100000344581张华,莫木 贵,许卫湘AA1391

19、,湘AT0101 湘ZG00069板仓南 路100000板仓南路开元西路寿昌路人民路湘江东路湘ZG006930000湘A2KA1900020湘AA039000010湘A65N9000101湘AA139130000湘ZG0069湘A2KA19湘 AA0390湘A65N90湘AA1391湘ZG00690003湘A2KA190100湘AA03900100湘A65N900000湘AA13913000湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910001湘A2KA1901100湘AA039001100湘A65N9000010湘AA139110001理赔数据表矩阵变

20、换共现互相关Cos互相关湘ZG0069湘A2KA19湘AA0390湘A65N90湘AA1391湘ZG006910000湘A2KA1901100湘AA039001100湘A65N9000010湘AA139100000cos自相关可疑车辆可视化离散矩阵分析实质二分图很多应用领域医疗领域药品关联分析公共安全(相同时间/机场)乘坐相同航班的同乘分析(相同时间/地点)的紧密通话客户分析科技领域研发相类似技术领域的竞争对手分析典型算子5: 频繁项探索记录属性 间的关联性数据建模模型建立-无需编写代码,在web页面可配置模型参数进行学习、评价、调优、存储 模型评价在界面上即可对生成的模型进行评价。模型预测在

21、界面上选取保持的模型及要进行预测的数据集即可生成预测数据机器学习模型管理线性模型支持线性回归和逻辑回归模型, 支持任意程度嵌套效果、多项 式和曲线效果支持自动模型选择,提供丰富 的模型诊断结果和自动模型评 估。决策树和随机森林支持包含分类和连续特征的分类树和 回归树提供成本复杂性、C4.5 和减少误差 的自动修剪并基于保留最优树支持二分变量、名义变量和连续变 量的随机森林、自动组合多个决策树 预测单个目标自动分配独立模型训练任务,自动智 能调整参数设置确定最佳模型神经网络和支持向量机支持二分变量、名义变量和连续变 量的神经网络提供智能默认的大部分神经网络参 数,如激活和误差函数,定制神经网 络结构和加权支持二分变量的支持向量机模型, 线性和多项式内核模型训练利用分区数据集对预测模型结果进行测试比对,快速确定最佳模型利用提升表、ROC 图 表、协调统计 和错误分类表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论