飞象大数据分析系统原语参考手册

上传人：我*** IP属地：北京上传时间：2022-02-26 格式：DOCX 页数：191 大小：5.68MB 积分：14 举报 版权申诉

已阅读5页，还剩186页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、参考手册u 文档信息u 版本历史序号文档版本时间说明修改人1V1.12016-05-04初稿gjw2V1.42016-05-13修订稿llm3V1.52016-05-30重新排版dxm4V3.32016-11-18更新ww5V3.42017-01-13更新学习ww6V3.52017-06-21更新ww文档名称飞象大数据分析系统参考手册文档编号编制人制作日期2017-06-21文档版本V3.5适用范围技术体系密级公开参考手册目录1基础知识11.1 DATAFRAME 结构1DF 表的结构示例11.2 内部结构11.3 引擎. 21.4 OPENFEA 界面3基础2. 32.1 新建打开工作区 U

2、SE32.2 清除工作区 CLEAR42.3 定义 DEFINE52.4 显示 SHOW62.5 数据装载 LOAD 和STORE72.5.1 CSV/EXCEL/TXT/PKL 数据源82.5.2 UDB 数据源102.5.3 JDBC 数据源132.5.4 NoSQL 数据源152.6 过滤 FILTER162.7 排序 ORDER182.8 更新 UPDATE202.9 连接 JOIN202.10 合并 UNION232.11 选择列 LOC232.12 字符串函数处理 STR242.13 增加列 ADD262.14 分组统计 GROUP&AGG302.15 更改列名 RENAM

3、E332.16 更改列类型 ALTER332.17 去重 DISTINCT342.18 别名 ALIAS342.19 删除表 DROP342.20 绘图 PLOT352.21 表操作 EVAL382.22 循环加载 FOREACH LOAD402.23 循环运行 FOREACH RUN42参考手册2.24 输出 DUMP422.25 运行 RUN432.26 集群运行 CLUSTER442.27 设置定时器 SETTIMER452.28 清除定时器 CLEARTIMER462.29 清除日志 CLEARLOGS472.30 清除历史CLEAR HISTORY472.31 重启引擎 KILL47

4、SDF 函数详解4733.1 获取系统时间 SYS_NOW483.2 格式化时间 FORMAT_NOW503.3 字符串运算 SYS_STR513.4 定义常量 SYS_DEFINE523.5 LAMBDA 运算 SYS_LAMBDA523.6 单值运算 SYS_EVAL533.7 获取 DEFINE 函数 GET_DEFINE543.8 为执行函数 SYS_IF_RUN553.9为非执行函数 SYS_UNIF_RUN553.10 断点管理函数 SYS_NEXT_BP563.11 满足条件终止任务函数 SYS_IF_BREAK573.12 不满足条件终止任务函数 SYS_UNIF_BREAK5

5、7UDF 函数详解5744.1 UDF0 包584.1.1 新建空表 new_empty_df584.1.2 增加行 df_append594.1.3 克隆表 clone_df604.1.4 单字段分组统计 df_agg_count614.1.5 行列互换 df_T624.1.6 列类型 df_types624.1.7 简要信息 df_info634.1.8 简要统计 df_desc644.1.9 空值 df_isna654.1.10 填充空值 df_fillna664.1.11 设置索引 df_set_index674.1.12 索引排序 df_sort_index674.1.13 删除列

6、df_drop_col684.1.14 删除数字列 df_drop_icol684.1.15 删除行 df_drop_row694.1.16 行范围 df_limit694.1.17 重置索引 df_reset_index704.1.18 索引转矩阵 df_unstack71参考手册矩阵转索引 df_stack73数据归一化（最小-最大）df_min_max74数据归一化(零均值) df_mean_std75数据归一化(小数定标)df_10k78时间范围 new_df_hourrange79日期序列 new_df_daterange80时间周期函数 new_df_timerange80整数分割

7、 new_df_range81左连接 df_ljoin82右连接 df_rjoin83随机函数 df_random85分割为列 df_l2cs85合并列为 list df_cs2l86分割为 df 表 df_l2df88行处理 df_rowl89行处理 lambda 函数 df_row_lambda90多列合并函数 df_2one91去空函数 df_dropna92序号替换索引函数 df_seq_index93格式化列名函数 df_cols_fmt94增加列名前缀函数 df_cols_fix95累计和函数 df_cumsum96累计最大值函数 df_cummax97累计最大值函数 df_cum

8、min98累计乘积函数 df_cumprod99数量函数 df_count100差分函数 df_diff10....264.1.274.1.284.1.294.1.304.1.314.1.324.1.334.1.344.1.354.1.364.1.374.1.384.1.394.1.404.1.414.1.424.1.434.1.444.1.454.2 UDFA 包1024.2.1 符号分割 split_by_custom1024.2.2 合并列 merge_col_without_empty1034.2.3

9、统计大于 0 行数 row_numbers_unempty1044.2.4 合并表 left_join_fill1044.3 RS 包1064.3.1 http4.3.2 httpsload_http106load_https1074.3.3 excel 加载 load_excel1084.3.4 excel..84.3.9store_excel1083 加载 load_s31093store_s31093 查看 list_s31103 清除 clear_s31103 执行 SQL exec_s3_sql111参考手册4.3.10 删除文件 rm_file1

10、114.3.11 创建目录 mk_dir1124.3.12 移动文件 mv_file1124.3.13 查看文件 list_file1134.3.14 json 加载 load_json1134.3.15 jsonstore_json1144.3.16 hbase 加载 load_hbase1154.3.17 hbasestore_hbase1154.3.18 zbus 创建 create_zbus1164.3.19 zbusstore_zbus1164.3.20 zbus 加载 load_zbus1174.3.21 zbus 删除 remove_zbus1184.4 NTC 包1184.4.

11、1 整表邮件4.4.2 逐条邮件send_mail_one119send_mail1204.4.3 含附件逐条邮件send_mail21214.5 可视化 VL 包1234.5.1 热力图 hotmap1234.5.2sankey1254.5.3图 rgl1254.5.4 自定义图 rgl21264.5.5 自定义列宽 set_col_width1274.5.6 按均值等宽设图热力颜色 hotmap_mean1294.5.7 按最大最小值设图热力颜色 hotmap_max_min1304.5.8 按中位数设图热力颜色 hotmap_median1324.6 图计算 GL 包1334.6.1 D

12、f 表到图模型 df2G1334.6.2 图模型到 Df 表 G2df1344.6.3 有4.6.4 无闭环分析 cycle_A135闭环分析 cycle_B1354.6.5 图所有节点 all_nodes1364.6.6 添加 df 表到已有图中 add_df2G1374.6.7 无4.6.8 有转有转无to_A137to_B1384.6.9 两点间的最短路径 short_path21384.7 SQL 包1384.7.1 表空间 df_table1384.7.2 查看表空间 show_tables1394.7.3 执行 sql 语句 df_sql1404.7.4 删除临时表 drop_ta

13、ble1404.7.5 清空临时表空间 clean1414.8 学习 ML 包141参考手册4.8.1 数据处理14 练习数据加载 ML.load14 训练测试集划分 ML.tts1444.8.2 降维14主成分分析 ML.pca147主成分分析 ML.ica14二维可视化函数 ML.tsne149尺度分析 ML.mds150奇异值分解 ML.svd1524.8.3 分类（有监督）15 k 最近邻分类 ML.knn15 决策树分类 ML.dt1534.8.3

14、.3 向量机分类 ML.svm15朴素分类 ML.gnb15 随机森林分类 ML.rf15 迭代决策树分类 ML.gbdt15 线性判别分析 ML.lda15 二次方判别分析 ML.qda15 弱迭代分类 ML.adaBoost150 逻辑回归分类 ML.lr1574.8.4 回归（有监督）15 svm 回归 ML.SVR15 线性回归 ML.LR15 决策树回归 ML.DTR15 随机森林回归 ML.RFR1594.8

15、.4.5 迭代决策树回归 ML.GBDTR1604.8.5 聚类（无监督）160 K 均值聚类 ML.kmeans160 均值漂移聚类 ML.means16 层次聚类 ML.ac162聚类 ML.ap16 密度聚类 ML.dbscan16 综合层次聚类 ML.brich16 谱聚类 ML.sc16 离群点检测 ML.dpt1664.8.6 关联分析16 apriori 算法 ML.apri16 生成树挖掘 ML.fp_growth1684.8

16、.7 模型处理16 模型打分 ML.score16 输出决策树 ML.dt2dt170保存模型 ML.save_m. 171参考手册加载模型 ML.load_m. 17重命名模型 ML.rename_to17... 172ML.predict172概率 ML.predict_proba174特征权重 ML.gbdt_fw1765Lambda 函数详解1765.1 日期函数1785.2 字符串处理函数1801、字符串连接1806主要一览表182参考手册1基础知识1.1 D

17、ataFrame 结构OPENFEA 采用DataFrame 结构进行内部计算，DataFrame 结构就是我们常用的二维表格结构，每个表格由一个索引列（可以用来竖向取值）和多个数据列组成，这个结构和型数据库中的表结构是一致的。所以，我们也将 DataFrame 简称为“DF 表”，这个结构是线性代数中矩阵的结构，便于进行各种矩阵运算。在 OPENFEA 所有的计算分析都是DF 表的结构示例DF 表进行的，所以一定要理解这个结构。数据装载后会自动建立索引，通过索引就可以竖向检索数据，索引的值是不能更改的，但可以指定其它的列来替代索引。OPENFEA 会根据列中的数据来匹配最佳的数据类型，常见的

18、类型有 int64、float64、string（string 不一定就是字符串，也可能是一个复杂对象，用 string表示了）等。注意：DF 表的表名只能以字母开头，否则将会造成 add1.2 内部结构操作失败。OPENFEA 采用内存计算的架构，所有的数据装载入内存进行快速实时计算，同时OPENFEA 内部又是多引擎的架构，每个引擎是相互计算，也可以一个引擎为主进行交互式分析运算。的，可以根据需要进行并行1参考手册OPENFEA 引擎支持多种数据文件，如 csv、pkl、excel 等，支持直接将数据文件上传装载至内存，支持计算结果导出成数据文件进行。OPENFEA 引擎内置一个 NoSQ

19、L 数据库，可以用来分析的中间和最终结果，可以通过查看器直接浏览结果，方便。OPENFEA 引擎通过 ESQL 接口可以和 Elasticsearch 集群互联，实现对 ES 数据的 SQL化，实现对数据的全文检索和实时分析，两者结合是数据分析处理的绝配。OPENFEA 引擎通过 FEA-JDBC 组件几乎可以和已知的各种型数据库如 Oracle、DB2、Postgres、Mysql 等数据库进行数据交互，也可以和支持 jdbc 连接的 Nosql 数据库工具（如Hive、Imapla 等）进行数据交互。OPENFEA 引擎通过 FEA-REST 组件可以和行业内各种服务总线进行对接，也可以通

20、过定制接口和 HDFS 的文件、HBASE 等新型文件系统和 NoSQL 数据库进行数据交互。1.3 引擎OPENFEA 是多引擎架构，每个引擎相互1、引擎 8999。于连接 SSDB 数据库。通过引擎专有划分，可以保证 OPENFEA 出现内存影响 ssdb 数据的发布。时，2、引擎 9000引擎 9000，于设置定时器和任务调度。2参考手册3、引擎 9001引擎 9001，于 OPENFEA 交互界面。1.4 OPENFEA 界面OPENFEA 采用了最新的HTML5+CSS3 的WEB 开发技术，实现了交互分析的视窗效果，无须任何控件，就可以像使用 windows 桌面一样进行数据分析。

21、OPENFEA 交互界面采用最新技术开发，在最新版本的浏览器上才能获得最佳的操作体验，推荐使用 IE10 以上、Firefox 40 以上和 Chome 40 以上。桌面正中间的是交互分析窗，用来输入进行交互分析，数据分析的结果可以直接在数据窗口中显示，也可以在可视化分析窗口显示，窗口支持最大化、最小化、还原设置，最小化则平铺于桌面左侧工作区。桌面右侧工作区为工具视窗，是数据分析时需要用到的各种工具，文件管理、UDF 自定义函数、ESQL 互联、FEA-JDBC 管理、NoSQL 查看器、正则表和台等工具。2基础2.1 新建打开工作区 use为防止同一个引擎内多人并行分析，而造成 DF 表名称

22、污染。OPENFEA 使用 use来新建并打开一个工作区，每个用户可以创建的工作区，从而防止 DF 表的交叉污染。不同工作区内的表可以重名。3参考手册2.2 清除工作区 clear一个任务结束后，可以清除工作区以工作区中 DF 表所占用的内存。4格式clear 工作区名示例1、清除 my 工作区。clear my2、清除所有工作区。慎用！ clear all3、清除由当前时间变量定义的工作区clear "test$mynow"对应 2.1 中的示例 3说明1、 clear会清除工作区中所有的表，请务必使用。2、 sys 工作区不能清除，否则，执行“clear sys”，将输

23、出“执行错格式use 工作区名示例1、新建打开 my 工作区use my2、新建一张空表，在当前工作区a = udf udf0.new_empty_df3、获取当前时间，以当前时间定义工作区mynow = sdf sys_nowuse "test$mynow"说明1、系统默认的工作区为 public，跨工作区时使用“DF 表名工作区名”进行。2、系统默认了一张名称为 df0 的空表在 sys 工作区，通过“df0sys”语句就可以这张表。3、 sys 工作区不能使用 use，否则，执行“use sys”，将输出“执行错误: sys workspace can't

24、 use!”的错误提示。4、示例 3 中，public 工作的系统变量，是可以在其他工作区共享的参考手册2.3 定义 define用来定义各种系统变量，在一个引擎中定义的变量，对同一台上所有define的引擎都有效。但对不同的是无效的，需要重新设置。5格式define key as 字符串参数说明：Key：所定义对象的标识符。字符串：字符串的格式根据 key 的需要来设置，多个值时，需要加上引号。示例1、定义本地内置的 Nosql 数据库 ssdb 的连接define ssdb0 as :8888 2、定义 udb 数据库的连接define udb0 as 192.168.

25、23.204:8000 3、定义集群define cluster0 as ":9001,:9002, :9001-9005"4、定义引擎define main_eng as 46:9001 5、清除定义的对象内容define c1 as “”说明1、目前很多的 define 语句都是用来定义连接的，所以，define 也被称为连接，常用和系统默认的连接见下表。2、定义引擎时，最好定义 IP地的 IP，否则定义了非本地 IP 之后无法再修改回来。常用和系统默认的连接序号参数含义示例1ssdb0

26、和 FEA 系统数据的本地define ssdb0 as :8888误: sys workspace can't clear!”的错误提示。3、一定要在 public 工作区中调用 clear "test$mynow"该 fea参考手册2.4 显示 show用于显示 OPENFEA 内部的各种状态，如表、定时器、连接、任务等。6格式show 参数参数说明：tables：显示所有的 DF 表。tasks：显示所有的任务。defines：显示所有的连接。$：显示所有的单值变量。 timers：显示所有的定时器。meminfo：显示 DF 表的内存占用

27、情况。logs：显示最新的日志。history：显示历史。others：显示分组、模型等其他非 DF 表对象。示例1、显示所有的 DF 表。SSDB 数据库的默认连接2udb0和 udb 数据库的默认连接define udb0 as 04:80003jdbc0和fea-jdbc 组件的默认连接，设置后可以通过 jdbc 加载各种型数据库的数据define jdbc0 as 04:96004cluster0定义集群，在 cluster中会指定集群来运行任务define c0 as :9001-90035fast_scan定义开启

28、 fast scan 模式define fast_scan as 16es0ES 集群连接的一个节点，配合 fast_scan 使用define es0 as 46:92007main_eng定义引擎define main_eng as46:9001参考手册2.5 数据装载 load 和storeOPENFEA 不仅支持Hadoop 架构的数据源，也支持传统型数据库 Oracle、Postgres、Mysql 等，使得一些不能迁入到大数据平台的数据同样可以使用 OPENFEA 来进行内存分析。同时，OPENFEA 通过 REST 接口扩展，可以很

29、好的支持其它第里云的大数据开放处理平台 ODPS 和内存数据库 ADS 等。平台的数据，如阿多种数据源的支持使得 OPENFEA 能够接入类型的数据来进行关联分析，碰撞比7show tables2、显示某一工作区的 DF 表，如显示 public 工作的 DF 表。show public3、显示所有的任务。show tasks4、显示集群所有的任务show all5、显示所有的连接。show defines6、显示所有的单值变量。show $7、显示所有的定时器。show timers8、显示 DF 表的内存占用情况，为 bit。show meminfo9、显示最新的日志。sh

30、ow logs10、显示历史show history11、显示学习模型、图计算的图等其他信息show others参考手册对等运算，而不要求用户一定要进行数据的大规模整合，既降低用户的使用成本，又能发挥多数据关联分析的价值。以下将几种常见数据源（CSV/EXCEL/PKL、ESQL、JDBC、NoSQL）的装载和存语。2.5.1 CSV/EXCEL/TXT/PKL 数据源CSV/EXCEL/TXT/PKL 文件的装载，由两个步骤组成：首先，上传 CSV/EXCEL/TXT/PKL文件；其次，根据需要，执行 CSV/EXCEL/TXT/PKL 装载、一、上传 CSV/EXCEL/TXT/PKL

31、文件。在 OPENFEA 主界面右上角，找到工具箱，点击“”图标，打开如下界面：点击“”按钮，在打开界面中，选择要加载的 CSV/EXCEL/TXT/PKL 文件后，进行上传。上传完成后，返回到 OPENFEA 主界面，然后再执行 CSV/EXCEL/TXT/PKL 装载、。二、CSV/EXCEL/TXT/PKL 装载、8参考手册9格式1、装载 CSV/EXCEL/TXT 文件。load csv by csv 文件名及扩展名 with 参数2、CSV/EXCEL/TXT 文件。store DF 表名 to csv by csv 文件名及扩展名 with 参数3、装载 PKL 文件。load p

32、kl by pkl 文件名及扩展名 with 参数4、PKL 文件。store log2 to pkl by pkl 文件名及扩展名 with 参数参数说明sep：分隔符号，默认为“,”，可以设置为其它的符号。如，with (sep=“|”)；encoding:文件编码，默认为 gbk，设置其他的编码，如 with (encoding=”utf8”)header：把装载进来的 csv 文件的第一行作为 fea 表中的列名。默认为0，即将 csv 文件的第一行作为 fea 表中的列名；如果 csv 文件第一行不是列名，而是数据，可以设置为-1，以顺序号生成列名。如，with (header=-1

33、)；index：True 或 False。默认为 True，在 store 时导出索引。False，在 store时不导出索引。例如，with(index=False)。示例1、装载、CSV/EXCEL/TXT 文件。（1）装载 3.csv 文件到 DF 表 a 中。a = load csv by 3.csv（2）装载 4.csv 文件到 DF 表 b 中，使用|分割符号，设置编码为 utf8 。 b = load csv by 4.csv with ( sep="|" ,encoding=”utf8”)（3）装载 5.csv 文件到 DF 表 b 中，使用|分割符号

34、，自动给每列分配列名。b = load csv by 5.csv with (header=-1,sep="|" )（4） DF 表 log 中的数据到 5.csv 中。store log to csv by 5.csv参考手册2.5.2 UDB 数据源UDB 是杭州合众在 ElasticSearch（简称 ES）基础上开发的一个分步式全文数据库，可以用来处理结构化数据。ESQL 是 UDB 的一个 SQL 组件，可以通过 SQL 的语法来对ES 的数据进行搜索和分析，大大简化了 ES 对 Query DSL 的使用，使得普通熟悉 SQL 语法的，就可以直接用 ES 进行分

35、析，享受 ES 实时搜索分析的乐趣。一、数据加载1、少量数据加载OPENFEA 可以通过 ESQL 和 ES 进行连接，适合于检索条件比较复杂、结果需要排序、数据量（一批次小于 1 万）不大的数据装载和分析场景。ESQL 有两个版本，ESQL2 服务端口为 8000,ESQL3 服务端口为 8001,两版本可并行运行。10格式load udb by 连接标识符 query (SQL 语句)参数说明：2、装载、PKL 文件。（1）装载 2.pkl 文件到 DF 表 c 中。c = load pkl by 2.pkl（2）装载空的或不的 pkl 文件 3.pkl 到 DF 表 c 中，得到空的

36、 DF 表。c = load pkl by 3.pkl（3） DF 表 log2 到 4.pkl 中。store log2 to pkl by 4.pkl说明1、装载、CSV 和 EXCEL令相同。但 EXCEL，只支持微软 2003 和2007 版本，同时 excel 文件需另存为 csv 格式的文件。2、装载、CSV 和 TXT令相同。但 TXT 文件内容中要有分隔符。3、pkl 为 FEA 内部的二进值格式的文件，常用来开发 UDF 时进行 DF 表的调试使用。4、不DF 表名称以数字开头参考手册2、大量数据加载OPENFEA 可以用直接和 ES 连接，适合大批量数据的加载，直接连接

37、 ES 节点来进行进行快速数据加载，es0 即 ES 集群的一个节点一般端口是 9200.11格式load udb by 连接标识符 scan (scan 语句) 参数说明连接标识符：用 define 定义的 ES 连接符。选择时，需要确认对应的 IP连接标识符：用 define 定义的 ESQL 连接符。选择时，需要确认对应的IP 地址和端口是否正确，缺省连接标识udb0。SQL 语句：如果是型数据库（比如，ORACLE），输入标准 SQL 中的select 语句；如果是 Nosql 数据库 ES，输入 ESQL 中的 select 语句。示例1、通过 udb0 的连接加载 people 表

38、的数据，没有加任何限止，只加载 10 条数据a = load udb by udb0 query (select * from people)2、通过 udb0 的连接加载 XM 包含张的，没加限止，也只加载最符合的 10 条a = load udb by udb0 query (select * from people where XM=张)3、通过 udb0 的连接加载 XM 包含张的，前 1000 条数据a = load udb by udb0 query (select * from people where XM=张 limit 1000)4、通过 udb0 的连接加载 XM 包含张

39、的，前 1000 条,按 age 大小排序a = load udb by udb0 query (select * from people where XM=张 order by age limit 1000)说明1、 OPENFEA 内置 ESQL2 引擎，默认通过 ESQL2 连接 ES，可使用 es 标识符连接即可。2、若通过 ESQL3 版本连接 ES，则使用 udb 标识符连接，ESQL3 版本的默认端口为 8001 ，还需在后加 with ( 用户名/)，默认为（root/toor）。参考手册12地址和端口是否正确，缺省连接标识es0scan 语句示例：scan * from

40、表名 where 条件 with 语句scan 语句参数说明：表名：要加载的 ES 表名。where 条件：选取数据的条件。可选择项，不需要双引号和分号。with 语句：用于设置每次加载的 routing 分片标识数字或 size 条数。routing 分片标识数字：需要加载 ES 哪个数据分片，就填写数据分片对应的标识数字。routing 的设置格式有两种：一种为“routing=分片标识数字”（如，routing=4）；另一种为“routing=参数”（如，routing=route）。具体的分片标识数字赋值给 es 中的变量后，传参到 fea。size 条数：用于设置每次装载的条数。示例

41、1、通过 es0 的连接加载 people 表的所有数据a = load udb by es0 scan (scan * from people) 2、通过 es0 的连接加载 XM 包含”张”的所有a = load udb by es0 scan ( scan * from people where XM=张)3、通过 es0 的连接，每次加载 inx_2015-08 表中 50 条数据a = load udb by es0 scan( scan * from inx_2015-08 with size=50)4、通过 es0 的连接，加载 inx_2015-08 表中第 4 分片上的数据，

42、每 100 条提交一次。a = load udb by es0 scan(scan * from inx_2015-08 with routing=4 and size=100)5、通过 es0 的连接，将 inx_2015-08 表中 terminal_id 和operate_condition字段的值，加载到 DF 表 log_34 中，每次加载 1000 条数据log_34 := load udb by es0 scan(scan terminal_id,operate_condition from inx_2015-08 with size=1000)说明1、普通 scan 模式，通过

43、 ESQL 加载 ES 中的数据进行分析，连接使用 udb0；fast scan 模式，直接从 ES 节点加载数据，连接使用 es0。2、fast scan 模式的启动与停止。参考手册二、数据采用的也是 OPENFEA 内置的 ESQL 引擎进行如下：，直接连接 ES 节点进行入库，示例2.5.3 JDBC 数据源OPENFEA 通过 JDBC 可以和各种型数据库如 oracle、sqlserver、mysql、portgres等进行连接，也可以和新型的大数据环境的 Hive、Imapla 和理平台进行连接。一、JDBC 的连接的 ODPS 等大数据处在 OPENFEA 主界面，通过运行命令格

44、式“define jdbc0 as ip:port”来进行连接。13示例1、将 DF 表 a 通过 es0 的连接到 people 表，默认类型为 base，DF 表的索引对应 UDB 中的_idstore a to udb by es0 with people2、将 DF 表 log 通过 es0 的连接到 people 表 log 类型中,DF 表的索引对应 UDB 中的_idstore log to udb by es0 with people.log3、将 DF 表 log 通过 es0 的连接到 people 表 log 类型中，不使用索引_id，使用数据自动分配的_idstore

45、log to udb by es0 with people.log.noid说明1、写入的数据，字段内容不能有空值。启动语句：define fast_scan as 1停止语句：define fast_scan as 0另外，需要注意的是，2016-05-09 以后的 FEA 版本，默认启动了 fast scan模式，不需要手动启动。参考手册此处的 IP 为 FEA-JDBC 的 IP 地址，port 默认为 9600，如下图所示：在 OPENFEA 主界面右上角，找到工具箱，点击“”图标，打开如下界面：点击“”图标，在打开界面中，可以添加各种类型的数据库，添加好后可以通过 jdbc窗口直接输

46、入 sql 语句，对各库中的表进行装载和操作。另外，还支持对各种数据库的修改、删除、导入、导出操作。14参考手册二、JDBC 装载、2.5.4 NoSQL 数据源OPENFEA 内置了一个NoSQL 数据库 ssdb，用来存放中间的结果信息，便于二次分析与即时展现。默认的格式是 json 格式，从数据库取数据也只支持 json 格式。如果结果是给别的程序调用的，可以使用 hashmap 的格式。15示例1、装载示例示例1、装载（1）通过 jdbc0 的连接装载 oacle155 库 HEZH2.FEAJDBCTEST 表的数据a = load jdbc by jdbc0 with oracl

47、e155 query "select * from HEZH2.FEAJDBCTEST"（2）通过 jdbc0 的连接装载 udb213 库 log 表 people 的汇总数据b = load jdbc by jdbc0 with udb213 query "select * from log group by people"2、通过 jdbc0 连接DF 表 a 到 oracle155 库的 HEZH2.FEAJDBCTEST 表中，主键是 ID，对应 DF 表的索引字段（库名:表名:主键名）store a to jdbc by jdbc0 wit

48、h "oracle155:HEZH2.FEAJDBCTEST:ID"说明query 后跟随的表，可用英文的号、双引号或者括号包围参考手册2.6 过滤 filter是对 DF 表的行过滤，类似于 SQL 中的 where，其语法如下：filter16格式目标表= filterby (条件表)参数说明：条件表：支持直接写列名，支持=、!=、>、>=、<、<=、in 等运算符和 and、or、not 等逻辑运算符。详见“运算符说明及示例”。说明还有一种情况的过滤是对 DF 表中的空值进行过滤，这个需要使用 UDF 函数中的 df_isna 来配合完成，具体

49、详见 UDF 的章节。运算符说明及示例运算符名称示例=等于1、字符类型的列要加引号，和双引均可，字段内容为中文之前要加 ulog1 = filter log by ( level=u"测试" ) 2、数字类型的不用加引号log1 = filter log by ( size =100 )（1）装载 ssdb0 中 key 是 people:24h 的数据，到 DF 表 a 中a = load ssdb by ssdb0 with poeple:24h 2、示例（1） DF 表 24h 的数据到 ssdb0 中，key 是 people:24h,类型为hashmapstore

50、 24h to ssdb by ssdb0 with poeple:24h_hash as hashmap（2） DF 表 24h 的数据到 ssdb0 中，key 是 people:24h，默认类型为 jsonstore 24h to ssdb by ssdb0 with people:24h说明1、装载 ssdb 的，可兼容 query 来代替 with。2、装载和ssdb 的最大为 128M，超出大小会明确报错。参考手册173、两个列的内容相同log1 = filter log by ( rsize = qsize) 4、error 列为”的log1 = filter log by (error ="")过滤不到数据5、类型的过滤。真 True，假 False，注意大小写log1 = filter log by (islike =True)!=不

人人文库> 全部分类> 应用文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

飞象大数据分析系统原语参考手册

文档简介

温馨提示

最新文档

评论

飞象大数据分析系统原语参考手册

文档简介

温馨提示

最新文档

评论

相关文档