clementinerecord记录操作节点_第1页
clementinerecord记录操作节点_第2页
clementinerecord记录操作节点_第3页
clementinerecord记录操作节点_第4页
clementinerecord记录操作节点_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 ISL 20001Data-Mining概述概述- 以以chementine7.0為例為例Chap7:記錄操作節點記錄操作節點 學生:廖彗嵐 指導老師:鄭宇庭、謝邦昌教授 ISL 20002Chapter7 Chapter7 記錄操作節點記錄操作節點 記錄操作節點用於在記錄層次修改資料集。這些操作在資料採礦的資料理解和資料準備階段很重要,因爲通過這些操作,可以使資料滿足特定的商業要求。 記錄操作選項板包括以下節點: t 選擇(select)t 樣本(sample)t 均衡(balance)t 聚合(aggregate)t 排序(sort)t 合併(merge)t 附加(append)t 區分

2、(distinct) ISL 200037 7.2 .2 選擇節點(選擇節點(Slect NodeSlect Node)t 使用者可以使用選擇節點根據具體條件從資料流程中選擇或排除某一記錄子集,如符合“Class“Drink”條件的記錄子集。t 選擇節點也用於選擇一定比例的記錄,使用者可以使用選擇節點來創建自己的條件。例如,使用者可以創建如下條件: Class=Drinkand random(10)=4 這一條件將從Class爲“Drink”的記錄中,選擇大約 40,並向流程的下游下傳(downstream)這些記錄以用於進一步分析。 ISL 20004t Mode(模式)模式) ninclu

3、de(包含):包含):選擇 以便在流程中包含符合 選擇條件的記錄。 ndiscard(排除):排除):選擇 以便將符合選擇條件的 記錄排除出流。 選擇節點的設置選項選擇節點的設置選項 ISL 20005t ConditionCondition(條件)條件): :用於檢驗每一條記錄的選擇條件,選使用者可以在視窗中輸入運算式,也可以點擊視窗右邊運算式構造(Expression Builder)按鈕,使用運算式構造(Expression Builder)來構造條件。 ISL 200067.3 7.3 抽樣節點(抽樣節點(Sample NodeSample Node)t 使用者可以使用抽樣節點來明確限

4、制通過流的記錄數或排除一定比例的記錄。由於各種原因,使用者需要對原資料進行抽樣,如:- 提高資料採礦工具的性能。- 大量削減(Paring down)一個大型的資料集, 比如擁有上百萬記錄的資料集。使用抽樣節點, 使用者可以通過隨機抽樣來生成模型,該模型通 常和從整個資料集中導出的模型一樣精確。- 訓練類神經網路。使用者應該爲訓練和測試各保 留一個樣本。 ISL 20007tModeMode(模式)(模式):爲以下模式選擇是否通過(包含)或 丟棄(排除)記錄。t最大樣本容量最大樣本容量:確定通 過流程的最大樣本量。 如果想在選擇1-in-n 選項或Random抽樣選 項中不使用該選項,可 將最

5、大樣本量數目設置 爲超出資料集容量。 ISL 200087.3.1 7.3.1 抽樣節點選項抽樣節點選項t (抽樣(抽樣(SampleSample) 通過以下選項選擇抽樣方法:- First- First:選擇使用連續資料抽樣法。例如,如果最大 樣 本量設爲10,000,則前10,000個記錄將通過流(如果模式爲pass samplepass sample)或被丟棄(如果模式爲 discard samplediscard sample)。- 1-in-n- 1-in-n:選擇資料抽樣法爲每n個通過或丟棄一個記 錄。例如,如果n設置爲5,則每五個記錄將有一個記 錄根據上述模式通過或丟棄。- ra

6、ndom- random:選擇隨機抽取資料集一定百分比的樣本。 例如,如果把百分比設置爲20,那麽資料集有20的 記錄將會根據上述模式設置通過流或丟棄。 ISL 200097.47.4 均衡節點(均衡節點(Balance NodeBalance Node)t 使用者可以使用均衡節點來修正資料集中的不均勻性,以便能夠符合特定的測試原則。 t 均衡是根據指定的條件複製記錄後丟棄記錄。不受任何條件限制的記錄會一直通過流程。由於這一過程通過複製並且/或者丟棄記錄,因而資料的原始順序將在資料下傳(downstream)過程中流失。一定要在將均衡節點加到流程之前導出一個和順序有關的值。注:均衡節點可以從資

7、料分佈圖和直方圖中自 動生成。 ISL 2000107.4.1 均衡節點的設置選項均衡節點的設置選項t 記錄均衡指令(記錄均衡指令(Record Record balancing directivesbalancing directives):): 列出目前的均衡指令。每一指令都包括一個因數和一個條件 ,使軟體在條件爲真時,根據指定的因數,提高記錄的比率 。列出目前因數小於1.0意味著記錄的比率將會減少。t生成條件(生成條件(Create conditionsCreate conditions):):通過點擊文本區域右邊的按鈕。 這會插入一空行以便輸入新的條件。如果要爲此條件生成CLEM運算

8、式,可點擊運算式構造器按鈕。t刪除指令(刪除指令(Delete directivesDelete directives):):使用紅色的刪除按鈕。t對指令排序(對指令排序(Sort directivesSort directives)使用上下箭頭按鈕。 ISL 2000117.5 7.5 聚合節點(聚合節點(Aggregate NodeAggregate Node)t 可以使用聚合節點,把一系列輸入記錄變換成總括性的、聚合的輸出記錄。 ISL 200012t關鍵欄位相鄰(關鍵欄位相鄰(Keys Keys are contiguous are contiguous):):若關鍵欄位值出現在相鄰記

9、錄中,該選項按相同值處理。t關鍵欄位(關鍵欄位(Key fieldKey field):):列出可用於聚合的關鍵欄位。數值型欄位和字元型欄位都可用作關鍵欄位。如果所選關鍵欄位不止一個,則所有值將組合起來生成聚合記錄的關鍵欄位。若要添加欄位到列表中,可使用視窗右邊的Field Chooser按鈕 7.5.1 7.5.1 聚合節點的設置選項聚合節點的設置選項 ISL 200013t聚 合 欄 位 (聚 合 欄 位 ( A g g r e g a t e A g g r e g a t e fieldsfields):):列出將按照所選聚合模式聚合的數值型欄位。若要添加欄位到列表中,可使 用 視 窗

10、 右 邊 的 F i e l d Chooser按鈕。 ISL 200014t 預 設 模 式 (預 設 模 式 ( D e f a u tD e f a u t modemode):):指定對新添加的欄位所使用的預設聚合模式、如果頻繁使用同樣的聚合方式,此處可選擇一個或以上的模式,使用右邊的Apply to All 按鈕將所選模式應用於以上列出的所有欄位。 ISL 200015t 新 欄 位 副 檔 名 (新 欄 位 副 檔 名 ( N e w N e w field name extension):field name extension): 選擇添加尾碼(suffix)或字首(prefi

11、x),如“1”或者“new”,以複製聚合欄位。比如,如果選擇了尾碼選項,並規定“1”爲副檔名,則對欄位Age的最小值聚合結果會生成名爲Age_Min_1的欄位名。 注意:像_Min或者Max_的聚合副檔名會被自動添加到新欄位中,以表明所進行的聚合類型 ISL 200016t Include record count Include record count in fieldin field(欄位中包括(欄位中包括記錄數):記錄數):選擇在每個輸出記錄中包括一個名爲record_count的額外預設欄位。這一欄位表明有多少輸入記錄被用於形成每一聚合欄位。 注意:在計算聚合值時 ,會排除系統遺漏值

12、,但是在計算記錄數目時卻包含它。 ISL 200017 ISL 2000187.6 7.6 排序節點(排序節點(Sort NodeSort Node)t 可以使用排序節點根據一個或多個欄位值對記錄進行昇冪或降冪排列。t 排序節點經常用於瀏覽和選擇帶有最常見資料值的記錄,有助於探索分析資料並作出決策,比如選擇前十名最好的顧客的記錄。 ISL 200019t按按排序排序(Sort bySort by):所有被選爲排序關鍵欄位的欄位都顯示在一張表格中。用作排序的關鍵欄位最好是數值型欄位。t添加欄位(添加欄位(Add fieldsAdd fields):):使用對話方塊右邊的Field Chooser

13、按鈕把欄位添加到列表中。 ISL 200020t 選擇順序(選擇順序(Select an order)Select an order) :通過在表中的順序(order)欄中點選Ascending(昇冪)或者Descending(降冪)來選擇順序。t 預設排列順序預設排列順序(Default sort Default sort orderorder):選擇Ascending(昇冪)或者Descending(降冪)作爲以上新添加的欄位的預設排序順序。t 刪除欄位(刪除欄位(Delete fieldsDelete fields) :使用紅色的刪除按鈕。t 排列指令(排列指令(Sort directi

14、vesSort directives) : 使用上下箭頭按鈕。 ISL 200021 ISL 2000227.7 7.7 合併節點(合併節點(Merge Node)Merge Node)t 合併節點的功能是接受多重輸入記錄,並生成包含部分或全部輸入欄位元的單一輸出記錄,這一操作在合併來自不同資料來源的資料時很有用。在Clementine 中有兩種合併資料的方法:- - 按照順序合併(按照順序合併(merge by ordermerge by order):):按照輸入順序連 接來自所有資料庫的對應記錄,直至最小的資料源輸 入完畢。在使用這一選項時有必要先使用排序節點對 資料進行排序。- - 按

15、照關鍵欄位合併(按照關鍵欄位合併(merge using a key fieldmerge using a key field):):使 用諸如使用者ID號等作爲關鍵欄位,以指定來自某一 資料庫的資料在合併時如何與來自其他資料庫的資料 匹配。 注意:系統遺漏值null並不認爲相等,不參與合併。 ISL 2000237.7.1 7.7.1 指定合併方法和關鍵欄位指定合併方法和關鍵欄位t可能的關鍵欄位可能的關鍵欄位 (Possible (Possible keys)keys):列出所有輸入資料來源(data source)中的所有欄位 。從列表中選擇一個欄位,然後使用箭頭按鈕將其添加爲合併記錄的關

16、鍵欄位。可以選擇不止一個欄位。t合併的關鍵欄位(合併的關鍵欄位(Keys for Keys for mergemerge):):列出用於合併所有輸入資料源(data source)的記錄的關鍵欄位。t合併重複關鍵欄位(合併重複關鍵欄位(Combine Combine duplicate key fieldsduplicate key fields):):當選擇了不止一個關鍵欄位時,這一選項確保一個關鍵欄位名只有一個輸出欄位。 ISL 200024t 只包括匹配記錄(內部合只包括匹配記錄(內部合併)(併)(Including only Including only matching record

17、s(inner matching records(inner join)join)):):選擇只合併完整的記錄。 ISL 200025t包括匹配和不匹配記錄(完全包括匹配和不匹配記錄(完全外部合併)(外部合併)(Include Include matching and matching and nonmatchingnonmatching records(full outer join)records(full outer join)):):選擇執行“完全外部合併”。這意味著,如果某一關鍵欄位存在於其中的一個資料源,而在其他的資料來源中不存在,則不完整的記錄仍然保留著。未定義值($null$)

18、被添加到關鍵欄位中並包含在輸出記錄中。 ISL 2000267.7.2 7.7.2 從合併節點過濾欄位從合併節點過濾欄位t合併節點能夠方便的過濾或者重命名由於合併多重資料來源引 起的重複欄位。點擊對話方塊中的Filter 以進行過濾選擇。tFieldField(欄位):(欄位):顯示目前連接資料源的輸入欄位,重複的欄位用紅色顯示。tTagTag(標籤):(標籤):列出與資料源連接相關的Tag名(或數位)。點擊INPUTS 欄以改變合併節點的目前連接。 tSource nodeSource node(來源節點):(來源節點):顯示目前合併資料的來源節點。tconnected nodeconnec

19、ted node(連接節(連接節點):點):顯示與合併節點連接的節點名稱。 ISL 200027t 使用合併節點和附加節點對話方塊的inputs,可以規定輸入資料來源的順序,並可任意修改每一資料來源的標籤。t tag(標籤)(標籤):列出每個輸入資料源的目前標籤名。可以在Tag單元鍵入新的標籤名以改變預設標籤名。 ISL 200028t 使用附加節點將記錄集串聯起來。t 與合併節點中將不同資料來源中的記錄連接起來不同,附加節點讀取並下傳(downstream)來自同一資料來源的所有記錄直至該資料來源不再有記錄爲止,然後使用與讀取首個輸入資料來源記錄相同的資料結構(記錄和欄位數目等)讀取下一個資

20、料來源的記錄。如果最初的資料來源的欄位比另一個輸入資料來源多,系統將對任意不完整值使用字串($null$)補充。t 附加節點用於合併有相似結構而資料不同的資料集,假定它們具有同樣的資料結構(同樣的欄位,同樣的順序),附加節點將會它們合併成一個大的檔,隨後使用者可以對這個檔進行分析。7.8 7.8 附加節點(附加節點(Append NodeAppend Node) ISL 2000297.8.1 7.8.1 設置附加選項設置附加選項t通過通過匹配欄位(匹配欄位(Match fields Match fields byby):):選擇附加匹配欄位的方法。- positionposition(位置)

21、:(位置):選擇在主資料源中,按照欄位位置附加資料集。當使用這種方法附加欄位時,應當對資料進行排序以確保附加的正確性。- NameName(名稱)(名稱):選擇基於輸入資料集的欄位名附加欄位。- 同樣選擇Match caseMatch case以在匹 配欄位名時使樣本保持敏銳性。tOutput FieldOutput Field(輸出欄位):(輸出欄位):列出連接到附加節點的資料來源節點。 ISL 200030tInclude fields fromInclude fields from(包括來自(包括來自的欄位):的欄位):選擇Main data set only 以生成基於主資料集欄位的輸出欄位。主 資料集在Inputs欄規定爲第一個輸入資料集。選擇All data sets 以生成所有資料集中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论