clementine record记录操作节点.ppt_第1页
clementine record记录操作节点.ppt_第2页
clementine record记录操作节点.ppt_第3页
clementine record记录操作节点.ppt_第4页
clementine record记录操作节点.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Data-Mining概述- 以chementine7.0為例Chap7:記錄操作節點,學生:廖彗嵐 指導老師:鄭宇庭、謝邦昌教授,Chapter7 記錄操作節點,記錄操作節點用於在記錄層次修改資料集。這些操作在資 料採礦的資料理解和資料準備階段很重要,因爲通過這些操作 ,可以使資料滿足特定的商業要求。 記錄操作選項板包括以下節點: 選擇(select) 樣本(sample) 均衡(balance) 聚合(aggregate) 排序(sort) 合併(merge) 附加(append) 區分(distinct),7.2 選擇節點(Slect Node),使用者可以使用選擇節點根據具體條件從資料

2、流程中選擇或排除某一記錄子集,如符合“Class“Drink”條件的記錄子集。 選擇節點也用於選擇一定比例的記錄,使用者可以使用選擇節點來創建自己的條件。例如,使用者可以創建如下條件: Class=Drinkand random(10)=4 這一條件將從Class爲“Drink”的記錄中,選擇大約 40,並向流程的下游下傳(downstream)這些記錄以用於進一步分析。,Mode(模式) include(包含):選擇 以便在流程中包含符合 選擇條件的記錄。 discard(排除):選擇 以便將符合選擇條件的 記錄排除出流。,選擇節點的設置選項,Condition(條件):用於檢驗每一條記錄的

3、選擇條件,選使用者可以在視窗中輸入運算式,也可以點擊視窗右邊運算式構造(Expression Builder)按鈕,使用運算式構造(Expression Builder)來構造條件。,7.3 抽樣節點(Sample Node),使用者可以使用抽樣節點來明確限制通過流的記錄數或排除一定比例的記錄。由於各種原因,使用者需要對原資料進行抽樣,如: - 提高資料採礦工具的性能。 - 大量削減(Paring down)一個大型的資料集, 比如擁有上百萬記錄的資料集。使用抽樣節點, 使用者可以通過隨機抽樣來生成模型,該模型通 常和從整個資料集中導出的模型一樣精確。 - 訓練類神經網路。使用者應該爲訓練和測

4、試各保 留一個樣本。,Mode(模式):爲以下模式選擇是否通過(包含)或 丟棄(排除)記錄。,最大樣本容量:確定通 過流程的最大樣本量。 如果想在選擇1-in-n 選項或Random抽樣選 項中不使用該選項,可 將最大樣本量數目設置 爲超出資料集容量。,7.3.1 抽樣節點選項,(抽樣(Sample) 通過以下選項選擇抽樣方法: - First:選擇使用連續資料抽樣法。例如,如果最大 樣 本量設爲10,000,則前10,000個記錄將通過流(如果模式爲pass sample)或被丟棄(如果模式爲 discard sample)。 - 1-in-n:選擇資料抽樣法爲每n個通過或丟棄一個記 錄。例

5、如,如果n設置爲5,則每五個記錄將有一個記 錄根據上述模式通過或丟棄。 - random:選擇隨機抽取資料集一定百分比的樣本。 例如,如果把百分比設置爲20,那麽資料集有20的 記錄將會根據上述模式設置通過流或丟棄。,7.4 均衡節點(Balance Node),使用者可以使用均衡節點來修正資料集中的不均勻性,以便能夠符合特定的測試原則。 均衡是根據指定的條件複製記錄後丟棄記錄。不受任何條件限制的記錄會一直通過流程。由於這一過程通過複製並且/或者丟棄記錄,因而資料的原始順序將在資料下傳(downstream)過程中流失。一定要在將均衡節點加到流程之前導出一個和順序有關的值。 注:均衡節點可以從

6、資料分佈圖和直方圖中自 動生成。,7.4.1 均衡節點的設置選項,記錄均衡指令(Record balancing directives): 列出目前的均衡指令。每一指令都包括一個因數和一個條件 ,使軟體在條件爲真時,根據指定的因數,提高記錄的比率 。列出目前因數小於1.0意味著記錄的比率將會減少。,生成條件(Create conditions):通過點擊文本區域右邊的按鈕。 這會插入一空行以便輸入新的條件。如果要爲此條件生成CLEM運算 式,可點擊運算式構造器按鈕。 刪除指令(Delete directives):使用紅色的刪除按鈕。 對指令排序(Sort directives)使用上下箭頭按

7、鈕。,7.5 聚合節點(Aggregate Node),可以使用聚合節點,把一系列輸入記錄變換成總括性的、聚合的輸出記錄。,關鍵欄位相鄰(Keys are contiguous):若關鍵欄位值出現在相鄰記錄中,該選項按相同值處理。 關鍵欄位(Key field):列出可用於聚合的關鍵欄位。數值型欄位和字元型欄位都可用作關鍵欄位。如果所選關鍵欄位不止一個,則所有值將組合起來生成聚合記錄的關鍵欄位。若要添加欄位到列表中,可使用視窗右邊的Field Chooser按鈕,7.5.1 聚合節點的設置選項,聚合欄位(Aggregate fields):列出將按照所選聚合模式聚合的數值型欄位。若要添加欄位到

8、列表中,可使用視窗右邊的Field Chooser按鈕。,預設模式(Defaut mode):指定對新添加的欄位所使用的預設聚合模式、如果頻繁使用同樣的聚合方式,此處可選擇一個或以上的模式,使用右邊的Apply to All 按鈕將所選模式應用於以上列出的所有欄位。,新欄位副檔名(New field name extension): 選擇添加尾碼(suffix)或字首(prefix),如“1”或者“new”,以複製聚合欄位。比如,如果選擇了尾碼選項,並規定“1”爲副檔名,則對欄位Age的最小值聚合結果會生成名爲Age_Min_1的欄位名。 注意:像_Min或者Max_的聚合副檔名會被自動添加到

9、新欄位中,以表明所進行的聚合類型,Include record count in field(欄位中包括記錄數):選擇在每個輸出記錄中包括一個名爲record_count的額外預設欄位。這一欄位表明有多少輸入記錄被用於形成每一聚合欄位。 注意:在計算聚合值時 ,會排除系統遺漏值,但是在計算記錄數目時卻包含它。,7.6 排序節點(Sort Node),可以使用排序節點根據一個或多個欄位值對記錄進行昇冪或降冪排列。 排序節點經常用於瀏覽和選擇帶有最常見資料值的記錄,有助於探索分析資料並作出決策,比如選擇前十名最好的顧客的記錄。,按排序(Sort by):所有被選爲排序關鍵欄位的欄位都顯示在一張表格

10、中。用作排序的關鍵欄位最好是數值型欄位。 添加欄位(Add fields):使用對話方塊右邊的Field Chooser按鈕把欄位添加到列表中。,選擇順序(Select an order) :通過在表中的順序(order)欄中點選Ascending(昇冪)或者Descending(降冪)來選擇順序。 預設排列順序(Default sort order):選擇Ascending(昇冪)或者Descending(降冪)作爲以上新添加的欄位的預設排序順序。 刪除欄位(Delete fields) :使用紅色的刪除按鈕。 排列指令(Sort directives) : 使用上下箭頭按鈕。,7.7 合併

11、節點(Merge Node),合併節點的功能是接受多重輸入記錄,並生成包含部分或全部輸入欄位元的單一輸出記錄,這一操作在合併來自不同資料來源的資料時很有用。在Clementine 中有兩種合併資料的方法: - 按照順序合併(merge by order):按照輸入順序連 接來自所有資料庫的對應記錄,直至最小的資料源輸 入完畢。在使用這一選項時有必要先使用排序節點對 資料進行排序。 - 按照關鍵欄位合併(merge using a key field):使 用諸如使用者ID號等作爲關鍵欄位,以指定來自某一 資料庫的資料在合併時如何與來自其他資料庫的資料 匹配。 注意:系統遺漏值null並不認爲相

12、等,不參與合併。,7.7.1 指定合併方法和關鍵欄位,可能的關鍵欄位 (Possible keys):列出所有輸入資料來源(data source)中的所有欄位 。從列表中選擇一個欄位,然後使用箭頭按鈕將其添加爲合併記錄的關鍵欄位。可以選擇不止一個欄位。 合併的關鍵欄位(Keys for merge):列出用於合併所有輸入資料源(data source)的記錄的關鍵欄位。 合併重複關鍵欄位(Combine duplicate key fields):當選擇了不止一個關鍵欄位時,這一選項確保一個關鍵欄位名只有一個輸出欄位。,只包括匹配記錄(內部合併)(Including only matchin

13、g records(inner join)):選擇只合併完整的記錄。,包括匹配和不匹配記錄(完全外部合併)(Include matching and nonmatching records(full outer join)):選擇執行“完全外部合併”。這意味著,如果某一關鍵欄位存在於其中的一個資料源,而在其他的資料來源中不存在,則不完整的記錄仍然保留著。未定義值($null$)被添加到關鍵欄位中並包含在輸出記錄中。,7.7.2 從合併節點過濾欄位,合併節點能夠方便的過濾或者重命名由於合併多重資料來源引 起的重複欄位。點擊對話方塊中的Filter 以進行過濾選擇。,Field(欄位):顯示目前連

14、接資料源的輸入欄位,重複的欄位用紅色顯示。 Tag(標籤):列出與資料源連接相關的Tag名(或數位)。點擊INPUTS 欄以改變合併節點的目前連接。 Source node(來源節點):顯示目前合併資料的來源節點。 connected node(連接節點):顯示與合併節點連接的節點名稱。,使用合併節點和附加節點對話方塊的inputs,可以規定輸入資料來源的順序,並可任意修改每一資料來源的標籤。 tag(標籤):列出每個輸入資料源的目前標籤名。可以在Tag單元鍵入新的標籤名以改變預設標籤名。,使用附加節點將記錄集串聯起來。 與合併節點中將不同資料來源中的記錄連接起來不同,附加節點讀取並下傳(do

15、wnstream)來自同一資料來源的所有記錄直至該資料來源不再有記錄爲止,然後使用與讀取首個輸入資料來源記錄相同的資料結構(記錄和欄位數目等)讀取下一個資料來源的記錄。如果最初的資料來源的欄位比另一個輸入資料來源多,系統將對任意不完整值使用字串($null$)補充。 附加節點用於合併有相似結構而資料不同的資料集,假定它們具有同樣的資料結構(同樣的欄位,同樣的順序),附加節點將會它們合併成一個大的檔,隨後使用者可以對這個檔進行分析。,7.8 附加節點(Append Node),7.8.1 設置附加選項,通過匹配欄位(Match fields by):選擇附加匹配欄位的方法。 - position

16、(位置):選擇在主資料源中,按照欄位位置附加資料集。當使用這種方法附加欄位時,應當對資料進行排序以確保附加的正確性。 - Name(名稱):選擇基於輸入資料集的欄位名附加欄位。 - 同樣選擇Match case以在匹 配欄位名時使樣本保持敏銳性。 Output Field(輸出欄位):列出連接到附加節點的資料來源節點。,Include fields from(包括來自的欄位):選擇Main data set only 以生成基於主資料集欄位的輸出欄位。主 資料集在Inputs欄規定爲第一個輸入資料集。選擇All data sets 以生成所有資料集中所有欄位的輸出欄位而不考慮是 否有匹配所有輸入資料集的欄位。 。,Tag records by including source data set in field(通過包含源資料集欄位給記錄加標籤):選擇在輸出檔中添加一個附加欄位,該欄位表明每個記錄的來源資料集。用文本規定一個欄位名。預設欄位名爲Input。,7.9 區分節點(Distinct),可以使用區分節點來清除重複性記錄,可以將 首個區分記錄傳遞到資料流程中或者捨棄首個 記錄,而將任意的副本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论