装箱法-南华大学资讯管理学系暨研究所课件

上传人：9*** IP属地：贵州上传时间：2023-10-02 格式：PPT 页数：53 大小：313.23KB 积分：25 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023/10/1DataMining1Chapter3DataPreprocessing2023/8/8DataMining12023/10/1DataMining2

簡介

(1/4)所謂的資料前置處理是指在進行資料探勘之前，為了讓資料更適合進行探勘的工作，對於資料所做的預先處理動作。在整個資料探勘的過程當中，資料前置處理所需要花費的功夫通常是最多的，同時資料前置處理也是對探勘品質影響最大的一個關鍵步驟。

資料前置處理的主要目的就是解決資料品質不良的問題，使得探勘結果的品質得以提升。

2023/8/8DataMining2簡介(1/4)所2023/10/1DataMining3

簡介(2/4)未經處理的資料可能存在許多品質不良的情況：資料不完整(dataincomplete)

資料不完整的情況最常見的便是資料中有某些屬性值有遺缺。例如：某顧客填寫會員資料表時，可能遺漏了填寫年齡這一欄。一般在線上作業的資料庫系統，除非管理者將資料庫中的每一個欄位均設定為不可接受空值(null)，否則即有可能在某些欄位出現資料遺缺的情況。

2023/8/8DataMining3簡介(2/4)未2023/10/1DataMining4

簡介(3/4)資料有雜訊(noise)

此問題多半是因資料有錯誤或是特例(outlier)所造成的。例如，顧客填寫會員資料表時，有可能因為要保護自己的隱私而故意填寫錯誤的資料。雜訊不一定全是故意填錯造成的，也有可能是因為填寫資料時不小心或是資料中原本就包含特例而產生的。例如：一般男生的身高大多介於165公分到185公分之間，然而有一位顧客的身高是197公分，這便是一個特例。雜訊不僅可能導致探勘的結果不正確，也有可能會誤導探勘的結果分析。

2023/8/8DataMining4簡介(3/4)資2023/10/1DataMining5

簡介(4/4)資料不一致(datainconsistency)

資料不一致的情況有許多，主要是因為資料由不同來源整合而得所產生。例如某一跨國性的企業，其商品在台灣是以台幣計價，而在美國則是以美金計價；當兩國的銷售資料被整合在一起做探勘時，若沒有經過適當的單位轉換，便會產生完全不正確的探勘結果。

有高品質的資料，才有高品質的探勘結果2023/8/8DataMining5簡介(4/4)資2023/10/1DataMining6資料前置處理的主要工作

資料前置處理主要包含資料整合(dataintegration)、資料清理(datacleaning)以及資料轉換(datatransformation)等三項工作。2023/8/8DataMining6資料前置處理的主要工2023/10/1DataMining71.資料整合

DataIntegration所謂的資料整合便是將多重來源的資料整合在一個貯存庫中，因此資料整合最主要的目的便是解決多重資料來源的整合問題。DataWarehouse資料整合的主要工作有二：

消除資料不一致

消除資料重複性

2023/8/8DataMining71.資料整合Dat2023/10/1DataMining8資料不一致的情況

(1/2)數值不一致(datavalueconflict)例如商品價格在某個資料來源中用台幣計價，而在另一個資料來源中卻用美金計價。這種數值單位不一致的現象，透過單位換算，使數值的計算單位統一，即可消除。另外一種數值不一致的情況是不同來源的資料內容不相同。例如：同一位會員在A資料表中記錄的年齡是30歲，然而在B資料表中卻是25歲。因為無法判定究竟哪一個資料表是正確的，通常會採取的作法是將該屬性的資料刪除，以空值來取代，以消除內容不一致的情況。

2023/8/8DataMining8資料不一致的情況(2023/10/1DataMining9資料不一致的情況(2/2)綱目不一致(schemaconflict)多半是屬性名稱不一致所造成的。例如有的資料來源用「會員姓名」這個屬性名稱，而另一個資料來源卻用「顧客姓名」這個屬性名稱，雖然名稱並不相同，但實際所代表的意義卻是一樣的，可以透過屬性更名的動作來進行統一。

2023/8/8DataMining9資料不一致的情況(2023/10/1DataMining10資料重複性的情況

數值重複例如整合中發現A資料表中有某會員的資料，在B資料表中也有同一位會員的資料，則可刪除其中一筆記錄，以免造成資料重複。

綱目重複例如資料經整合之後發現其中同時包含生日以及年齡這兩個屬性，因為年齡可以從生日推導出來，因此可以將年齡這個屬性刪掉以避免資料重複。

2023/8/8DataMining10資料重複性的情況2023/10/1DataMining112.資料清理DataCleaning

資料清理的步驟主要目的是確認資料的正確性以及完整性，使得資料探勘能夠順利進行。

2023/8/8DataMining112.資料清理Da2023/10/1DataMining12常見的資料正確性問題檢查內容說明屬性的有效值或有效範圍例如：性別屬性的值不是男性就是女性；生日的月份應該介於1和12之間。數值的唯一性例如：身分證字號或是顧客編號不可有重複。參考完整性(referentialintegrity)例如：存在於訂單資料表中的會員編號必須同時存在於會員資料表中。資料的合理性驗證例如：從會員的生日計算出該會員的年齡只有10歲，但是該會員所填寫的學歷卻是博士，顯然不合理。

2023/8/8DataMining12常見的資料正確性問2023/10/1DataMining13常見的資料完整性問題

檢查內容說明是否缺少探勘所需的屬性例如：當我們想要探勘顧客年齡與購買商品種類的關係時，卻發現資料庫中並未包含年齡這個屬性。是否只包含統計整合過的資訊，而缺少詳細的單筆資料例如：當我們想要分析某網站的瀏覽率以了解一天當中那一個時段最多人拜訪這個網站時，卻發現該網站每天只有記錄一筆當天的總瀏覽人次，而缺少每個小時的瀏覽人次資料。缺少的屬性有時可以從其他屬性推導而出。例如：如果資料庫中有生日這個屬性，便可利用生日將顧客的年齡計算出來，而產生原本缺少的年齡屬性。若是探勘所需的屬性確實無法取得，那麼就必須修正探勘的目標，以便使資料探勘的工作可以繼續進行。

2023/8/8DataMining13常見的資料完整性問2023/10/1DataMining14其它相關的資料清理工作

遺缺填補：為了不讓屬性值有遺缺的資料影響探勘的結果，在進行資料探勘之前，應該設法把遺缺的資料填補進去。填補的方式又可分為人工填補或是自動填補。雜訊消除：由於雜訊的存在有可能會使探勘的結果有相當大的偏差，因此必須將雜訊移除或是將資料做適當的平緩化處理(smoothing)，以降低或是消除雜訊對於探勘結果的影響。2023/8/8DataMining14其它相關的資料清理2023/10/1DataMining15DataCleaning-遺缺填補法

資料遺缺的原因資料建立時未輸入：可能是故意或是不小心造成資料在建立時沒有被輸入。例如，因為擔心個人資料曝光故意不填身分證號碼，或是因為疏忽漏填電話。若資料庫中的欄位未設定為不可接受空值，便有機會產生資料遺缺的情況。

設備故障：例如因為收銀機故障導致顧客的消費明細無法即時輸入。

當資料內容不一致時，為了避免錯誤的資料影響分析的準確性，可能會將該項資料以空值取代，因此產生資料的遺缺。

2023/8/8DataMining15DataClea2023/10/1DataMining16資料遺缺的處理方法

(1/2)直接忽略法

直接忽略該筆內容有遺缺的資料。

這種作法特別適用在進行分類探勘時，若是某筆資料的分類標記(classlabel)為空值，那麼這筆資料因無法被正確分類，便可直接刪除。例如要找出顧客信用等級的分類規則時，信用等級這個屬性便是所謂的分類標記；若有一筆顧客資料其信用等級欄位存放的是空值，這筆資料便無法作為信用等級分類規則探勘時的依據，因此這筆資料可直接刪除。

雖然直接忽略法相當容易，然而如果資料遺缺的比例很可觀時，此法會造成大量的資料流失，反而不利於探勘。

直接忽略法較適用於所蒐集的資料量很多，但遺缺的資料只佔其中一小部分的情況。

2023/8/8DataMining16資料遺缺的處理方法2023/10/1DataMining17資料遺缺的處理方法(2/2)人工填補法

為了處理資料遺缺的現象，可採用人工來填補遺缺的資料。例如當某會員資料的生日屬性有遺缺時，可打電話詢問該會員以取得其生日加以填補。

人力的負擔將會十分沉重。

自動填補法在資料遺缺的處理方法上，較為實際且可行的作法便是自動填補法。最簡單的自動填補法便是填入一個通用的常數值，例如，填入“未知”。當這個屬性被用來當做分類標記時，“未知”會成為一個新的類別，得到適當的分類規則。

另外一種自動填補法是填入該屬性的整體平均值。就統計的觀點而言，將遺缺的資料自動填入該屬性的整體(或同類)平均值，將不會對統計的結果造成太大的影響。

2023/8/8DataMining17資料遺缺的處理方法2023/10/1DataMining18DataCleaning-雜訊去除法

雜訊產生的原因和資料遺缺產生的原因大同小異，有可能是資料收集儀器暫時故障，或是資料輸入時的疏忽，或是資料本來就存在的特例等等。

消除雜訊可以透過雜訊的辨識方法將雜訊找出並且移除，也可以利用資料的平緩化處理將雜訊對於探勘結果的影響加以平緩。

2023/8/8DataMining18DataClea2023/10/1DataMining19辨識雜訊的方法

辨識雜訊最簡單的作法就是結合電腦偵測與人工檢視。先利用電腦計算偵測出可疑的數值，例如大於或小於平均值百分之二十以上的資料便有可能是雜訊，接著再用人工的方式確認這些可疑的資料是否真的是雜訊。這個方法雖然簡單，但因需要人力介入，曠日費時，並不實際。另一種方法是用群集分析法先將資料做分群，分群之後未能落於任一群集的零散資料便可認定為雜訊。當雜訊所在的資料被辨識出來之後，便可將之移除。

2023/8/8DataMining19辨識雜訊的方法辨2023/10/1DataMining20資料平緩化處理的方法(裝箱法)裝箱法(binningmethod)的基本概念是先將資料做排序，排序後將資料分組裝入箱子中，接著再用各個箱子中所有資料的平均值、中位數、或邊界值來取代箱子中的每一筆資料。

裝箱法主要有兩種：等寬分割法(或者稱為等距分割法)，以及等深分割法(或稱為等頻分割法)。所謂的等寬分割法是指依照資料的數值範圍來劃分資料分組的區間，而等深分割法則是依照資料的個數來劃分資料分組的區間。

2023/8/8DataMining20資料平緩化處理的方2023/10/1DataMining21等寬分割法

(1/3)等寬分割法將資料依數值範圍劃分為N個間隔相同的區間。假設A和B分別為該屬性中的最小與最大值，要將資料劃分成N個區間，則每個區間的寬度W=(B-A)/N。例如，欲分析顧客年齡與購買商品種類的關係，使用了12個顧客作為分析對象，其年齡分別為：12,15,18,21,28,33,36,45,50,52,60,80，如果要消除年齡屬性的雜訊，可將此12人的年齡分割成四個箱子來進行裝箱法的處理。因為此年齡屬性的最大值是80，最小值是12，因此箱子的寬度便是最大值減最小值再除以箱子的個數，即(80-12)/4=17，得到的箱子寬度就是17。

2023/8/8DataMining21等寬分割法(1/2023/10/1DataMining22等寬分割法(2/3)箱子一所裝的是介在12和28之間的年齡資料，箱子二裝29~45，箱子三裝46~62，箱子四裝63~80。因此箱子一會裝五個數字：12,15,18,21,28，箱子二會裝三個數字：33,36,45，箱子三會裝三個數字：50,52,60，第四個箱子只裝一個數字：80

。2023/8/8DataMining22等寬分割法(2/2023/10/1DataMining23等寬分割法(3/3)等寬分割法雖然頗符合直覺，然而當資料有雜訊或特例時，此種分割方法將對探勘結果有很大的影響。以前圖為例，前面11個數字的分布還算平均，然而第四個箱子卻只包含一個數字80，這一個數字很有可能是個特例。由於利用等寬分割法時，如果遇到特別高或是特別低的數值，用最大值和最小值作為區間範圍所計算出的箱子寬度，可能會造成裝入箱子裡的資料個數不平均的問題，因此等寬分割法並不適合用在偏斜的資料(skewdata)上。

2023/8/8DataMining23等寬分割法(3/2023/10/1DataMining24等深分割法(1/2)

等深分割法是將資料劃分為數個相同數量而非相同間隔的資料區間。以相同例子做說明，12個會員的年齡分別如下：12,15,18,21,28,33,36,45,50,52,60,80，欲分割成四個箱子，12/4=3，因此每一個箱子放三個數字。箱子一放12,15,18，箱子二放21,28,33，箱子三放36,45,50，而箱子四放52,60,80。

2023/8/8DataMining24等深分割法(1/2023/10/1DataMining25等深分割法(2/2)等深分割法的資料分佈比等寬分割法好，箱子內含的資料量比較平均，即使資料有偏斜的情況也可以處理。無論是採用等深分割或是等寬分割，裝箱法最大的缺點便是不容易處理類別型態的屬性。例如：職業屬性的可能值有金融/保險、房地產、政府機關、軍警、教育/研究等等，然而這些職業類別並沒有先後次序，無法進行排序，因此比較不適合用裝箱法來處理雜訊。

2023/8/8DataMining25等深分割法(2/2023/10/1DataMining26裝箱資料的平緩處理(1/3)

平均值法：以平均值取代個別的數字來消除雜訊。以等深分割法的例子來說，箱子一中裝著12,15,18,此三數的平均值為15(如果有小數點即自動進位)，因此便以15,15,15取代12,15,18。箱子二裝著21,28,33，平均值為28，因此以28,28,28取代21,28,33。以此類推，箱子三裝的36,45,50以平均值取代成44,44,44；箱子四裝的52,60,80，以平均值取代成64,64,64。經過這樣的處理後可以發現，原本年齡80是一個特例，但被平緩化處理成64之後，其值便接近正常值了，由此可見平緩化的處理確實可消除雜訊。

2023/8/8DataMining26裝箱資料的平緩處理2023/10/1DataMining27裝箱資料的平緩處理(2/3)中位數：以中位數取代個別的數字來消除雜訊。

以12,15,18這三個數字而言，位於中間的是15，因此就用15,15,15來取代12,15,18；21,28,33這三個數字中位於中間的是28，因此就用28,28,28取代21,28,33。依此類推，36,45,50取代成45,45,45；52,60,80則取代成60,60,60。

中位數較平均值容易排除極端值的影響。在箱子四中放著52,60,80，其中80是一個相對較大的數字，但還不算太極端，如果80換成120，52,60,120的平均值為77，對於其他數字而言，仍可視為特例。因此平均值的方式無法完全避免極端的特例對平緩後的數值所產生的影響。若是採用中位數來處理，不管80被換成100、1000、或是10000，其中位數仍為60。

2023/8/8DataMining27裝箱資料的平緩處理2023/10/1DataMining28裝箱資料的平緩處理(3/3)邊界值法：以邊界值取代個別的數字來消除雜訊。

若是一數值離最小值較接近便用最小值取代，若離最大值較接近便用最大值取代。例如：12,15,18這個箱子中，15與最小值12和最大值18的距離相同，因此可任選12或18來取代15；假設選擇18,則取代的結果為12,18,18。然而在21,28,33這個箱子中，28距離33較21近，因此便用33取代28，成為21,33,33。

若是箱子四中有十個數字分別為52,52,52,52,52,52,60,60,60,80，其中60距離52較近，因此前九個數字都會用52來取代，只有最後一個數字維持80。平均下來，極端值對整個統計結果的影響便可減少。用邊界值來消除雜訊時，雖然仍可看到雜訊的存在，但是雜訊的影響力已被降低。

2023/8/8DataMining28裝箱資料的平緩處理2023/10/1DataMining293.資料轉換DataTransformation資料轉換的主要目的是將資料內容轉換成更容易探勘或是探勘結果可信度更高的狀態。基礎的資料轉換工作包括資料統整化(dataaggregation)、資料一般化(datageneralization)以及建立新屬性(attributeconstruction)等。進階的資料轉換工作包括資料正規化、資料形式(dataforms)轉換、資料形態轉換以及資料模糊化等等。DataReduction2023/8/8DataMining293.資料轉換Da2023/10/1DataMining30資料統整

資料統整是指將現有的資料做加總、統計或是建立資料方塊。例如：將商品銷售資料按照銷售地區或是商品類別做加總。資料統整的目的是將資料做初步的整理，使得資料更適合探勘的工作。例如：整合後的資料中有每一天的商品銷售紀錄，然而想要進行的探勘工作是找出銷售業績與氣候的關係。由於以每一天的數據來看，很可能因為資料變化太大而找不出規律性，因此可以嘗試將銷售資料按銷售月份做加總，同時將氣溫按照月份作平均，用統整過後的資訊來進行探勘，有時會更容易探勘出隱藏在資料中的規律性。

2023/8/8DataMining30資料統整資料統整2023/10/1DataMining31資料一般化

資料一般化是指將資料的概念階層(concepthierarchy)向上提升。例如：將會員的詳細地址用城市或是北中南東四區來取代。資料一般化可將某屬性中所包含的不同數值減少，以增加探勘結果的可用性。(DataReduction)

2023/8/8DataMining31資料一般化資料一2023/10/1DataMining32建立新屬性

利用舊屬性將探勘所需的新屬性建立出來。例如：整合後的資料只包含會員的生日，然而探勘時要用的屬性是會員的年齡，由於年齡可以從生日推算而出，因此可在此步驟建立出所需要的年齡屬性。(DerivedVariables)

2023/8/8DataMining32建立新屬性利用舊2023/10/1DataMining33資料正規化DataNormalization

資料正規化的主要目的是將不同標準之下所記錄的資料轉換到同一個標準，以便提高分析時的準確度。資料的正規化會將資料重新分佈在一個較小而且特定的範圍內。

例如：台灣人民的平均所得遠高於菲律賓人。一個月賺一萬八千元台幣在台灣算是中低收入，然而在菲律賓，這卻是相當於三個大學教授的薪水。若是直接拿兩國人民的收入數字來做比較，便會產生不夠客觀的問題。

2023/8/8DataMining33資料正規化Dat2023/10/1DataMining34極值正規化(1/2)極值正規化的公式如下：

其中v為正規化前的數值，其範圍為[a,b];

v’為正規化後的數值，其範圍為[c,d]。abcdvv’2023/8/8DataMining34極值正規化(1/2023/10/1DataMining35極值正規化(2/2)假設一般臺灣上班族的月收入範圍為[20000,100000]，而一般菲律賓上班族的月收入範圍為[2000,10000]；在台灣收入30000元相當於在菲律賓收入多少？

v=30000a=20000b=100000c=2000d=10000

將以上數字代入公式中即可求得v正規化後的數值為極值正規化適合用在需要將資料規範在某一個指定範圍內的情況。2023/8/8DataMining35極值正規化(2/2023/10/1DataMining36Z-分數正規化公式範例：假設臺灣人月收入平均為35000元，標準差是10000元，利用Z-分數法將月收入30000元做正規化，將得到

負數表示收入低於平均，正數表示高於平均；結果之絕對值越小，表示偏離平均值程度越小，反之越高Z-分數正規化適合用在需要了解數值與平均分佈之間的關係時2023/8/8DataMining36Z-分數正規化公式2023/10/1DataMining37十進位正規化

十進位正規化之公式如下：

，其中ｉ是使得Max(|v’|)

1的最小整數。

假設台灣上班族最高月收入為100000元，因此使得正規化後的結果小於或等於1的最小整數ｉ為5。則月收入30000元經由十進位正規化之後將會得到：

十進位正規化適合用在要將數字壓縮到區間[0,1]的情況。2023/8/8DataMining37十進位正規化十進2023/10/1DataMining38資料形式轉換

資料探勘技術所能處理的資料形式(dataforms)通常可分為四種：本文形式、時間形式、交易形式、關聯形式。本文形式：通常表示內容或是文件，可看作是字串的集合。例如：新聞或是各種網頁的內容。

時間形式：通常儲存著時間序列(timeseries)，記錄隨時間而改變的資料。例如：證劵交易的行情變化或是顧客的交易歷程。

交易形式：記錄交易的項目。例如：顧客單次採購的商品項目所成之集合。

關聯形式：即關聯式資料庫中的表格，是最常用的資料形式，可儲存多種型態的資料。

2023/8/8DataMining38資料形式轉換資料2023/10/1DataMining39資料探勘技術適用之資料形式(1/6)

多層次資料一般化

(multileveldatageneralization)

主要目標是要在資料庫中發掘出較高層次的資料觀點(view)，以表達某些人類比較容易了解的觀念。例如了解來自不同區域的學生各科成績之間的關係。(concepthierarchy)合適之資料形式：關聯形式，主要乃藉由收集統計關聯式資料庫表格的對應屬性資料，以發掘出較高層次的資料觀點。2023/8/8DataMining39資料探勘技術適用之2023/10/1DataMining40資料探勘技術適用之資料形式(2/6)

分類法

(dataclassification)

主要目的是在訓練樣本中發掘出分類的規則，以用來分類新進資料。合適之資料形式：適用於關聯形式的資料，以關聯式資料庫表格來儲存訓練樣本，以一個屬性做為分類的目標屬性，其中記錄著資料樣本的分類標記(classlabel)，而其他屬性則被當作分類演算法的輸入數據。2023/8/8DataMining40資料探勘技術適用之2023/10/1DataMining41資料探勘技術適用之資料形式(3/6)

群集分析

(clusteranalysis)

根據資料樣本的樣式(pattern)，將最相似的資料樣本分成一個群集；同一群集的資料樣本差異性小，而不同群集的資料樣本差異性大。

合適之資料形式如同分類法，適用於關聯形式的資料，以關聯式資料庫表格來儲存欲進行群集分析探勘的資料樣本。

2023/8/8DataMining41資料探勘技術適用之2023/10/1DataMining42資料探勘技術適用之資料形式(4/6)

關連法則探勘

(associationrulesmining)

關連法則探勘的主要目的是在龐大的交易資料中找出交易項目的關連性。合適之資料形式:通常應用在交易形式的資料中。

時間序列分析(timeseriesanalysis)

追蹤並分析不同時間點的資料值變化，以發掘出可預測未來發展的規則。合適之資料形式：通常運用在時間形式的資料上。2023/8/8DataMining42資料探勘技術適用之2023/10/1DataMining43資料探勘技術適用之資料形式(5/6)

以樣式為基礎的相似搜尋

(pattern-basedsimilaritysearch)

預先設定一個目標樣式以及一個差異容忍度，找出與目標樣式之相似度在差異容忍度範圍內的物件，可分成文字搜尋以及時間序列搜尋兩類。

合適之資料形式：本文形式的資料適用於文字的相似搜尋，而時間形式的資料適用於時間序列的相似搜尋。

2023/8/8DataMining43資料探勘技術適用之2023/10/1DataMining44資料探勘技術適用之資料形式(6/6)

2023/8/8DataMining44資料探勘技術適用之2023/10/1DataMining45資料型式的轉換

(1/2)範例一：假設交易資料表記錄著顧客所購買的每一樣商品的資料，包括：交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式。若我們想要分析顧客同一天購買的商品之間的關連性，以目前交易資料表內所儲存的資料格式並無法直接套用於關連法則探勘的演算法，因此在探勘之前必須先進行以下的資料前置處理步驟：選取相關屬性：選出會員帳號、商品編號、交易時間這三個屬性。

精簡資料：將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。

轉換資料形式：依照會員帳號及交易日期將同一會員同一天的交易記錄集合成為一筆交易形式的資料。

2023/8/8DataMining45資料型式的轉換(2023/10/1DataMining46資料型式的轉換(2/2)範例二：若我們想要利用分類演算法針對本文形式的資料，例如新聞或是網頁等文件，進行分類規則的探勘。由於分類法一般乃是適用於關聯形式的資料，因此必須先將欲進行分類的文件內容轉換成資料屬性的形式，才能夠進行分類的探勘工作。我們可以將文件當中出現頻率最高的十個關鍵字找出來，分別記錄在十個資料屬性當中，當作分類法的輸入數據，另外再增加一個屬性，記錄文件的類別，當做分類法的類別標記屬性，如此一來，便可利用一般的分類演算法進行文件分類探勘的工作。

(如memory-basedreasoning)2023/8/8DataMining46資料型式的轉換(2023/10/1DataMining47資料型態轉換(1/3)

不同的資料探勘演算法均有其適合的資料型態，為了應用適當的資料探勘演算法以獲取所需的知識種類，進行資料探勘前必須先將資料型態做轉換。

在資料探勘中，可以把這些資料型態分成離散型(discrete)或是連續型(continuous)兩種類型。

2023/8/8DataMining47資料型態轉換(12023/10/1DataMining48資料型態轉換(2/3)離散型的資料其屬性值是由預先定義的資料集合所組成的，資料集合中兩個值的距離並無法直接計算像布林型態(例如：性別)、列舉型態(例如：職業等)、或是字串型態(例如：地址)均屬於此類型。

以性別屬性而言，可能的值只

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

装箱法-南华大学资讯管理学系暨研究所课件

文档简介

温馨提示

最新文档

评论

装箱法-南华大学资讯管理学系暨研究所课件

文档简介

温馨提示

最新文档

评论

相关文档