Text Mining及Data Mining之实务与应用--文本挖掘与决策支援_第1页
Text Mining及Data Mining之实务与应用--文本挖掘与决策支援_第2页
Text Mining及Data Mining之实务与应用--文本挖掘与决策支援_第3页
Text Mining及Data Mining之实务与应用--文本挖掘与决策支援_第4页
Text Mining及Data Mining之实务与应用--文本挖掘与决策支援_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TextMining及DataMining之實務與應用 文本挖掘與決策支援 蔣以仁謝邦昌臺灣輔仁大學應用統計所暨統計資訊系教授廈門大學計畫統計系講座教授兼博導 首都經貿大學統計學院講座教授兼博導中華資料採礦協會 中央財經大學統計學院講座教授兼博導stat1001 mails fju edu twWWW CDMS ORG TW 文本挖掘理論概述 文本挖掘的獨特之處 有結構化資訊 也有大量非結構化電腦無法理解自然語言符號的意義 需要編碼 indexing 如何查明文檔X和事務V的關係 研究詞庫 wordterms 內部的慣用詞和文檔X的關係如何研究事物A和B的關係 研究文檔X i 中慣用詞之間的關係 文本挖掘與決策支援 專家專業判斷 分析 文獻中所累積之知識 實際問題 認知規律 解讀相關領域知識 判斷預測 資料檢索 整理與呈現 專家 新手 基礎規律 產生知識 應用知識 文本資訊的特點與用途 不確定性 概率 透視未來熱點趨勢資訊精華萃取物公關事項的決斷知識經驗積累相關領域的教育 實證 案例推論EBR CBR 案例研究 文獻 實證佐證 相似案例 實例分析 個案分析 Case basedReasoning Evidence basedReasoning ConceptSearch ExperienceSearch 實證 案例學習 實證 案例學習的障礙 問題結構及概念不易定義不易真正獲得所需 太多雜訊無法精確定義描述所需 致使資料的獲取不夠詳盡知識的分享也因需求不同而未能真正針對問題並切合所需 資料採礦流程 文本探勘流程 Data Data Data Data Data Database ExtractingGatheringCleansingTransferringOrganizingLoading DocumentRepository PreprocessedData TaskDefinitionAndGoal Selection Tools LanguageFeatureExtractionLexicalAnalysisSemanticEvaluationSemanticAnalysis Preprocess TextDatabase Clustering Categorization KnowledgeBased Mining KnowledgeDocument Visualization Browsing 詞彙索引 前置處理 既有詞彙擷取 文件 新生詞彙擷取 關鍵字匯篩選及排名 Ranking 概念式分類 分群 多國語言中 簡繁體字 英日德俄 詞庫式斷詞 專家斷詞 領域相關經驗法則 指引式檔分類 文件自動分類 相似 信息截取 InformationExtraction 概念式搜尋 資訊分享 統計斷詞 關聯與相依分析 Association DependentAnalysis 專家校正 圖形模式 貝氏機制 automaticallyextractstructuredinformation fromunstructuredmachine readabledocuments 相似類歸 注 資料向量化 m個慣用詞 n個文檔 組成m n階矩陣 元素為文檔和慣用詞之間的聯繫程度 當此矩陣階數過高時 會採用一些降維方法 特徵抽取與特徵選擇 特徵抽取與特徵選擇 大家會發現 和資料集的分類步驟相比文本挖掘的步驟多了 特徵抽取和特徵選擇 文本的特徵是由它的詞根 字 詞 句等反映出來的 不像資料集 其特徵是通過各個變數的統計量的數值表現出來的 以下的語言單位都可以用來計算特徵 Character 字 中 Word 詞 中國 Phrase 短語 中國人民銀行 Concept 概念 Blog 部落格 web2 0 同義詞 開心高興興奮 N gram N元組 中國國人人民民銀銀行 文本特徵的建立 定義 文本特徵指的是關於文本的中繼資料 分類 描述性特徵 文本的名稱 日期 大小 類型等 語義性特徵 文本的作者 標題 機構 內容等 表示 文檔建模 採用向量空間模型 VSM 矩陣 特徵向量 其中ti為詞條項 wi d 為ti在d中的權值 文本特徵的數學化表示 以向量空間模型為例向量空間模型 VectorSpaceModel M個無序標引項ti 特徵 詞根 詞 短語 其他 每個文檔dj可以用標引項向量來表示 a1j a2j aMj 可以形成M N階特徵矩陣 第i行第j列的元素表示文章j中出現的特徵i的頻數有時候還要對矩陣中的元素加上權重 例如 資料降維的重要性 樣例空間涉及的總詞項數很大 N在10萬量級 但每篇文檔只涉及其中的一小部分 例如一篇網頁通常只有幾百個詞 到1 10 1 100 甚至更多 如果不進行降維 特徵矩陣的行數M就會很大 會出現一個含有很多零元素的龐大矩陣於是 我們可以通過特徵評價來降維 特徵評價的好處 1避免過擬合 overfitting 提高分類準確度2通過降維 大大節省計算時間和空間問題的實質 除那些stopwords外 還有許多詞實際上對分類沒什麼貢獻 如何確定這些詞 特徵評價示意圖 文本特徵評價函數的數學表示 信息增益 informationgain 期望交叉熵 expectedcrossentropy 互信息 mutualinformation F是對應於單詞W的特徵 P W 為單詞W出現的概率 P Ci 為第i類值的出現概率 p Ci W 為單詞W出現時屬於第i類的條件概率 文本特徵評價函數的數學表示 續 文本證據權 theweightofevidencefortext 詞頻 wordfrequency P W 為單詞W出現的概率 P Ci 為第i類值的出現概率 p Ci W 為單詞W出現時屬於第i類的條件概率 TF W 為單詞在文檔集中出現的次數 文檔建模 詞頻矩陣行對應關鍵字t 列對應文檔d向量將每一個文檔視為空間向量v向量值反映單詞t與文檔d的關聯度 文檔相似度計算 余弦計算法 cosinemeasure 余弦相似度定義 其中為兩個文檔向量 內積為標準向量點積 定義為 定義為 缺點 文檔 無限 導致矩陣增大 計算量增加 特徵集的縮減 潛在語義標引 latentsemanticindexing 方法利用矩陣理論中的 奇異值分解 singularvaluedecomposition SVD 技術 將詞頻矩陣轉化為奇異矩陣 K K 潛在語義標引方法基本步驟 1 建立詞頻矩陣 frequencymatrix2 計算frequencymatrix的奇異值分解分解frequencymatrix成3個矩陣U S V U和V是正交矩陣 UTU I S是奇異值的對角矩陣 K K 3 對於每一個文檔d 用排除了SVD中消除後的詞的新的向量替換原有的向量4 保存所有向量集合 用高級多維索引技術為其創建索引5 用轉換後的文檔向量進行相似度計算 其他文本檢索標引技術 倒排索引 invertedindex 一種索引結構 包含兩個雜湊表索引表或兩個B 樹索引表找出與給定詞集相關的所有文檔找出與指定文檔相關的所有詞易實現 但不能處理同義詞和多義詞問題 posting list非常長 存儲開銷大簽名檔 signaturefile 詞性標注 定義 將句子中兼類詞的詞性根據上下文唯一地確定下來 兼類詞分類 同型異性異義兼類詞 例如 領導 動詞 名詞 同型異性同義兼類詞 例如 小時 量詞 名詞 異型同性同義兼類詞 例如 電腦 電腦自動詞性標注就是用電腦來自動地給文本中的詞標注詞類 在英語 漢語等自然語言中 都存在著大量的詞的兼類現象 這給文本的自動詞性標注帶來了很大的困難 因此 如何排除詞類歧義 是文本自動詞性標注研究的關鍵問題 標注技術路線 基於概率統計和基於規則 自動詞類標注 早在60年代 國外學者就開始研究英語文本的自動詞類標注問題 提出了一些消除兼類詞歧義的方法 建立了一些自動詞性標注系統 1971年 美國布朗大學的格林 Greene 和魯賓 Rubin 建立了TAGGIT系統 採用了86個詞類標記 利用了3300條上下文框架規則 contextframerules 來排除兼類詞歧義 自動標注正確率達到77 1983年 裡奇 G Leech 和加塞德 R Garside 等人建立了CLAWS系統 用概率統計的方法來進行自動詞性標注 他們使用了133 133的詞類共現概率矩陣 通過統計模型來消除兼類詞歧義 自動標注的正確率達到了96 1988年 德洛斯 S J DeRose 對CLAWS系統作了一些改進 利用線性規劃的方法來降低系統的複雜性 提出了VOLSUNGA演算法 大大地提高了處理效率 使自動詞性標注的正確率達到了實用的水準 Clevercraft系統演示 恭請指教 CleverCraft簡介 CleverCraft是一款文本挖掘軟體使用CleverCraft所提供的各種強大功能 讓使用者能夠迅速的從半結構化或非結構化的文件當中 發掘出隱含而有意義且極為重要的資訊 並將這些資訊作進一步的處理儲存使之成為可以被再利用的知識 可以分析多種格式的文本 如 xls pdf doc等可以分析英文 簡體中文和繁體中文 公司簡介 國禾科技股份有限公司 IndexSoftwareLtd Co 於2002年四月正式在台灣成立 公司吸收了眾多國內管理科學 醫學 資訊工程等研究所專才與具有資訊整合實務經驗的菁英 目前國禾科技發展方向上將著重於企業智慧型資訊系統 EnterpriseIntelligentInformationSystems 及生物醫學資訊 BiomedicalInformatics 兩大領域 國禾科技在資料探勘 智慧型資訊整合系統 跨平臺分散式資訊系統 異質分散式資料庫管理 資料倉儲及網路通訊的協調整合上擁有深厚專業技術及經驗 可說是擁有一支牢不可破的優秀技術團隊 並以強烈之企圖心 進軍企業智慧 EnterpriseIntelligent 之世界市場 矢志成為世界級之標竿企業 CleverCraft包含幾個主要功能 文件管理搜尋資料自動分類管理詞庫管理貝氏圖形模式 GraphBayesianModel 文件查詢處理自然語言處理概念式自動分群功能 高維關聯圖 啟動CleverCraft 先在電腦上安裝JAVA工作平臺打開CleverCraft所在資料夾中的子資料夾 4 7 1Beta 按兩下快捷方式km bat 啟動後畫面如下圖所示 上圖左上方有8個小圖案 icons 由左而右分別代表CleverCraft幾個主要功能 1 文件管理 2 搜尋資料 3 自動分類管理 4 詞庫管理 5 貝氏圖形模式 GraphBayesianModel 6 文件查詢處理 7 自然語言處理以及 8 概念式自動分群功能 高維關聯圖 使用者可以點選這些小圖案 icon 來執行相關功能 亦可以選擇從左上角的 功能 選單中直接點選所要的功能來執行 功能介紹 文件管理 功能目的 建立文件初步分類 同時對所欲分析之標的文件檔案進行收集與管理並且建立相關字詞之索引 畫面介紹 其主要包括五個部份 如下圖所示資料夾視窗 顯示目前所在資料夾位置 檔案資料視窗 顯示目前資料夾中所含之子資料夾及檔案 命令列選項 包含定詞建立 索引 新增 刪除等四種功能選項 類別操作視窗 用以新增 修改 建立 刪除資料夾類別 結果顯示視窗 顯示命令列中各項功能操作之結果 操作說明 步驟1 建立一個新的檔存放目錄 即在畫面左下角類別操作視窗中之KM目錄下 按滑鼠右鍵後選擇 新增 建立一個新的目錄 如 KMTEST 如圖所示 而使用者如欲修改或刪除某一檔類別 亦可以類似方法處理 即點選該目錄後 按下滑鼠右鍵後選擇 刪除 或 修改 在KM根目錄下建立一新子目錄 步驟2 讀取文件 在資料夾視窗中須先選擇所欲讀取之文件存放處 如 C ProgramFiles CleverCraft Data SARS Lancet 而後在檔案資料視窗中 選取所欲建立之標的文件 如 pdf 除pdf格式外 CleverCraft亦可接受HTML XML XLS TXT PPT DOC以及Lotus 等等檔案格式 再按下命令列中之 新增 選項 CleverCraft即會將所選文件匯總放在右下角的文件匯總視窗中 使用者亦可直接點選某一目錄 則該目錄中所含之檔即會全部加任右下角的檔匯總視窗中 使用者如欲刪除檔匯總視窗中的某些檔 僅須按住 CTRL 鍵再以滑鼠來選取檔案 然後再按滑鼠右鍵選取 刪除 項即可 建立索引 完成上述動作後 使用者須點選命令列中之 建立索引 或是直接點選所建之檔類別 KMTEST 按下滑鼠右鍵後 點選 建立 項 來完成索引建立之動作 此時 系統會在CleverCraft所在目錄下之KMData目錄中 建立一個 1 tas 檔案 該檔案中有六個欄位值 依序分別為 VariableA VariableB P B A P NotB A P B NotA 及P NotB NotA 如何新增文件 字詞出現頻率統計 點選左下角資料操作視窗中KMTEST目錄 按下滑鼠右鍵點選 慣用詞 項 即會跳出如下畫面 讓使用者可以觀察字詞出現的頻率 如欲刪除某些字 則可在 刪除 項中 直接勾選這些字 然後再按 Update 鍵 即可將這些字刪除 如欲在字詞名單中加入新字 則須先在 關鍵字 空格中 填入所欲加入之新字 並設定其頻率 而後再按 Add 鍵 即可將之加入字詞名單中 至於 分類 空格則為選擇性項目 並不強制要填 至於 Display 40 則是展示所有字詞頻率之分佈 而 Display 40 則是用來展示出現頻率低於40 之字詞 以供使用者判斷其留存與否 而若使用者於文件匯總視窗加入新文件時 則須選取 重塑慣用詞 項 重新建立字詞關係 檢視字詞關聯 點選左下角資料操作視窗中KMTEST目錄 按下滑鼠右鍵點選 檢視鍵詞關聯 項 然後再點選 WWW 項 即會跳出如圖所示畫面 藉此即可觀察 WWW 與其他相關字詞間的關聯性 如表中之數字0 721 CleverCraft可根據分類的準則 自動將特定來源之文章下載入 並適當的分類到所屬的類別中 使用者可以在 Selected 欄位元中勾選表格中任一個字 例如 china 再按下表格最底端的 下載已選擇 按鈕 則會跳出下列畫面 由圖中可以看出使用者可設定下載檔案數 檔案名稱 起始流水號 下載儲存目錄等等 此外 使用者亦可設定要 搜尋所有網站 搜尋所有中文文網頁 搜尋中文 繁體 網頁 設定完成後 按下 搜尋 按鈕CleverCraft會從網站中 去抓取符合條件之檔 html 在下載完成後 使用者須按下右上角的 X 符號關閉此視窗 若使用者同時勾選 Selected 及 Negative 項時 則CleverCraft會選取不含該字之文章 其具有自動分類之功能 即可根據分類的準則 自動將特定文章載入適當的類別中 定詞建立 使用此功能時 會將非定詞檔中之詞彙從索引中予以剔除 僅保留定詞檔中的詞彙 功能介紹 搜尋資料 功能目的 運用 搜尋引擎 的核心技術 配合多種不同文字資料儲存格式之解析能力 從大量 分散 格式複雜的資料中 萃取內藏資訊 讓知識工作者得以快速取得所需資訊 並可與企業內部網頁接合 以作資料搜尋 畫面介紹 其主要包含兩大部份 即 功能選項 包括 搜尋 與 設定 兩個選項 在 搜尋 功能項中 除包含一個關鍵字輸入列與標的文件顯示視窗外 使用者可選擇 內容標示查尋 具highlight功能 與 簡易快速查尋 不具highlight功能 二種選擇 設定 選項則係用來設定瀏覽器搜尋路徑 在windows系統中 CleverCraft會採用預設值 但在UNIX Linux系統下 須自行設定瀏覽器之位置 搜尋結果顯示視窗 顯示搜尋結果 操作說明 步驟1 在左上角 輸入關鍵字 空格中 輸入所欲搜尋之關鍵字詞 如 國營事業 後 選擇 內容標示查尋 後 勾選 KMTEST 目錄 再按下 搜尋 功能鍵 即可得下圖右方視窗所示之結果 如果不勾選特定目錄 則系統自動會以所有的目錄為對象 進行全域搜尋 步驟2 若瀏覽器路徑設定完成 則使用者即可直接點選上圖中所列出的每個文件路徑 來觀看相關文件內容 如左圖所示 功能介紹 自動分類 功能目的 系統會依據人工分類的原則 歸納學習出一群同一類文章中常用之重要關鍵詞及其間的關聯性 以之為基準來對新進的文件進行自動分類 畫面介紹 CleverCraft中主要包括三大區域 操作列 分類標的目錄以及分類結果顯示視窗 如下圖所示 在操作列中有一個系統預設的分類門檻值0 5 系統會自動計算所欲分類之新文件與視窗左下角之標的文件類別目錄間的相似度 當此一相似度超過此一門檻值時 系統會自動建議使用者將之視作同一類文章 使用者可視需要自行調整該門檻值大小 文獻分類 分群 知識表達方式之轉換 資料探勘技術Clustering k means EM agglomerative Categorization kNN DT Bayes 表達方式之處理 藉以取得運算矩陣 UMLS MeSHmedicalhierarchyLibraryofCongresssubjectheadingsACMkeywordhierarchy 概念階層ConceptHierarchicalAnalysis 檔分類 自動分群 分類 文件 類別1 類別2 類別n 專家 分類器 新文件 操作說明 步驟1 按下操作列中之 瀏覽 項 找到所欲分類之文件目錄或個別檔 而後再按下操作列中之 分類 鈕 系統即會自動執行分類功能 所得的結果如下圖所示 自動分類功能結果顯示 依圖中之結果顯示視窗中可以看出 有三份所欲分類之標的文件與KMTEST目錄中之既存文件之相似度高於0 5 系統已自動勾選 使用者若認為此一分類結果可以接受 則可按右上方之 加入 鍵 將之加入KMTEST中 使用者也可以選擇以人工加入的方式 自行在方框中勾選特定檔 將之加入所要的文件類別中 功能介紹 詞庫管理 功能目的 即維護既有詞庫或增建新詞庫 俾利知識庫之建立 除了可以人工方式為之外 系統亦提供自動斷詞功能 即利用統計方法 StatisticalNgram 歸納文件中字詞出現的情況 來建立新詞 以充實詞庫 畫面介紹 在CleverCraft之詞庫管理功能中 主要含括兩大視窗 即操作區及詞庫內容區兩者 而在操作區中 主要有兩個功能選項 即詞庫與自動斷詞建立詞庫 如下圖所示 詞庫管理功能啟始畫面 操作說明 在既有詞庫中增加新的詞彙及更新詞庫 首先在操作區中之詞彙輸入區空格中 鍵入所要增加之詞彙 如 WHO 而後再按下空格鍵左下方之 新增 鈕 即可將之加入既有之詞庫中 而若使用者有其他新的詞庫 則可按下 更新詞庫 鍵將之與既有詞庫作更換 系統中可引入各國語言詞庫或專業詞庫 以利建立知識庫 自動斷詞建立詞庫 若使用者有一些新的文章卻找不到適合的詞庫可以應用 此時即須運用此一功能來另建一個新的詞庫 在此一功能項下 使用者只須按下 執行 鍵 系統即會自動跳出如下圖中間所示之 智慧型詞庫 視窗 此時使用者須按下該視窗中之 瀏覽 鍵以指定文章所在之目錄路徑 而後按下 斷詞 鍵進行斷詞斷字 結果出來後再按下 新增詞彙 鍵即可 系統會在所指定之目錄下建立一名為 lm 之目錄 其下有一名為 gram lm 檔案 其為UTF 8格式 使用者可採微軟所提供的 記事本 應用程式來加以編輯 自動斷詞建立詞庫 功能介紹 貝氏推論圖形模式 GraphBayesianModel 功能目的 依據BayesianNetworks演算法建立推論規則 畫面介紹 主要區分成三大區域 參數調整區 功能命令區及結果顯示區 如下圖所示 Bayes推論建構結構化學習 假設 h H為證據D中之互斥且充分之支持案例 後序支撐 邊際相似 先前機率 結構 相似度 先前機率 參數 PreciousMetalsClimateImproving SaysMontage London April1 Theclimateforpreciousmetalsisimprovingwithpricesbenefitingfromrewardinflationfearsandtheswitchingoffundsfromdollarandstockmarkets SliverpricesinMarchgainedsome15pctindollartermsduetoaweakdollarandsilverisfelttobefairlycheaprelativetogold Thereportsaidthefirmnessinoilpriceswaslikelytocontinueintheshortterm 主題 用詞模式 gold ChicagoBoard weather PreciousMetals agriculture commodities banking exchange Citicorp Gatt Skiingorbeaches hotel tourism P precious metals banking exchange commodities agriculture tourism ChicagoBoard gold weather Citicorp etc Buntine 1993 主題 用詞模式 推論 gold PreciousMetals true gold platinum silver silver P gold silver platinum precious metals true gold etc P silver precious metals true newswire P silver precious metals true newswire P precious metals true newswire P silver precious metals true newswire SSP gold silver platinum precious metals true newswire 貝氏推論圖形模式 GraphBayesianModel 啟始畫面 在參數調整區中含括幾個參數 1 門檻值 當某物件出現之機率超過此一門檻值時 才會出現在Bayesian圖形中 2 支撐值 指兩物件或關鍵詞同時併存的最小機率門檻值 系統預設值為0 3 若使用者更改此值 須按功能命令列中之 重塑知識地圖 鍵 重塑新的知識地圖 3 正 負比例 ALPHA THRESHOLD 對兩物件A B而言 若A出現之機率除以B出現之機率 即P A P B 小於此一比例值時 圖形即以 A B 來呈現 此一門檻值預設為1 5 若使用者更改此值 須按功能命令列中之 重塑知識地圖 鍵 重塑新的知識地圖 非正 非負比例 BETA 若兩物件A B 且A B之機率與B A之機率相等 則若P notB A P notA B 之值超過此一門檻值時 圖形呈現時即採用B A 預設值為1 THRESHOLD RANGE調整捲軸 畫面下方之Threshold調整捲軸是用來管控兩物件是否串連 link 之最低門檻值 其預設值為0 而Range捲軸則是用來管控upperbound之值 意即Upper Bound Threshold Range 若兩物件間之關聯值超過UpperBound之值時 則兩物件間之串連 link 亦不會出現 此兩者的目的是在協助使用者排除關聯性太低或太高的雜訊 noisy 關係 使圖形較為單純化 以利分析之進行 在功能命令區中則包括 只顯示英文名詞 對英文關鍵字詞來說 若本選項為 true 則將只出現名詞項目 Nounterm 重塑知識地圖 即當使用者調整參數時 按此鍵來重建圖形關係 推論樹 可協助使用者觀察所選定之標的物件對其他關鍵字詞物件的影響情形 演繹樹 可協助使用者觀察其他字詞物件對所選定之標的字詞物件的影響情形 轉檔 讓使用者可將所得的圖形轉成 dat檔 存到關聯式資料庫中 操作說明 步驟1 使用者只須按下左上角中所要分析的標的檔分類目錄 例在如本例中的 KMTEST 再於結果顯示區中按下滑鼠右鍵 選擇 FittoScreen 即會出現下圖所示結果 兩物件之關聯性若大於0 5 則以綠線連結 反之則以紅線連結 貝氏推論圖形模式 GraphBayesianModel 展示畫面 若使用者對圖中的某一特定字詞 term 有興趣 則可點下該字詞 系統即會將與該字詞有關之鏈結保留而去除與其無關之鏈結 如下圖所示 使用者若將滑鼠指向某一鏈結 系統即會顯示該鏈結之強度 即圖中之藍色字Score與Weight所示 此時若使用者按下滑鼠右鍵 系統會跳出一個小視窗 其中包含三個選項 ContentView WeightModification PieChart 所選定之標的字詞與其他字詞之關聯圖 ContentView 列出所有與該鍵結有關之檔路徑及其內容摘要 使用者可點選各個路徑來觀看該文件之內容 如左圖所示 WeightModification 系統目前對所有鏈結之預設權重均為 使用者可透由該選項來提高或降低該鏈結之權重 如左圖所示 PieChart 以之判斷箭頭所指方向之正確性高低 若TruePositive之值越高 即代表正確性越高 如左圖所示 步驟2 按下推論樹後 呈現如下圖所示結果 在圖中若選定human為標的物件 則可看出依所搜集之文件顯示 從human可以推論出fever virus network及outbreak等等相關物件 而使用者如對其中的某個物件 例如network 特別感興趣 則其亦可以滑鼠來拖曳該物件 則所選取物件即會放大 以利使用者觀察 推論樹結果顯示 步驟3 若使用者依然點選 human 為標的字詞物件 則在按下演繹樹後 呈現如左圖所示結果 在圖中可以看出有 network human以及influenza human 這樣子的關係存在 步驟4 使用者可在結果顯示區的空白處 按下滑鼠右鍵後 點選 FullScreen 選項 即可得到一以高維來顯示之貝氏因果脈絡圖 如下圖所示 透過貝式因果脈絡圖讓使用人員可瞭解檔中所蘊含的因果牽連脈動關係 藉以更清楚呈現知識架構及成因 以提昇資產能量與研判能力 表現事件影響之變動潛能 充分掌握其中之相依性與關聯性 貝氏因果脈絡圖 若使用者將滑鼠指向某一關鍵字詞 並按下滑鼠右鍵後即可看到上圖中白色方框中所顯示的幾個選項 包括 ExpandNode 由於本圖屬於階層式之高維圖 因此若關鍵字詞之右上角有數字或紅色記號者 代表其下還有其他關鍵字詞 使用者可透過點選 ExpandNode 加以展開 CollapseNode 即將使用者所點選的關鍵字詞及與該關鍵字詞有關的連結 link 加以摺疊 只保留該關鍵字詞 此時該關鍵字詞之右上角會呈現一個數字 代表有幾個相關字詞被摺疊包含在該關鍵字詞底下 使用者可點選 ExpandNode 來加以展開 HidesNode 即將使用者所點選的關鍵字詞及與該關鍵字詞有關的連結 link 都加以隱藏 此時所有與該關鍵字詞有關之其他關鍵字詞之右上角都會出現一個數字 代表有幾個相關字詞包含在該關鍵字詞底下 使用者可點選 ExpandNode 來加以展開 CenterNode 系統會以使用者所點選之關鍵字詞為中心重新佈圖 InfoNode 列出含有所點選之關鍵字詞的所有檔 如contentview介面 Effect 以所選之關鍵字詞為標的 呈現如步驟2之推論樹之結果 Factor 以所選之關鍵字詞為標的 呈現如步驟3之演繹樹之結果 功能介紹 概念式自動分群功能 高維關聯圖 功能目的 藉由自動分群法則 依照各文件詞彙出現的比重 進行詞彙之關聯性階層式之概念歸類 並建立多個概念節點 產生Generalization及Specification之方向 除了方便使用者進行檔分群外 亦可協助使用者進行多面向之邏輯推論搜尋檢索 畫面介紹其主要包含二個部份 即參數調整區與畫面操作顯示區 如下圖所示 概念式自動分群功能 高維關聯圖 啟始畫面 關聯與法則 議題關聯相關 議題法則 法則推論 相似分析 相依原理 法則邏輯推論 樣本資料推論分析 知識脈絡 age abortion AgeANDAbortion Age Hrt 專家與決策 知識群組 知識呈現 操作說明 本功能之操作其為簡單 使用者僅須點選所欲分類之標的檔分類目錄即可 例如上例中之 KMTEST 所得結果如下圖所示 圖中所標示之各個群組或次群組 使用者皆可以滑鼠右鍵點選 此時系統會

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论