中华大学资讯管理学系系统开发专题报告.doc_第1页
中华大学资讯管理学系系统开发专题报告.doc_第2页
中华大学资讯管理学系系统开发专题报告.doc_第3页
中华大学资讯管理学系系统开发专题报告.doc_第4页
中华大学资讯管理学系系统开发专题报告.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中華大學資訊管理學系系統開發專題報告顧客問題集之知識地圖-應用於艾富資訊公司Frequently Asked Questions Information system for AIFU Company專題組員:朱奐全、楊正國、陳俊宏指導老師:邱登裕 副教授專題編號:PRJ-2007-01-0001執行期間:95 年 2 月至 96 年 11 月61. 摘要 隨著政府大量推行企業組織E化之目標,資訊系統目前以廣泛應用於各企業組織中,企業與顧客之間的溝通、交易、需求等互動頻繁,以致資訊迅速且大量的累積,而在企業中有80%的資料是以文件的方式儲存呈現。在企業組織中,許多的知識便是隱藏在文件中,於是這將面臨到一個重大的議題,如何讓大量的資訊成為企業有價值之知識資產,必須倚賴的就是良好的知識管理工具。而知識地圖,就是知識管理的最佳工具,其主要功能在於,當顧客需要某項專業知識時,透過知識地圖的指引,找到所需的知識,節省尋找資料的時間,以提昇顧客對企業的忠誠度。本系統以實際艾富資訊公司的顧客問題為基準實例,利用資訊檢索、知識地圖的圖形化介面、關鍵字記憶、階層分類等其他優點,知識地圖可以針對使用者所輸入之關鍵字搜尋出相關文章以及製作出一份個人專屬的知識導覽,讓使用者能在龐大的資料中可以依照自己的需求找到自己所需的相關資料。關鍵詞:資訊檢索、知識地圖、知識導覽。2. 簡介隨著電腦科技的快速發展,各種資訊無遠弗屆,網際網路成為人們不可或缺的資訊取得管道,隨時隨地提供給人們各種相關的訊息,成為人們查詢資料時最便利的工具。由於網路中的資訊繁複夾雜,造成搜尋時間的浪費。現在透過搜尋引擎的特性,快速地讓使用者在網路中搜尋所需的資訊。由於等待與擷取更多無意義的資訊使得浪費使用者過多的時間,如何快速取得正確及重要的內容是顧客常用問題集知識地圖的宗旨,期望能夠幫助使用者快速獲得需要的資訊。本系統以使用者輸入之關鍵字尋找出相關字詞的資訊,協助閱覽者輕鬆無負擔地瀏覽所需的資訊。希望藉由我們所學到的知識與技術,來製作一個輔助獲取顧客所需相關資訊線上系統。然而,有參考價值的資訊,如果沒有加以適當的整合,系統將無法擷取符合使用者需求的相關資訊。因此,我們開發了一套資訊檢索系統,來整合相關資訊,並提供使用者精確度高的資訊查詢,達到使用者快速取得資訊的便利。網際網路迅速地發展,網路資訊的檢索系統雖提供大量資料給使用者,但使用者卻必須花更多的時間來選取資料。對於網際網路繁多且複雜的資訊量,如何有效地整合其中蘊含的資訊,並從中萃取對於使用者有用的知識,是目前十分迫切的需求。有鑑於此,我們開發了此系統,並且依循文章關連的類別來收尋相關資訊;除此之外,加強使用者介面的開發,讓使用者能快速簡易搜尋相關資訊,進而達成即時而快速的資訊檢索服務。 研製背景提供不同於一般網頁搜尋功能,在使用者瀏覽此知識地圖時更能快速分類出各種類別的顧客問題,進而讓使用者挑選自己所有興趣的資訊。使用者可下達關鍵字去查詢選擇自己所需要的類別資訊,系統依其關鍵字幫助使用者檢索所需的文章。系統將收集回來的文章經由演算法分類到正確的類別中,篩選出精確度高的文章,提高資訊的利用率。因此顧客問題集知識地圖主要是讓使用者在找尋資料時,可以迅速且精確地找到所需之文章,減少在尋找資料的時間成本。 開發目標 顧客問題集知識地圖主要可分為五個部分: 分別是資料的前置處理斷詞、資訊檢索、TFIFD演算法、知識地圖、使用者回饋、使用者書籤。 讓整體結果以知識地圖方式呈現。目標:(1) 前置處理斷詞:利用CKIP對文章進行斷詞。(2) TFIFD演算法: 利用TFIDF找出重要的特徵詞。(3) 資訊檢索: 使用者輸入想查詢的關鍵字,系統針對其關鍵字搜尋出相關文章。(4) 知識地圖: 使用者輸入想查詢的關鍵字後,系統搜尋出以知識地圖方式呈現,給使用者更容易查詢相關文章。(5) 使用者回饋:可以讓使用者,在查詢文章之後瀏覽的過程,可以將文章作評分的動作,系統重新計算關聯度,使系統能有更精確的搜尋。(6) 使用者書籤:儲存使用者所查詢過的文章,依喜好選擇保留或刪除。2.3 主要預期效益(1) 使用者可方便地利用關鍵詞,及反轉文件頻率的定理,提高搜尋資訊的效能,並降低查閱時間的浪費。(2) 利用網路連結搜尋相關資料,透過系統進行分類,可以不受區域的限制,不需安裝軟體,直接上網就可以使用。(3) 使用單一查詢介面,並將所有查詢欄位整合於同一頁面上。提供容易使用、具有親和性,並符合人性化的需求。 3. 專題進行方式 在三年級上學期找尋專題夥伴並且決定指導老師後,進一步討論有關專題方向與目標確立。寒假時學習資料檢索的觀念,三年級下學期時開始學習專題中會使用到的技術與輔助工具。摸索與改變的步伐中與指導學長數次的溝通,並且在每次與老師 meeting中修正各種錯誤和持續的進行開發進度。3.1 人員配置與職責人 員工作與職責陳俊宏系統分析CKIP連結演算法資料庫設計楊正國系統設計文件製作資料庫設計朱奐全系統分析文件製作網頁撰寫3.2 時程規劃時間工作項目12/2801/311.確定專題目標。02/0103/091. 了解資訊檢索的概念學習開發工具03/1003/31系統分析與設計階段1. 開始構想系統雛形 04/0905/111. 整個時程規劃 05/1206/301. 系統分析與設計2. 設計整體架構圖3. 規劃DFD圖與分析4. 期末口頭報告與書面準備07/0109/30製作階段1. 前端介面設計,撰寫2. 後端程式功能撰寫3. 資料庫設計10/0110/14除錯與評估1. 進行程式除錯,修改10/1510/311. 系統線上操作2. 調整六頁合集11/0111/151. 技術文件撰寫2. 系統文件與設計文件修改11/1611/211. 文件修改2. 撰寫使用者說明書3. 系統維護11/2211/251. 練習上台報告2. 準備專題報告11/2611/301. 期末專題發表系統分析與設計摘要本系統的使用者範圍是對艾富資訊公司有需求的對象,提供相關資訊讓使用者擁有最簡便的介面,並且用互動式地圖呈現讓使用者一目了然,對於檢索頻率較高的關鍵字與相關詞列出,方便使用者做參考。本系統的功能架構主要分為五大部分:(1) 關鍵字搜尋:使用者輸入關鍵字來搜尋與艾富資訊公司有關的問題文章。(2) 知識地圖:利用知識地圖呈現使用者查詢相關之關鍵字,進而找出相關文章。 (3) 使用者回饋:針對使用者搜尋的結果進行評分,轉換成資料量化後,再傳回系統做關聯度的修改。(4) 使用者意見交流:留言板的功能,使用者可用留言版發表一些意見,管理者可進行回覆,而為避免有不雅文章或無意義文章,管理者可進行文章的刪除。(5) 使用者書籤:儲存使用者所查詢過的文章,依喜好選擇保留或刪除。3.4 系統功能與特色 本系統的特色主要是利用斷詞系統將斷詞結果和相關的關鍵字詞做比對,將擷取顧客問題之特徵描述,知識文件的特徵描述,以及顧客相關訊息的特徵描述,加以結合應用知識地圖之關聯式規則呈現。前端介面功能部份:(1) 資訊檢索:輸入關鍵字檢索所要資料。(2) 使用者意見反應:可以讓使用者在查詢文章之後瀏覽的過程,若是有認為文章放在不正確的類別,則可以表達其意見。(3) 使用者書籤: 儲存使用者所查詢過的文章,依喜好選擇保留或刪除。(4) 使用說明:利用簡單文字介紹網站操作說明。後端程式功能部份(1) 線上斷詞 (CKIP)透過遠端連線到中研院的線上斷詞(CKIP)系統,將抓取下來的文章內文做斷詞的動作,並且合併詞性;再將常出現的字及標點符號過濾掉,例如:的、你、我還有他等等。方便後面的演算法進行計算。利用(CKIP)的斷詞功能,可以不必耗費時間及人力來建置字典的功能,只要將斷詞的結果和相關的關鍵字詞做比對,更能節省搜尋的時間,提高搜尋的速度。(2) 演算法 TFIDFTF字詞頻率 (term frequency) :指某一字詞出現在文件或資訊內容的相對頻率,用以測量該字詞在文件中的相對重要性,當出現頻率愈高則代表該字詞對該文件愈重要,愈能代表該文件特徵的關鍵字。IDF反文件頻率 (inverse document frequency):指某一字詞出現在其他文章或資訊內容之倒數。若某一字詞出現在其他文件的頻率很少,則 IDF的值愈高,即代表此字詞愈適合被用來區別與其他文件的不同。TFIDF是依據斷詞系統(CKIP)後的結果,經過一連串的資訊檢索公式選出特徵詞做為計算TFIDF根據。TFIDF的公式如Term Frequency(TF)文件頻:計算單字(詞)在文件內出現的頻率 (1) 代表單字(詞) j在文件i的出現頻率,其中表單字(詞) nj 在文件i的出現次數,nall 表文件i中所有具有意義的總詞類。Inverse Document Frequency(IDF)文件頻率的倒數: (2)代表單字(詞)j在所有文件裡出現頻率的倒數,其中N表所有文件的總數, 表單字(詞)j有出現過的文章總數。 當上面兩式相乘積即表示修正過後的關鍵詞Tj在文件Di的權重值(Weight),公式如下 (3)通常衡量重要性皆是以該詞在文件中出現的次數作為決定性的因子,這是TF的作法,倘若該詞同時出現在多篇文件內,相對而言該詞比出現在少數文件內的不具價值,這也涉足IDF的作法,故利用 TF與 IDF 相乘結果即可算出詞的重要性,再予以排序選取最高值的前幾名作為關鍵詞。(3)使用者回饋利用使用者回饋,來增加系統的查詢準確性,我們在使用者取得查詢結果後,會出現一個評價的選單,讓使用者對這此查詢結果給予一個評價,而評價的部分我們區分為五個級別(非常準確、準確、一般、不準確、非常不準確),接著我們將此評價的資料量化為15,再用下面的公式回歸給系統,自動修改該文章對此關鍵字的權重,來提升系統的準確性。Wnew= Wold*(1+(3-Apprise)*0.025) (4)Wnew:新的權重Wold:舊的權重 Apprise:評價量化值主要困難與解決之道(1)CKIP的斷詞系統困難:將資料庫內的顧客問題透過中研院線上的斷詞服務(CKIP)去做文章的斷詞,以便做文章的過濾與分類,但是CKIP只提供線上斷字,導致要將文章傳至網頁才可斷字。解決之道:確定連線狀態,使用程式將每篇顧客問題文章進行讀取,再送到CKIP進行斷詞,得到結果後,儲存於資料庫。(2)與SQL server的連結困難: 於測試電腦上移植所完成的程式碼到實驗室內,將2003版安裝完後執行,產生了與實驗室內的主機無法連接SQL server資料庫的問題。解決之道: 確定的連接通道,以及SQL server的使用者權限,確認無誤後,在進行確認IIS內的 version版本後方可執行。(3)的學習困難: 在開發專題前尚未研修過相關課程,所以在開發過程中有很多問題浮現,例如語法、物件用法等,所以開發進度時常不如預期進度。解決之道:於學校圖書館內借閱相關書籍,尚有不明確之處上網瀏覽相關問題以及與指導學長討論實際操作程式的用法。3.6 實作平台與技術 硬體設備開發端:Inter Pentium 4 CPU 3.00Ghz 512MB DDRRAM使用端:Inter Pentium 4 CPU 512MB DDRRAM開發工具與平台開發端:Windows XP Professional Microsoft IIS 1.0 Microsoft ASP.NET Microsoft SQL Server 2000 Microsoft Visual Basic 6.0使用端:Windows95/98/ME/NT/2000/XP 瀏覽器 IE 5.0(含以上)3.7 上線與測試方式為了實際驗證本系統在實務上之效能,我們做了些實驗,以下分別來說明。(1) 實驗測試準則1.後端程式 將艾富資訊公司所給的顧客問題文件還原於SQL Server端,建置完成後進行傳送到中研院CKIP系統斷詞,再回傳儲存斷詞結果。並以TFIDF演算法算出每個關鍵詞的權重值,依權重找出關鍵字。 2.前端程式 輸入關鍵詞做顧客問題集的搜尋,並作相關字詞的查詢。(2) 評估結果及分析 CKIP程式將會把顧客問題文章送去斷詞,並將回傳斷詞結果,而我們的程式會再進行統計詞頻的工作。資料來源: 此實驗資料來源是艾富資訊公司所提供而來,透過CKIP程式到中研院中文詞知識庫小組去進行斷詞。文章數量: 此次實驗所抓取的艾富資訊公司所提供的顧客問題內容為3113篇,皆可斷詞成功,惟處理時間較長。實驗:實驗以隨機抽樣取出50個文件樣本,以五個顧客常用關鍵字作為查詢,再以下面的公式(56)來評估此系統的精確率(P值)和召回率(R值),結果如表二,本系統有不錯的檢索能力:P值=檢索所得與主題有關篇數/ (5) 檢索所得篇數R值=檢索所得與主題有關篇數/ (6) 資料庫中相關篇數的總數 表二:實驗結果實驗關鍵字P值R值授權0.773 0.602會計0.812 0.711贈款0.769 0.515餘額 0.657 0.378資產0.636 0.4554. 主要成果本系統讓使者用者下達關鍵字搜尋欲檢索的資訊,前端介面是讓使用者可以依據系統所分類的類別,去選擇感興趣的項目。後端則是蒐集類別文章,透過斷詞系統及演算法所計算出來的特徵值,進行分類的工作,讓使用者在正確的類別中看到想要的文章。5. 評估與展望本研究呈現顧客問題集之知識地圖,一方面是讓使用者可以依據系統所分類的類別,去選擇感興趣的項目。透過斷詞系統及TFIDF演算法所計算出來的特徵值,進行分類的工作,讓使用者在正確的類別中看到想要的文章。顧客問題集之知識地圖希望在未來展望可以達到以下幾點:(1) 增加詞性判別:目前的搜尋系統未對關鍵字作詞性的判斷,所以系統未來可在斷詞系統後所產的詞性類別,將其分類,加強搜尋文章的精確度。() 漸進式機制:在未來可加入漸進式的機制,對新增文章做有效率的處理,使系統內的文章數目動態增加,讓使用者可以搜尋到更多相關性的資料。() 使用其他斷詞處理: 因為中研院的CKIP線上斷詞系統不穩定,並且有不知何時會消失的風險,因此在未來希望能有更穩定或內建的斷詞系統能替代,讓此知識地圖系統更加穩定。6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论