




文档简介
i 論文名稱 網站用戶行為模型分析之研究 總頁數 60 校 院 所組別 私立中國文化大學資訊管理研究所 畢業時間及提要別 九十三第一學期碩士學位論文提要 研究生 陳啟仁 指導教授 蔡敦仁 論文提要內容 近年來由於網際網路的快速發展及上網人口的迅速增加 使 得電子商務的應用與競爭更加激烈 因此一對一行銷與網站個人 化推薦系統的觀念也開始風行 為了達到上述的目的 網站推薦 系統必須要先記錄使用者瀏覽的點選歷史 然後透過資料挖掘的 技術 找出使用者過去潛在的瀏覽模式 以提供網站個人化推薦 及一對一行銷的依據 本研究將運用適合分析關聯性問題的關聯 法則 找出使用者點選項目間的關聯性 另結合使用者存取時間 目標網頁 偏好度 Pref 及停留時間等資料作為推薦系統參考因 素 透過相關數據的輔助分析及比較瀏覽序列長度的方法 最後 驗證個人化推薦服務效能 網站管理者可以輕易做到推薦使用者 最佳瀏覽網頁 一般資料挖掘大致可區分為兩種模式一為假設檢 定 Hypothesis Testing 另 一 為 知 識 發 掘 Knowledge Discovery 本研究中採用假設驗證的實驗方法 並模擬一電腦 教學網站建構雛形系統 以作為本研究實做驗證的機制 ii The Research of analyzing model of the way in which the website users behavior Student Chi Jen Chen Advisor Prof Dwen Ren Tsai Chinese Culture University ABSTRACT Due to the increasing development in the internet and the web users rises rapidly The application and competition of E business are more intense And the one on one marketing and personal websites idea follow In order to achieve this goal the system has to record the log of users browsing path so called the way in which the web users behaviors We can find the past potential user by the technology of data mining in order to provide the basis of adaptive website and one on one marketing And the research will be applied to the association rule which are suitable for analyzing associated problem finding the association of the page that users choose By the support of the association rule the website could easily adjust the structure of web pages to the best browsing structure of the users and being regarding as the basis of supporting suitable services Generally speaking data mining includes two parts Hypothesis Testing and Knowledge discovery We use the method of hypothesis testing Finally we build a simply e learning website to proof that the hypothesis is working iii 誌謝辭 首先 在這三年的學習和工作中 特別感謝我的指導教授 蔡敦仁所長給我的指導和幫助 他不僅教會了我許多知識 他還 讓我掌握了做理論研究的方法 同時他嚴謹的治學態度 正直的 品格和孜孜不倦的工作作風也給了我很大影響 使我受益匪淺 在此表示深深的敬意和感謝 其次感謝資管所的其他老師和所有同學 在研究生三年的學習和 生活中他們給了我無私的幫助 最後感謝我的朋友和家人對我的支持 是他們使我擁有良好的心 態來完成我的研究工作 啟仁 謹誌於 中國文化大學資訊管理研究所 中華民國九十三年十二月 iv 內 容 目 錄 中文摘要 i 英文摘要 ii 誌謝辭 iii 內容目錄 iv 表目錄 v 圖目錄 vi 第一章 緒論 1 第一節 研究背景 1 第二節 研究動機 3 第三節 研究目的 4 第四節 研究範圍及限制 6 第五節 論文架構 7 第二章 文獻探討 8 第一節 電子商務概況 8 第二節 網站個人化探討 12 第三節 網站使用者模式及應用 14 第四節 網路瀏覽行為分析模式 15 第三章 研究方法 24 第一節 問題定義 25 第二節 資料過濾 25 第三節 使用者偏好分析 28 第四節 網頁關聯性分析 30 第五節 網頁推薦 32 v 第六節 結果驗證 32 第四章 實驗設計與結果分析 33 第一節 系統架構 33 第二節 實驗環境 33 第三節 模擬網站 34 第四節 實驗資料與實驗結果 38 第五節 分析與討論 45 第五章 結論與未來研究方向 48 第一節 結論 48 第二節 未來研究方向 49 參考文獻 50 vi 表 目 錄 表 2 1 關聯法則演算法比較 21 表 3 1 前置處理後之使用者瀏覽記錄 25 表 3 2 時間限制 七月份之瀏覽記錄 27 表 3 3 使用者限制 網頁存取次數高於 8 之使用者 27 表 3 4 興趣度限制 停留時間高於 15 秒 27 表 3 5 單一使用者之瀏覽記錄 28 表 3 6 個別使用者之偏好值 29 表 3 7 使用者偏好之目標網頁 30 表 3 8 使用者之目標網頁集合 31 表 3 9 刪除重覆網頁之使用者目標網頁集合 31 表 4 1 實驗環境 34 表 4 2 網頁編號對照表 38 表 4 3 使用者偏好之目標網頁 39 表 4 4 實驗結果之高頻項目集 min sup 14 40 表 4 5 修剪後之高頻項目集 min sup 14 41 表 4 6 網頁之推薦結果 42 表 4 7 網頁推薦前後之瀏覽序列比較表 44 vii 圖 目 錄 圖 1 1 我國企業數位學習市場趨勢 3 圖 1 2 我國 e Learning 市場發展概況 4 圖 1 3 網站伺服器紀錄 5 圖 2 1 電子商務模型圖 8 圖 2 2 網站挖掘分類 10 圖 2 3 簡單的網站架構範例 23 圖 3 1 研究流程圖 24 圖 4 1 實驗步驟示意圖 33 圖 4 2 模擬網站架構圖 35 圖 4 3 實驗網站首頁 36 圖 4 4 實驗網站 電腦知識學習網站 37 圖 4 5 Apriori 演算法程式 40 圖 4 6 網頁推薦 43 圖 4 7 推薦前後瀏覽長度比較圖 45 1 第一章 緒論 第一節 研究背景 網際網路最早的起源是在 1960 年代末期 美國國防部為了軍 事用途發展出的通訊系統 ARPANet 其目的是建立分散式的 存 活力強的全國性電腦資訊網路 ARPAnet 基於分封交換的概念 在網路建設和應用發展的過程中 逐步産生了 TCP IP 這一廣泛 應用的網路標準 以 ARPAnet 作爲主幹網的 Internet 産生於 1983 年 隨著 TCP IP 協定被人們廣泛接受和 UNIX 作業系統的發展 越來越多的電腦連接到 Internet 上 目前 Internet 已經成爲全世 界最大的電腦網路 網際網路的普遍應用改變了既有的商業模式 不僅改變了世 界的面貌 也對國家與國家 企業與企業甚至個人與個人間之商 業競爭 社會文化 教育學術等各個層面造成了本質化之改變 在聯合國貿易與發展會議之 電子商務與發展之二 一年報告 中 聯合國秘書長安南 Kofi A Annan 即指出 過去十年來電子商 務的出現與發展已改變世界之經濟面貌 已開發國家普遍運用資 訊通信科技 大幅地提升國家的競爭力 同樣地 對開發中國家 而言 資訊通信科技的普遍應用所產生之電子化革命對經濟之成 長與發展提供了前所未有的機會 相對地 在相關技術發明與應 用上落後的特定國家 將永遠無法趕上先進國家使用資訊通訊科 技所產生之競爭優勢 雖然近年來世界各地網路公司的泡沫化瓦解 造成許多人對 電子商務的實際可行性存疑 但網路公司的電子商務經營模式或 2 許有更進一步研究改進之必要 然而資訊通信科技的普遍應用卻 早已對全球的商業結構造成革命性之影響 資訊通信科技不僅有 助於產業生產力之提升 亦對生產者 消費者 競爭者與供應者 間之關係與互動模式造成影響 資訊通信科技之普遍應用將持續對全球商業經濟造成正面影 響 提升產業整體生產力 而由於電腦運算能力成本之下降 以 及企業間不斷針對電子商務之特性研究調整其組織架構以因應網 際網路所帶來的商機 都將使得全球生產力之提升度維持不墜 在台灣地區據統計網際網路使用人口 於 1996 年 8 月在政府 NII 資訊通信基本建設計畫方案全力推廣下 爆發驚人的成長潛 力 根據資策會電子商務推廣中心 FIND 資料顯示 1996 年 6 月 台灣上網人口僅有 44 萬左右 到了 1998 年底 即突破 3 百萬使 用人口大關 提前九個月達成 NII 三百萬人上網目標 在上網人 口達成 300 萬人的階段目標後 我國網路用戶數仍呈現快速成長 之態 繼而在 1999 年 6 月 再次以 4 百萬亮眼新頁揭開台灣網路 發展新序幕 直到 2001 年 12 月底 每半年都有 60 萬以上的成長 量 是我國上網人口快速成長階段 而 2002 年開始我國上網人口 邁向另一個階段 成長逐漸趨緩 另一方面顯示我國網際網路市 場已日趨成熟 另外連網主機總數更高達 354 萬部 由此可見 Internet 越來越成爲人們科技研究工作甚至是日常生活中重要的一 部分 在眾多的網路應用當中 數位學習是近年來頗受關注的一 項 各式各樣的遠距教學系統 網路大學 網路補習班等皆應運 而生 隨著網路科技的進步以及各種新興媒體的興起 現在的學 習者可以透過網路 隨時上線進修 不管是課前預習 課堂中討 3 論 課後複習 亦或是不斷地重看重聽 都能不受時空的限制 這是傳統的教育模式所無法達到的境界 第二節 研究動機 根據資策會電子商務研究所的研究報告指出 我國企業數位 學習市場從 2001 年至 2004 年將會成長八倍之多 達到 30 億元以 上規模 如圖 1 1 所示 圖 1 1 我國企業數位學習市場趨勢 資料來源 資策會 http www find org tw 2004 年 6 月 而我國 e Learning 市場的發展則是在 2003 年成長到了 13 億 多的規模 如圖 1 2 所示 4 圖 1 2 我國 e Learning 市場發展概況 資料來源 資策會 http www find org tw 2003 年 6 月 此外 2002 年六月國科會第 157 次委員會正式通過 數位學 習國家型科技計畫 總體規劃書 並獲行政院核定後於 2003 年 1 月起正式實施 其中數位學習國家型科技計畫分為三大主軸 提 昇國家知識競爭力 帶動數位學習相關產業發展以及推動新一波 學術研究等 因此資策會分析指出 全球數位學習產業趨勢中 數位學習產業預估 2006 年產值新台幣 500 億元 而資策會電子商 務推廣中心 FIND 的資料中還提到 在國外方面 Cisco 針對全球 線上學習市場規模所進行的調查中指出 到西元 2005 年時 全球 將有 85 的教學活動在網路上進行 其中更有 70 的受訪者認為 網路教學效果將優於傳統教學活動 第三節 研究目的 5 廣泛的應用網際網路技術導致從網路上獲取的資料量日益增 加 因此網站資料挖掘 Data mining 的技術應運而生 它可從大量 的訊息中快速且即時找尋有用的知識 提高資訊的利用率 學者 Zaiane 1998 及 Han 2000 指出網站記錄挖掘 Web log mining 技術 是從伺服器中的記錄文件內大量的用戶訪問 Session 資料中抽取 有用資料的過程 透過對網站記錄檔的分析 可模擬出用戶的行 為模式 進一步可對於分析網站效能 網站設計及結構最佳化產 生相當大的幫助 網站建置的過程中為了提供更好的網路服務 通常仰賴網站 伺服器的運作情況及網站內容的訪問狀況作為指標 而這些要求 將可透過網站伺服器內記錄檔 Log file 的統計及分析來達到 而 一個受歡迎的網站也可由網站記錄檔大小觀察出來 網站伺服器記錄檔記錄了用戶訪問網站的資訊 典型的網站 伺服器記錄檔包括以下訊息 IP 位置 請求時間 方法 如 GET 被請求文件的 URL HTTP 版本 返回碼 傳輸字數及代理 AGENT 如圖 1 3 圖 1 3 網站伺服器紀錄 Software Microsoft Internet Information Services 5 0 Version 1 0 Date 2003 08 01 00 00 00 Fields date time c ip cs username s ip s port cs method cs uri stem cs uri query sc status time taken cs User Agent 2003 08 01 00 00 00 10 45 34 5 10 24 158 230 80 POST discuss Chat asp 302 0 Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1 2003 08 01 00 00 00 10 45 34 5 10 24 158 230 80 GET discuss F gif 304 0 Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1 6 但由於網站中記錄檔的資料量龐大 對於每一個網站管理者 而言 想及時了解網站用戶合理鏈結結構也相對的困難 本研究 運用網站資料挖掘技術於網站紀錄檔 Web log 運用關聯法則尋 找使用者最佳瀏覽路徑 並調整網頁結構 再以網頁的訪問率作 為驗證依據 因為訪問過程中包含了用戶的 URL 及所瀏覽的鏈路 資訊 因此只要能夠對訪問過程進行關聯法則運算 就可以方便 獲取不同用戶對網站感興趣部分 並藉由網站資料挖掘技術於網 站紀錄檔 以挖掘出使用者存取網頁樣式的部份 作為調整網站 結構布局的依據 另外再結合用戶瀏覽序列長度驗證網站顧客鏈 結路徑是否有效縮減 達到個人化推薦網站之目標 最後透過模 擬網站實驗方式映證此方法的有效性 第四節 研究範圍及限制 本研究範圍以非營利組織網站為例 並在其網路內建置教學 網站 作為內部員工教育及訓練平台運用 資料來源為該網站內 伺服器紀錄檔 Web log 資料 並擷取九十三年七月一日至七月三 十一日止 共計 1275 筆資料 參與實驗對象為非具備電腦基礎知 識人員為主 參考相關資料進行關聯規則及使用者偏好分析 做 為網站內個人化教學網頁推薦依據 另因網站資料挖掘方向繁 多 僅就相關演算法範例說明比較並增強特性 以提高個人化推 薦系統之正確性 本研究限制說明如下 一 目前網路上有許多的瀏覽者都廣泛地使用我的最愛及搜 尋引擎來增進網頁瀏覽之效率 在這種情況下 網路伺服器將無 法正確地記錄下所有使用者的瀏覽記錄 以致於有所遺漏 因此 7 網站內暫不納入上述功能 以便實驗能精確紀錄使用者瀏覽路徑 二 很多時候網頁的內容是經由動態網頁程式如 ASP PHP 與 JSP 等所產生的 而非傳統由靜態的 HTML 所呈現 因此不同 的使用者在同一個網頁上所見到的內容並不都一樣 這種情形同 樣會造成資料蒐集的限制 因此研究中以靜態網頁呈現 以便系 統執行追蹤 三 某些特定類型的網站內網頁內容的快速變動 如新聞網 或電子報等 其內容變動與更新的頻率通常都非常地高 而網站 內容一經變動 其伺服器中之使用者瀏覽記錄便不具連貫性與參 考性 所以快速變動型的網站內容並不適合作為本研究資料挖掘 之用 第五節 論文架構 本研究內容是基於網站資料挖掘技術及其在網站推薦上的應 用 第一章介紹研究背景及其動機 其中介紹網站挖掘相關技術 及應用領域 第二章就電子商務發展概況及其應用實體架構說明 另就其 核心技術如關聯規則及瀏覽模式作一分析比較 第三章介紹本研 究研究流程並提出基於偏好度及關聯網頁的網站推薦評價方法 第四章就提出評價方法進行實驗分析 第五章結論中驗證本研究 之方法可推廣應用於教學型網站 8 第二章 文獻探討 第一節 電子商務概況 電子商務 依經濟部商業司於 2000 年所定義為任何經由電 子化形式所進行的商業交易活動 而政府 企業及個人在其中扮 演重要的角色 由於不同經營型態具有不同之互動模式 服務提 供者對不同之商業型態 規劃多樣的功能 除依據營運目標所需 之系統架構 另必須對使用者行為加以考量 已達成整體營運目 標 如圖 2 1 資料來源 Menasce D A 2 for k 2 Lk 1 k do begin 3 Ck apriori gen Lk 1 新的候選集 4 for all transactions t D do begin 5 Ct subset Ck t 事務 t 中包含的候選集 6 for all candidates c Ct do 7 c count 8 end 9 Lk c Ck c count minsup 10 end 11 Answer kLk 首先産生頻繁項目繁 1 項集 L1 然後是頻繁 2 項集 L2 直 到有某個 r 值使得 Lr 爲空 這時演算法停止 這裏在第 k 次迴圈 中 過程先産生候選 k 項集的集合 Ck Ck 中的每一個項集是對 兩個只有一個項不同的屬於 Lk 1 的頻集做一個 k 2 連接來産生 的 Ck 中的項集是用來産生頻集的候選集 最後的頻集 Lk 必須 是 Ck 的一個子集 Ck 中的每個元素需在交易資料庫中進行驗證 來決定其是否加入 Lk 這裏的驗證過程是演算法性能的一個瓶 頸 這個方法要求多次掃描可能很大的交易資料庫 即如果頻繁 最多包含 10 個項 那麽就需要掃描交易資料庫 10 遍 這需要很 大的輸入及輸出 I O 負載 Agrawal 等人引入了修剪技術 Pruning 來減小候選集 Ck 的大 小 由此可以顯著地改進生成所有頻集演算法的性能 演算法中 引入的修剪策略基於這樣一個性質 一個項目集是頻繁集若僅當 它的所有子集都是頻繁集 那麽 如果 Ck 中某個候選項集有一個 20 k 1 子集不屬於 Lk 1 則這個項目集可以被修剪掉不再被考慮 這個修剪過程可以降低計算所有的候選集的支持度的花費 藉由 引入雜湊樹 Hash Tree 方法來有效地計算每個項集的支持度 上述方法的都是基於 Apriori 的頻集方法 即使進行了優化 但是 Apriori 方法一些固有的缺陷還是無法克服 一 可能産生大量的候選集 當長度爲 1 的頻集有 10000 個 的時候 長度爲 2 的候選集個數將會超過 10M 還有就是如果要 生成一個很長的規則的時候 要産生的中間元素也是巨大量的 二 無法對稀有資訊進行分析 由於頻集使用了參數 min sup 所以就無法對小於 min sup 的事件進行分析 而如果將 min sup 設成一個很低的值 那麽演算法的效率就成了一個很難處 理的問題 下面將介紹兩種方法 分別用於解決以上兩個問題 為了解決問題一的另一種方法 是採用了一種稱為 FP growth 的方法 他們採用了分而治之的策略 在經過了第一次的掃描之 後 把資料庫中的頻集壓縮進一棵頻繁模式樹 FP tree 同時依然 保留其中的關聯資訊 隨後我們再將 FP tree 分化成一些條件庫 每個庫和一個長度爲 1 的頻集相關 然後再對這些條件庫分別進 行挖掘 當原始資料量很大的時候 條件庫亦會同時增大 致使 演算效能下降 實驗證明 FP growth 對不同長度的規則都有很好 的適應性 同時在效率上較之 Apriori 演算法有巨大的提高 惟上 述演算法的應用率 還是首推 Apriori 算法 如表 2 1 21 特點 優點 缺點 Apriori演算法 利用候選項目組 找出高頻項目組 可精確找出高頻 項目組合 需多次搜尋資料 庫 將影響資料 存取時效 DHP 演算法 將Apriori演算法 加入雜湊函數 有效產生大項目 組有效率修改資 料庫大小 需多次搜尋資料 庫 將影響資料 存取時效 FP Tree演算法 不需產生候選項 目組 節省了大量I O 的時間 整體的 效率有相當大改 善 當頻率樹變大時 資料準確性下降 表 2 1 關聯法則演算法比較 在上述幾種挖掘關聯法則的演算法之外 其他的相關研究還 包括多層次關聯 資料項權重設定與限制條件設定等 其中針對 資料來源設定限制條件以進行資料過濾的相關研究 常應用在網 路挖掘 Web Mining 的領域中 Han 2003 由於一般網站經年累 月所產生的使用者瀏覽記錄之數量往往相當地龐大 而且不同的 挖掘目的所需要的資料內容也會有所不同 所以對資料來源設定 限制條件 對於研究的進行是有正面幫助的 限制條件在資料分析的過程中 通常具有下面兩項關鍵的作 用 一 提高資料分析之效率 藉由定義資料之限制條件 如時間限制 選取特定時段之資料 與使用者限制 選取特定使用者族群之資料 等 以過濾出符合研究 目的之資料進行分析 可幫助整個研究過程將焦點集中在重點資 料上 有效縮減資料分析之數量 進而提昇資料分析之效率 二 確保資料分析之正確性 22 資料分析的結果是依選用的資料來源所決定的 在分析之 前 事先針對資料來源定義限制條件 可確保整個分析的過程朝 著預期的方向進行 並可避免大量的無關資料影響了結果正確性 與有效性 一般常見的限制條件類型說明如下 一 時間限制 依據研究目的的特性進行資料的挖掘 往往會選擇某特定時 段的瀏覽記錄進行分析 而不會取用所有伺服器中的記錄 這時 候可以利用時間限制來達到此目的 二 使用者限制 研究所關心的對象可能是會員族群 或是高忠誠度之使用 者 利用使用者限制可鎖定目標對象之瀏覽記錄進行分析 三 網頁資源限制 在使用者瀏覽記錄中 不同的 URL 即代表不同的網頁資源 利用資源限制可篩選出重點資源的瀏覽記錄 減少待處理的資料 量 四 規則限制 在資料挖掘之前 須事先定義關聯法則的樣式與長度等資 料 以避免挖掘結果雜亂無章 難以分析與解讀 五 興趣度限制 在資料挖掘之前 須事先定義關聯法則的最低支持度 Minimum Support 與最低可信度 Minimum Confidence 等資料 以 避免很少上線或只上線一次之使用者的瀏覽記錄影響了分析的結 果 近年來在關聯法則演算法的相關研究中 最廣泛地被引用的 23 當屬 Agrawal 等學者於 1994 年所提出的 Apriori 演算法 此演算 先從資料庫中的單一 Item 開始 找出發生頻率高於門檻值的 Large 1 Itemset 再經由 join 產生 Candidate 2 Itemset 並找出發生頻率 高於門檻值的 Large 2 Itemset 以此類推 逐步擴充到多個 Itemset 的搜尋 雖然 Apriori 演算法可減少非相關資料項的產生 但其缺 點為搜尋過程中必須重複不斷地回到原資料庫進行搜尋 效率太 低 目前有許多演算法皆以 Apriori 演算法為基礎進行改良 其中 Park 等人於 1997 年所提出的最大向前參考 Maximun Forward Reference 方法 適合被應用在網路挖掘中找尋使用者行為模式的 特徵 其定義在一個使用者的最大向前參考列中 所有的元素都 不重覆 所以當存取到已瀏覽過的網頁時 該次瀏覽行為之向前 參考列即停止加入 並將其輸出為最大向前參考列 而出現頻率 高於最低支持度的最大向前參考即為挖掘出來的關聯規則 以圖 2 3 為例 圖 2 3 中 當一個使用者的瀏覽序列為 A B E G E 時 圖 2 3 簡單的網站架構範例 24 該次瀏覽行為之向前參考列即停止加入 並將 A B E G 輸出 為最大向前參考列 此動作一直重覆到所有的瀏覽記錄都轉換完 成 最後產生每一個使用者的多筆最大向前參考列 同圖 2 3 中之 例子 該名使用者之最大向前參考列為 A B D A B E F A B E G A C 因此運用 Apriori 及最大向前參考可找出使用者的瀏覽路徑 並挖掘出其最喜好之網頁群 並可進一步提供作為網站推薦系統 之重要參考依據 25 第三章 研究方法 在本研究中 首先定義出網頁推薦的目的 接著擷取網頁伺 服器之瀏覽記錄進行使用者偏好分析及網頁關聯性分析 再依據 使用者偏好之目標網頁推薦與該目標網頁具有高度關聯性之網 頁 最後依據推薦前後使用者之網頁瀏覽記錄 比較被推薦網頁 之瀏覽序列長度 以驗證推薦之正確性 研究流程如圖 3 1 所示 圖 3 1 研究流程圖 定義網頁推薦之目的 依據使用者之瀏覽記錄 定義限制條 件以過濾有效之資料進行分析 依據個人網頁瀏覽記錄分析個別使用 者偏好之目標網頁 依據所有網頁瀏覽記錄分析各網頁間 之關聯性 依據使用者偏好之目標網頁推薦與該 目標網頁具有高度關聯性之網頁 依據推薦前後使用者之網頁瀏覽記 錄 比較被推薦網頁之瀏覽序列長 度 以驗證推薦之正確性 開始 結束 問題定義 使用者偏好分析 網頁關聯性分析 相關網頁推薦 推薦結果驗證 資料過濾 26 第一節 問題定義 為建立一個有效的網頁推薦系統 以促進網頁之個人化設 計 幫助使用者快速尋找到目標網頁 本研究以伺服器中之網頁 瀏覽記錄為基礎 針對使用者之瀏覽偏好以及網頁間之關聯性進 行分析 第二節 資料過濾 首先將伺服器之使用者瀏覽記錄檔 進行前置轉換與處理 選取使用者 ID 存取時間 目標網頁 URL 以及停留時間等四項資 料作為分析的基礎 以表 3 1 為例說明如下 表 3 1 前置處理後之使用者瀏覽記錄 使用者 ID 存取時間 目標網頁 URL 停留時間 秒 User01 2004 06 30 14 42 08 A3 12 User03 2004 06 30 08 52 23 B2 25 User02 2004 07 01 18 32 45 C1 09 User05 2004 07 01 22 02 16 B3 38 User07 2004 07 01 20 50 21 B4 45 User11 2004 07 02 19 32 43 A1 08 User04 2004 07 02 17 14 25 E3 27 User06 2004 07 02 21 24 45 D1 21 User13 2004 07 02 20 12 36 C2 37 User03 2004 07 03 22 48 17 C1 16 User07 2004 07 03 20 56 32 A2 39 依據從伺服器中所擷取出的使用者瀏覽記錄之資料內容特 性 可藉由定義資料取用之限制條件 過濾出有效的資料 而在 27 本研究中 定義了四項限制條件 說明如下 一 時間限制 本研究將模擬網站之主題設定為 電腦知識學習網站 一般 而言 電腦知識之學習行為並無季節性之差別 因此本研究首先 針對前置處理後之資料 擷取出七月份的記錄 如表 3 2 所示 表 3 2 為表 3 1 例子之延續 其中之資料僅保留七月份之使用者瀏覽 記錄 其餘記錄皆略過不計 二 使用者限制 參與本研究之使用者除了必須以設定之帳號與密碼登入實驗 網站進行學習行為之外 有鑑於每個使用者具有不同之忠誠度 忠誠度較高的使用者往往會有頻率較高的網頁存取記錄 為了使 分析結果具有較高之參考性 本研究定義了一個最低存取次數之 門檻值 以過濾出最近一個月之瀏覽記錄中 網頁存取次數高於 門檻值的使用者瀏覽資料 如表 3 3 所示 表 3 3 為表 3 2 例子之 延續 其中於七月份中網頁存取次數低於 8 次的使用者 其瀏覽 記錄將略過不計 三 興趣度限制 當一個使用者閱讀一個網頁資料的時間較長時 我們可以稱 該使用者對該網頁具有較高之興趣度 所以本研究定義了一個最 低停留時間門檻值 以過濾出停留時間高於門檻值的使用者瀏覽 資料 如表 3 4 所示 表 3 4 為表 3 3 之延續 其中使用者在目標 網頁上的停留時間低於 15 秒的瀏覽記錄將略過不計 28 表 3 2 時間限制 七月份之瀏覽記錄 使用者 ID 存取時間 目標網頁 URL 停留時間 秒 User02 2004 07 01 18 32 45 C1 09 User05 2004 07 01 22 02 16 B3 38 User07 2004 07 01 20 50 21 B4 45 User11 2004 07 02 19 32 43 A1 08 User04 2004 07 02 17 14 25 E3 27 User06 2004 07 02 21 24 45 D1 21 User13 2004 07 02 20 12 36 C2 37 User03 2004 07 03 22 48 17 C1 16 User07 2004 07 03 20 56 32 A2 39 表 3 3 使用者限制 網頁存取次數高於 8 之使用者 使用者 ID 存取時間 目標網頁 URL 停留時間 秒 User02 2004 07 01 18 32 45 C1 09 User07 2004 07 01 20 50 21 B4 45 User11 2004 07 02 19 32 43 A1 08 User04 2004 07 02 17 14 25 E3 27 User13 2004 07 02 20 12 36 C2 37 User03 2004 07 03 22 48 17 C1 16 User07 2004 07 03 20 56 32 A2 39 表 3 4 興趣度限制 停留時間高於 15 秒 使用者 ID 存取時間 目標網頁 URL 停留時間 秒 User07 2004 07 01 20 50 21 B4 45 User04 2004 07 02 17 14 25 E3 27 User13 2004 07 02 20 12 36 C2 37 User03 2004 07 03 22 48 17 C1 16 User07 2004 07 03 20 56 32 A2 39 依據本研究所定義之三項限制條件 上述例子最後得到表 3 4 29 之使用者瀏覽記錄 大幅降低了待處理之資料量 在下個步驟中 將依據這些資料 針對使用者的行為模式進行分析 以了解每一 位使用者之偏好 第三節 使用者偏好分析 為分析個別使用者之偏好 在資料過濾之後 依據使用者 ID 將瀏覽記錄分類 個別進行分析 如表 3 5 所示 表 3 5 單一使用者之瀏覽記錄 使用者 ID 存取時間 目標網頁 URL 停留時間 秒 User01 2004 07 01 20 50 21 A1 45 User01 2004 07 02 17 14 25 C1 27 User01 2004 07 02 20 12 36 E2 37 User01 2004 07 03 22 48 17 C1 62 User02 2004 07 01 10 25 24 A2 52 User02 2004 07 01 12 24 29 E3 58 User02 2004 07 02 16 18 30 C2 40 User02 2004 07 03 23 38 14 A2 62 User02 2004 07 03 20 10 27 C2 72 User03 2004 07 01 18 20 25 B2 66 User03 2004 07 02 19 43 43 C1 43 User03 2004 07 03 22 12 06 E2 82 由表 3 5 之資料 可統計出單一使用者在實驗期間的瀏覽記錄 中對單一目標網頁之存取次數及其總停留時間 本研究以此設計 一個偏好程度的衡量指標 如下所示 30 minmax min minmax min tt tt ff ff pref 1 公式 1 中 pref 代表偏好程度 f 代表單一使用 者在某特定期間內對單一目標網頁之存取次數 fmin 代表實 驗資料中使用者對單一目標網頁存取次數之最小值 fmax 代 表實驗資料中使用者對單一目標網頁存取次數之最大值 t 代表單一使用者在某特定期間內於單一目標網頁上之停留時間 tmin 代表實驗資料中使用者於其目標網頁上之最少停留時 間 tmax 代表實驗資料中使用者於其目標網頁上之最大停留 時間 透過公式 1 之計算 可以得到單一使用者對單一目標網頁 偏好程度之參考值並排序之 如表 3 6 所示 表 3 6 個別使用者之偏好值 使用者 ID 目標網頁 存取次數 停留時間 秒 pref A1 10 144 0 252 C1 14 162 0 466 E2 9 184 0 204 User01 A2 12 164 0 383 C2 15 128 0 441 E3 10 152 0 259 User02 接著 本研究從每一個使用者偏好之目標網頁列表中取 pref 值最大者 以利後續推薦行為之進行 表 3 7 即為針對表 3 6 做進 一步篩選之結果 31 表 3 7 使用者偏好之目標網頁 使用者 ID 目標網頁 存取次數 停留時間 秒 pref User01 C1 14 162 0 466 User02 A2 12 164 0 380 User03 B2 15 128 0 441 User04 B4 13 146 0 401 第四節 網頁關聯性分析 在分析出使用者偏好之目標網頁後 接下來 從所有的使用 者瀏覽記錄中挖掘出網頁與網頁間的關聯性 以期在後續的步驟 中 能針對使用者偏好的目標網頁 推薦與其具有高度關聯性的 其他網頁 在這個步驟中 藉由表 3 5 中單一使用者之瀏覽記錄 建立所 有使用者之瀏覽序列 本研究將使用者 ID 定義為 i 存取時間定 義為 t 目標網頁 URL 定義為 u 停留時間定義為 s 則所有單一 使用者的瀏覽記錄可轉換為一連串以 i t u s 表示的瀏覽序列 接 著再以 i 為瀏覽記錄分類的依據 以 t 為瀏覽記錄排序的依據 將 i t u s 瀏覽序列進一步編排成所有使用者之目標網頁集合 如表 3 8 所示 32 表 3 8 使用者之目標網頁集合 使用者ID i 目標網頁集合 u s User01 A 14 A1 43 C 22 C1 36 E 28 E2 44 C 12 C1 28 User02 A 24 A2 66 E 32 E3 64 C 36 C2 72 A 17 A2 53 C 17 C2 59 User03 B 14 B2 43 C 22 C1 36 E 28 E2 44 User04 C 38 C1 83 E 44 E1 57 E2 71 User05 E 47 E3 59 C 31 C2 62 B 56 B4 48 在匯整出目標網頁集合表之後 為了排除一個集合中同一網頁 URL 重覆出現的情況 本研究僅保留停留時間最長之項目並刪除 其餘停留時間較短之同名項目 除此之外 首頁項目也一併刪除 以有效減少分析之資料量並且不影響資料挖掘之結果 表 3 9 為表 3 8 進一步縮減之結果 表 3 9 刪除重覆網頁之使用者目標網頁集合 使用者 ID i 目標網頁集合 u s User01 A 14 A1 43 C 22 C1 36 E 28 E2 44 User02 A 24 A2 66 E 32 E3 64 C 36 C2 72 User03 B 14 B2 43 C 22 C1 36 E 28 E2 44 User04 C 38 C1 83 E 44 E1 57 E2 71 User05 E 47 E3 59 C 31 C2 62 B 56 B4 48 由於表 3 9 為表 3 5 一路衍生而來 所以表 3 9 中包含之所有 網頁 皆符合 3 2 節中所定義之興趣度限制 亦其停留時間皆高於 門檻值 接下來 本研究將表 3 9 匯入 Access 資料庫之資料表中 以 Apriori 演算法進行關聯法則的挖掘 33 第五節 網頁推薦 經由 3 4 節中的方法論 可得到與使用者之目標網頁具有高度 關聯性的網頁集合 接著依據關聯性的高低 將推薦之網頁索引 於每一次使用者瀏覽其目標網頁時 呈現在網頁旁之推薦欄 以 提高使用者瀏覽網頁之便利性 並減少其搜尋相關網頁之時間 第六節 結果驗證 為了驗證本研究所提出的網頁推薦方法之正確性 本研究的 最後一個步驟 將推薦前後使用者瀏覽之記錄取出進行比較 在 網頁推薦之前 使用者可能同時對 C2 與 E3 兩個網頁的內容感興 趣 其瀏覽路徑可能是 R C C2 C R E E3 或是 R C C2 R E E3 而在推薦過後 其瀏覽路徑可能縮短為 R C C2 E3 因為 E3 網頁的連結就在 C2 網頁旁之推薦欄中 此步驟之重點即是針對推薦前後使用者瀏覽序列之長度進行比 較 34 第四章 實驗設計與結果分析 第一節 系統架構 為了驗證第三章中所提方法論之正確性 本研究設計了一個 實驗系統 其步驟如圖 4 1 所示 圖 4 1 實驗步驟示意圖 第二節 實驗環境 本研究所採用之軟硬體相關實驗環境如表 4 1 所示 資料轉換 資料擷取 偏好分析 關聯性分析網頁推薦 結果驗證 瀏覽 記錄檔 瀏覽記錄 資料庫 瀏覽記錄 資料庫 瀏覽 記錄檔 伺服器 使用者 偏好之 目標網頁 關聯 法則 推薦之 網頁 35 表 4 1 實驗環境 軟 硬體 項目 名稱 中央處理器 Intel Pentium III 950 MHz 記憶體 375 MB 硬體 硬碟 40GB 作業系統 Windows 2000 Professional 網路伺服器 IIS 5 0 資料庫系統 Access 2002 分析程式開發軟體 JBuilder 6 0 網頁開發軟體 Dreamweaver MX 軟體 網頁程式語言 PHP 4 0 第三節 模擬網站 本研究建構了一個實驗性的 電腦知識學習網站 並邀請 25 位使用者於近兩個月中持續地上線瀏覽進行學習 以獲得使用者 瀏覽記錄作為分析之用 此網站之架構圖如圖 4 2 所示 36 圖 4 2 模擬網站架構圖 網站之首頁如圖 4 3 所示 首頁 作業系統 資料庫網際網路程式設計影像處理 Windows Linux Mac C Java VB Perl ASP PHPHTML PhotoImpact Photoshop Access MySQL 37 圖 4 3 實驗網站首頁 所有使用者在上線進行學習之前 必須先藉由事先設定之個 人帳號與密碼 方可登入系統 身份認證通過後進入之畫面如圖 4 4 所示 38 圖 4 4 實驗網站 電腦知識學習網站 如圖 4 4 所示 網頁之左側為科目欄 網頁之中間為內容欄 網頁之右側為推薦欄 另外 在此實驗網站中 特別將所有網頁 之名稱進行編號 以利後續瀏覽記錄之轉換與分析結果之解讀 網頁名稱與編號對照表如表 4 2 所示 39 表 4 2 網頁編號對照表 網頁層級網頁層級 網頁主題網頁主題 網頁檔名網頁檔名 網頁編號網頁編號 Level 0 首頁 index asp R 作業系統 a asp A 程式設計 b asp B 資料庫 c asp C 影像處理 d asp D Level 1 網際網路 e asp E Windows a1 asp A1 Linux a2 asp A2 Mac a3 asp A3 C b1 asp B1 VB b2 asp B2 Java b3 asp B3 Perl b4 asp B4 Access c1 asp C1 MySQL c2 asp C2 PhotoImpact d1 asp D1 Photoshop d2 asp D2 HTML e1 asp E1 ASP e2 asp E2 Level 2 PHP e3 asp E3 第四節 實驗資料與實驗結果 首先 從 IIS 伺服器中擷取出本實驗網站使用者之瀏覽記錄 匯入 Access 資料庫中 共計 1275 筆 接著 依據 3 2 節中所定義 的限制條件 一 時間限制 七月份之瀏覽記錄 二 使用者限制 網頁存取次數高於 8 之使用者 40 三 興趣度限制 停留時間高於 15 秒 將資料庫中之瀏覽記錄進行過濾 留下 684 筆記錄 再進行 個人化的使用者偏好分析 得到使用者偏好之目標網頁 如表 4 3 所示 表 4 3 使用者偏好之目標網頁 類別 使用者編號 目標網頁 1 User01 User24 A1 asp 2 User02 A2 asp 3 User03 User16 B2 asp 4 User04 B4 asp 5 User05 User17 C1 asp 6 User06 User22 C2 asp 7 User07 E1 asp 8 User08 User13 E2 asp 9 User09 User15 User11 E3 asp 在完成使用者個人偏好分析之後 下個步驟即進行網頁關聯 性分析 以資料過濾後之瀏覽記錄為基礎 建立其瀏覽序列 存 在 Access 資料庫中 共計 98 筆 接著 以本研究自行開發之 Apriori 演算法程式 挖掘資料庫中的高頻項目集 如圖 4 5 所示 41 圖 4 5 Apriori 演算法程式 經過分析之後 最後結果得到 Large 6 Itemset 共 7 筆 如表 4 4 所示 表 4 4 實驗結果之高頻項目集 min sup 14 編號 高頻項目集 min sup 14 sup 1 A A1 C C1 E E2 14 2 A A2 B C E E3 14 3 A A2 C E E3 C2 14 4 A B C E E3 C2 14 5 B B2 C C1 E E2 15 6 B C C1 E E1 E2 15 7 B C E E3 C2 B4 23 42 由表 4 4 中可以發現 因為網站架構的設計 使得使用者要瀏 覽 Level 2 的網頁前 必須先經過 Level 1 的網頁 因此高頻項目 集中屬於 Level 1 的項目可以略過不計 換言之 僅僅保留高頻項 目集中的 Level 2 節點並解釋之即可 修剪後之高頻項目集如表 4 5 所示 表 4 5 修剪後之高頻項目集 min sup 14 編號 高頻項目集 sup 備註 1 A1 C1 E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB23-T2979-2021-大豆对大豆拟茎点种腐病抗病性鉴定技术规程-黑龙江省
- DB23-T2904-2021-蔓越莓种植技术规程-黑龙江省
- 文化项目招标方案(3篇)
- 叉车各项安全管理制度
- 小学其他安全管理制度
- 储粮工艺设备管理制度
- 山区造林规划方案(3篇)
- 公司诚实守信管理制度
- 党员培养党员管理制度
- 公司拉运车辆管理制度
- 2025年高考作文备考之一个人物写遍所有作文:人物素材王兴兴
- Mission-Planner地面站操作手册
- 2025年大学生信息素养大赛(校赛)培训考试题库(附答案)
- DBJ50T-325-2019 山林步道技术标准
- 四川巴中历年中考语文文言文阅读试题18篇(含答案与翻译)(截至2024年)
- 审计基础与实务(第二版)项目九货币资金审计
- 2025慢性阻塞性肺病(GOLD)指南更新要点解读课件
- 2025年浙江省交通投资集团公司招聘笔试参考题库含答案解析
- 临床研究分期介绍
- 《国父孙中山》课件
- 回顾性临床研究
评论
0/150
提交评论