下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-2,Chapter 7,專利自動分類方法與範例,了解知識分類管理方法及應用 探討運用系統管理電子化文件 討論倒傳遞類神經網路運用在文件分類系統 介紹專利文件自動分類與其方法流程,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-3,對企業而言,專利資訊不只是人類的智慧寶庫,也是研究開發人員重要的參考資料。 企業所重視的是如何在茫茫大海中的專利文件,將專利文件轉換為企業所需之有效資訊與情報。 由於專利資訊亦揭露專利侵權的警訊,智財管理人員可藉由專利資訊隨時監控競爭對手的專利核准動向,以降低企業因侵權
2、所付出的龐大智財成本。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-4,7.1知識文件管理 1/11,近年來企業面臨著更加競爭的環境,而提升企業競爭力的重要因素就是企業內部知識的擷取、儲存以及知識的再利用。 而為了達到此一目的,有三個重要的議題必須解決: 如何有效率的擷取各種知識。 如何對各種不同種類的知識進行管理、分類與儲存。 如何讓使用者迅速取得所需之各種知識,達到知識再利用之目的。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-5,7.1知識文件管理 2/11,在2000年到2004年的4年時間 ,全球專利註冊申請猛增到50萬件。
3、 發明人最擔心的狀況則是花費許多時間與精力實現自己新的構想後才發現已有相同的發明。 企業在研發初期就應做好專利資訊蒐集的工作,若能事先發現研發的技術是否已被申請專利,亦可提早做迴避設計。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-6,7.1知識文件管理 3/11,過去工業經濟時代,企業掌握土地、勞力、資本為主,但是面臨全球化市場競爭的企業必須更加注重知識的利用與開發。 如今美國多數大型企業的無形資產總值已經遠超過有形資產,而這種情形在服務業與高科技公司中更加顯著。 在現今歐美各個國家之中,知識管理已經被公認是繼再造工程(Reengineering)之後,企業革新
4、的最佳策略。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-7,知識管理之背景與必要性,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-8,電子化文件管理,文件管理是針對企業的各種文件進行管理,其與知識管理最大的差異在於管理的對象,在文件管理中的文件只是企業過去的歷史紀錄。 電子化文件管理相較於傳統文件管理,在文件三大功能方面有以下優勢。 在溝通機制方面,電子化文件擁有更多樣化的媒介,讓各使用者能夠易於了解文件內容。 在商業流程方面,電子化文件管理可與工作流程(Workflow)結合,讓流程控管更有效率。 在組織記憶方面,電子化文件可以儲存
5、更多的文件內容,卻比傳統文件更節省空間。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-9,7.1知識文件管理 6/11,文件分類(Document categorization)是將文件依據其內容指派至一個或多個事先定義好的文件類別的過程。 而文件分群(Document clustering)則是將許多文件依照彼此之間的相似程度分為數群。 文件分類是擷取文件特徵並與文件類別之特徵作比較,再依照其相似程度進行分類。 文件分群亦是擷取文件特徵並進行比對,但文件分群並不需要事先定義文件類別,而是依照各文件之間之相似程度進行分群。,專利分析與智慧財產管理 Chapter
6、07 專利自動分類方法與範例,7-10,文件分類流程,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-11,7.1知識文件管理 8/11,然而一個知識管理系統中,若不針對各種不同的知識文件加以管理分類,則使用者在搜尋相關知識文件時,會耗費相當多的時間。 過去通常是使用人力去進行文件分類,但這樣的做法不僅需要大量人力,也需要大量之時間。 在知識文件分類管理步驟中有文件格式轉換、文件分類規則、文件內容分析以及文件自動分類。 運用資訊科技來協助專利工程師已成為近日趨勢。一個好的文件分類技術,可讓專利工程師以最少的時間,了解最重要的文件。,專利分析與智慧財產管理 Chapte
7、r 07 專利自動分類方法與範例,7-12,7.1知識文件管理 9/11,藉由從不同文集資源中擷取出訊息來發現潛在的、未知的及有用的資訊是文字探勘的主要目的。 Ricardo和Berther認為關鍵字一般以名詞型態出現在文件中,因為名詞詞彙通常代表事實之陳述 Lagus等人則認為優良的關鍵字必須遵循兩個條件:詞彙於文件群組內顯著重要以及詞彙於文件群組間顯著重要。 關鍵字擷取的技術主要有三種,分別是詞庫比對法、文法剖析法、統計相關法。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-13,辨別複合字的方法,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與
8、範例,7-14,7.1知識文件管理 11/11,語意網(Semantic web)為全球資訊網的創始人Berners 博士所提出的,主要目的是將網路上的文件有意義的結構化,利用可共享、通用的知識本體。,圖 7.6 語意網路的多層蛋糕架構,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-15,7.2文件分類系統 1/5,主要分為兩部分,第一部分是文件內容擷取系統,功能是解析文件之內容以取得各文件的內容相關資訊。第二部分是文件自動分類系統,建構一個能自我學習之分類系統。 系統流程如可分為數個步驟: 上傳電子化知識文件至分類系統。 電子化知識文件內容解析。 電子化知識文件自
9、動分類。 文件檢索與再利用,提供各個不同之使用者查詢各個文件類別與分類完成之文件。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-16,7.2文件分類系統 2/5,針對文件內容解析之解說各步驟流程: 首先將文件內容作一讀取之動作,將文件字串分解為許多字節。 對於各個不同的字節進行字詞解析,如二字詞、三字詞,或更長之字詞組合等。 統計各字詞出現之頻率,並與系統之門檻值進行比較,存入候選字詞庫中。 系統允許使用者擴充各個關鍵字詞的關聯字詞庫,並輸入該字詞與特定關鍵字詞的相關係數以供計算。 統計所有關鍵字詞與各個關聯字詞出現之頻率。,專利分析與智慧財產管理 Chapter
10、 07 專利自動分類方法與範例,7-17,7.2文件分類系統 3/5,在文件內容解析完成後,文件內容關鍵字相關資訊會被輸送到文件自動分類系統,作為文件分類的主要依據。 後向傳導網路系統是一個多層式的類神經網路系統,除了輸入層與輸出層外,在隱藏層內允許多層的結點連接。而此網路系統採用後向傳導學習演算法,是一個監督型的學習演算法。 後向傳導則是由輸出層向後傳導,重點在於計算誤差及更新結點連結強度。其方法是將前一層的誤差值向後傳導(Error back-propagation),並以此為依據修改連結強度。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-18,單層隱藏層的後
11、向傳導網路,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-19,7.2文件分類系統 5/5,文件內容關鍵字資訊輸入到文件分類系統,系統使用第一層級的分類模型來進行運算,得到第一層級中最符合之文件類別。 系統根據第一層級運算結果,呼叫第二層級中相對應之分類模型來進行第二層級的分類動作,可得到第二層級中相對應之文件類別。 重複以上步驟,直至文件分類推演至最底層之層級為止,此時所得之文件類別資訊即為此一文件所屬之類別。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-20,7.3專利自動分類 1/5,專利自動分類包含了領域知識的建立與導入術語訓練
12、,及四大功能模組關鍵詞彙擷取模組、類神經網路分類模組、詞彙機率修正模組及文件搜尋摸組。 領域知識的建立與導入主要是在建立知識本體。 在關鍵詞彙擷取模組的部分,主要運用TF-IDF的技術來擷取關鍵詞彙。 文件搜尋模組為文字形式呈現,利用知識本體領域和已分析的文件內容來進行搜尋。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-21,術語訓練,採用自然語言的處理工具Montylingua來進行解析的動作。 將文章中的句子標示成:詞性POS、文字塊Chunk、主題Lemma。而Concept of ontology則是由專家所標示。 分類系統會以條件機率的方式計算在句子中詞
13、彙所隱含概念的機率,例如:P(領域知識的概念 | 詞彙W在文章中的文字塊C)。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-22,關鍵詞彙擷取,主要是以TF-IDF方式為基。先進行斷詞、去除停字、詞性解析、字詞還原的步驟後,才開始計算TF-IDF值。最後再將關鍵詞彙儲存到關鍵詞彙庫中。 系統會根據一些特定的斷詞符號,將文件拆解成多個字節。 接著,一些較不具有重要性和影響文意的單字,就稱為停字(Stop words)。 在去除停字後,接著是以Montylingua解析文章中的詞性,將文章中的每個字詞標記,以標記來過濾詞性。,專利分析與智慧財產管理 Chapter 07 專利自動分類方法與範例,7-23,7.3專利自動分類 4/5,處理完上述步驟後,詞彙在一篇文章中,可能會出現動名詞、複數、過去式等變化,必須要將這些字詞統一抽取出詞幹(stemming),以還原成字根,目的是要解決一字多形的問題。經過字詞還原後,就可以幫助詞彙的整併和後續加權的計算。 接著計算字詞頻率,而所謂TF是指利用詞彙在該文件中出現頻率之高低判斷該詞彙是否為重要詞彙。 IDF是代表該詞彙出現在文件庫中之其他文件的頻率,因此詞彙出現在該文件中的頻率越高且出現在文件庫中之其他文件中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 急性胸痛的护理质量控制与改进
- 护理课件制作:护理应急预案
- 护理实践中的护理与医疗技术
- 2026六年级数学下册 圆柱的认识与特征
- 护理查房常见问题及解决方案
- 心理咨询室责任制度
- 快递生产责任制度
- 成品库班长责任制度
- 房管局普法责任制度
- 执法办案首接责任制度
- 集团公司战略协议管理办法
- 预防呼吸道疾病呼吸健康
- 批判性思维与创新思维
- 绿植花卉租摆及园林养护服务 投标方案(技术方案)
- 小肠切除术护理查房课件
- 中学基于问题化学习的课堂教学实践研究结题报告
- 2023年危险化学品安全监管工作要点和危险化学品企业装置设备带病运行安全专项整治等 9个工作方案附件
- 学生编著:《雷雨》剧本
- 儿童生长监测和健康检查课件
- 不确定状况下的判断:启发式和偏差
- 雷火灸教学课件
评论
0/150
提交评论