信息检索课件_第1页
信息检索课件_第2页
信息检索课件_第3页
信息检索课件_第4页
信息检索课件_第5页
已阅读5页,还剩324页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

資訊檢索概念廣義概念——是指將資訊按一定的方式組織和存儲起來,並根據資訊用戶的需要找出有關的資訊過程,故全稱:“資訊的存儲與檢索”

。狹義概念——僅指上述過程的後半部分,即從資訊集合中找出所需要的資訊的過程,相當於人們通常所說的資訊查尋。資訊資源基礎知識

資訊、知識、情報、文獻和數據等概念的含義和相互關係;資訊資源的含義及特徵;資訊資源的類型;資訊資源的開發和利用。與資訊相關的幾個概念(1)資訊是人們對客觀存在的一切事物的反映,是通過物質載體所發出的消息、情報、指令、數據、信號中所包含的一切可傳遞和交換的知識內容。知識是系統化的資訊,是人類認識世界的成果和結晶。與資訊相關的幾個概念(2)情報是傳遞中的特定用戶所需要的必要知識。文獻是記錄有知識的一切載體。數據

是對客觀事物進行記錄並可以辨別的符號,它不僅指狹義上的數字,還可以是文字、圖形和聲音等。資訊是加載在數據之上,對數據作具有意義的解釋。幾個概念的相互關係事實>數據>資訊>知識>情報資訊資源的含義資訊資源是經過人類開發與組織的資訊的集合。資訊開發是指人類根據自身需求以感知、思維、創造等方式從物質和能量中提取、生產資訊的過程。資訊組織是指人類根據一定的規則以語言、文字等符號為手段對所開發的資訊實施有序化的過程。資訊資源的特徵智能性有限性不均衡性整體性資訊資源的類型

1、按出版形式分类圖書資訊內容成熟、定型論述系統、全面、可靠出版週期長,知識的新穎性不夠報紙時事性、普及性、大眾性、服務性;傳遞資訊迅速、資訊量大系統性、專業性不足期刊出版週期短,報導資訊速度快,內容新穎,發行及影響面廣,定向選擇性強資訊容量受限制資訊資源的類型

1、按出版形式分类(續)科技報告政府出版物會議資訊專利資訊資訊資源的類型

1、按出版形式分类(續2)學位論文技術標準科技檔案產品說明書音像出版物注意:還有大量非出版形式的資訊資訊資源的類型

2、按信息加工层次分类零次資訊(灰色資訊):是指未經過任何加工的原始文獻,如實驗記錄、手稿、原始錄音、原始錄影、談話記錄等。一次資訊(原始資訊):是指作者以本人的觀察、發現及研究成果為素材而創作或撰寫的文獻,如閱讀性圖書、期刊論文、科技報告、專利文獻、會議文獻、學位論文、技術檔案等都是一次文獻。

資訊資源的類型

2、按信息加工层次分类(續)二次資訊(檢索性資訊):是人們對一次資訊進行搜集、提煉、濃縮、加工、整理,並按一定的科學方法組織編排後,便於存儲和檢索的資訊。二次資訊的主要用途是報導、檢索、管理、控制一次資訊。如各種目錄、題錄、文摘及機讀型書目資料庫、網上檢索引擎等都屬於二次資訊。三次資訊(參考性資訊):是指對有關的一次資訊和二次二次進行分析、研究、對比、綜合、評述、概括而撰寫的資訊,如綜述、述評、年度進展報告、百科全書、手冊、年鑒、辭典等。其特點是文字精煉、敘述簡明扼要,具有系統性、綜合性、知識性和工具性等特點。資訊資源的類型

2、按信息加工层次分类(續2)以上三級資訊資源的關係:

零次信息是一次信息的素材;

一次信息是二次、三次信息的来源和基础;

二次、三次信息是对一次信息进行组织、加工、综合后形成的所謂“資訊檢索”主要是對二、三次資訊的檢索。資訊資源的類型

3、按载体形式分类印刷型縮微型視聽型機讀型資訊資源的開發和利用資訊資源開發潛在資訊資源開發如市場調查、社會調查現實資訊資源開發文獻資訊資源開發如文獻資料庫、文獻索引,資料彙編網上資訊資源開發如網路搜索引擎,行業或專業門戶網站,數據挖掘產品,行業研究報告Internet資訊資源檢索

第一節Google搜索一、Google初級搜索1、邏輯運算符的使用邏輯與:“AB”(中間有空格)表示搜索既包含“A”又包含“B”的結果。“在結果中搜索”功能的作用基本相同。邏輯或:“AORB”,表示搜索至少包含A、B二者之一的結果。邏輯非:“A-B”(A後空格)表示搜索包含A但不包含B的結果。2、加英文雙引號強制搜索完整片語、短語或句子。3、拼音可代替漢字檢索。4、通配符:星號“*”代表一個完整的、唯一的字詞。如用“飲*止渴”查找“飲鴆止渴”5、不區分大小寫;自動排除常用字詞。Google初級搜索練習1、有以下四個搜索運算式:

A、北京奥运会B、北京奧運會金牌榜

C、北京奥运会-金牌榜

D、北京奥运会金牌榜OR獎牌榜

(1)你認為以上四個搜索運算式哪個的Google搜索結果最多?哪個最少?

(2)用Google搜索驗證你的判斷。

2、在歷屆奧運會上,哪些中國運動員獲得了哪些專案的獎牌?(包括專案名稱、獎牌名稱、運動員姓名)請用Google搜索出你認為理想的結果,並優化搜索運算式使該理想結果出現在前10項中。

3、請從網上找出全面介紹搜索引擎發展史的文章。上“吉利大學論壇”“資訊檢索”博客二、Google高級搜索只在某一個網站中搜索site:功能變數名稱(英文冒號)在某一類檔中查找資訊filetype:檔擴展名搜索的關鍵字包含在URL鏈接中inurl:搜索的關鍵字包含在網頁標題中intitle:查找與某個頁面結構內容相似的頁面related:搜索所有鏈接到某個URL地址的網頁link:網址數字範圍搜索如:“卡車5000..10000kg”查看字詞或片語的定義define:××Google高級搜索練習1、下麵哪個網站中關於吉利大學的新聞最多?

A.新浪网B.搜狐網

2、找出一個關於網路搜索技巧的PPT文檔。

3、搜索近一個月內價格在3000至5000元之間的筆記本電腦資訊。4、從網上找出網路資訊檢索練習題。常用中文搜索引擎汪春暉wchh315@126.com常用中文搜索引擎

www.

www.常用中文搜索引擎的特點準確性最高,功能齊全特色、專門搜索功能最多突出商業和生活搜索功能可在指定分類中搜索詞典和博客搜索功能有特色新聞、百度知道、百度百科、mp3圖書、學術、圖片、視頻地圖練習搜索出一篇關於中文搜索引擎的對比或評測文章,自己實踐一下,看看你的感受和作者是否相同。體驗各個搜索引擎的特色功能,熟悉它們各自的特點。9.2.2使用搜索引擎資訊檢索課程資訊

比比貓(最好的中文元搜索引擎、搜索結果多)穀歌(全球最大的搜索引擎,準確率高)百度(最大的中文搜索引擎,速度快)雅虎(提供網站目錄檢索)搜狗(關鍵字和分類檢索相結合)愛問(結合了人工智慧技術)搜索引擎的原理與搜索技巧汪春暉wchh315@126.com搜索引擎的原理從網上採集資訊→建立索引資料庫→在資料庫中搜索並排序練習在CNKI“中國知網”上搜索有關新能源汽車的論文。在互聯網上用搜索引擎搜索有關新能源汽車的內容。比較以上二者的搜索結果有何區別。CNKI學術論文搜索汪春暉wchh315@126.com示例檢索汽車工業分類中自2005年1月1日以來在篇名、主題或關鍵字中包含“電動汽車”的所有論文;將被引頻次前5名的論文以引文格式保存;生成檢索報告。

檢索發表單位是北京大學或人民大學,關鍵字或摘要中包含“宏觀經濟”的論文。檢索運算式應為:

練習在宏觀經濟管理類論文中檢索2000年1月1日以來在主題或關鍵字中包含“利率”和“宏觀經濟”的所有論文;將下載次數前5名的論文以引文格式保存;生成並保存檢索報告。

51

帳號:xinwen密碼:123456做“資訊檢索”檔夾中的練習題33第三講:資訊檢索原理、

檢索語言與技術王建濤342.1資訊檢索的含義含義:從資訊集合中迅速、準確地查找出所需資訊的過程和方法。資訊集合是指有組織的資訊資源整體,可以是:館藏目錄、資料庫、(印本)檢索工具等。352.2檢索與查找的區別檢索查找、搜索、搜尋英文Retrival或RetrievalSearch過程和方法有一定的策略,是系統的查找資料。隨機或更隨意一些。技能需要一定的專門知識和技能簡單,任意詞用途課題或專題日常生活結果檢索前通常不知道會有什麼結果通常知道結果效率迅速、準確一般如果不刻意區分:你完全可以認為它們沒有區別!362.5資訊檢索的意義避免重複研究,提高研究效率節省查找資料時間,提高資訊獲取效率獲取新知識的捷徑,培養創新型人才372.4資訊檢索類型劃分示意圖依檢索結果內容

劃分依資訊存儲與

檢索方式劃分手工檢索電腦檢索事實資訊檢索文獻資訊檢索數據資訊檢索資訊檢索類型38數據資訊和事實資訊檢索是確定性的檢索,檢索結果可以直接利用,一般通過三次資訊來完成。文獻資訊檢索是一種相關性檢索,檢索結果是文獻資訊的線索,一般通過二次資訊來實現。全文資料庫:是一次資訊和二次資訊的綜合體。在檢索結果中,有直接的全文鏈接。391.2資訊處理級別(加工深度)示意圖述評綜述詞典年鑒手冊百科全書知識的產生記錄檔案學位論文標准科技報告專利說明書會議論文期刊論文專著一次資訊二次資訊文摘索引目錄三次資訊傳播資訊的利用俗稱全文資訊402.9資訊檢索效果評價檢索效果(retrievaleffectiveness)是指檢索系統檢索的有效程度,它反映檢索系統的能力。也涉及實施檢索的人所能發揮檢索系統的最大能力、效益等因素。包括6個方面:收錄範圍、查全率、查準率、回應時間、用戶負擔及輸出形式。其中兩個主要的衡量指標是查全率(Recallratio)和查準率(precisionratio),分別用R和P大寫字母表示。41

相關文獻非相關文獻總計檢出文獻B (hit)M-B(noise)M 未檢出文獻A-B 總計 A 查全率(RecallRatio):R=B/A×100%查準率(PrecisionRatio):P=B/M×100%

一系列的實驗結果表明查全率與查準率之間存在互逆關係。力爭克服漏檢(必要條件),儘量避免誤檢(充分條件)422.3資訊檢索原理從技術上來說,資訊檢索是以資訊的存儲與檢索之間的相符性為基礎的,如下圖“資訊檢索原理圖”:標引檢索輸出存儲過程一次資訊資訊特徵檢索語言資訊特徵標識資訊檢索工具(系統)檢索結果檢索過程檢索課題檢索提問檢索提問標識分析分析標引輸入431資訊檢索語言資訊檢索語言

=

信息组织与存储的方法或规则441.1什麼是資訊檢索語言回顧“資訊檢索原理圖”,作為資訊檢索的橋樑——資訊檢索語言含義:是根據資訊檢索系統存儲和檢索的需要而編制的人工語言。語言=辭彙+語法

資訊檢索語言的辭彙:分類號、檢索詞、代碼

資訊檢索語言的語法:如何正確描述記錄和有效地檢索記錄的一整套規則。45461.2資訊檢索語言類型示意圖資訊檢索語言描寫文獻外部特徵描寫文獻內容特徵分類語言體系分類語言組配分類語言混合分類語言題名語言著者語言號碼語言主題語言單元詞語言標題詞語言關鍵字語言敘詞語言文獻資訊分類網路資訊分類資料庫資訊分類471.3.1文獻資訊分類語言分類語言是一種按學科範疇和體系來劃分事物的檢索語言國內

《中國圖書館分類法》[中圖法]

《中国科学院图书馆图书分类法》[科圖法]

《中国人民大学图书馆图书分类法》[人大法]

《中国图书分类法》臺灣賴永祥編訂國外

《杜威十進分類法》[DDC]

《国会图书馆分类法》[LCC]48《中圖法》等級分類體系H1H2H3R1H11H12H13H14H121H122H123H124H111H112H113等級體系分類法上位類下位類49《中圖法》結構示意圖A馬克思主義、列寧主義毛澤東思想、鄧小平理論B哲學、宗教C社會科學總論D政治、法律E軍事F經濟G文化、科學、教育、體育H語言、文字I文學J藝術K歷史、地理N自然科學總論O數理科學和化學P天文學、地球科學Q生物科學R醫藥、衛生S農業科學T工業技術U交通運輸V航空、航太X環境科學、安全科學Z綜合性圖書U1綜合運輸U2鐵路運輸U4公路運輸U6水路運輸[U8]航空運輸U41道路工程U44橋涵工程U45隧道工程U46汽車工程U48其他道路運輸工具U49交通工程與公路運輸技術管理U441結構原理、結構力學U442勘測、設計與計算U443橋樑構造U444橋樑建築材料U445橋樑施工U446橋樑試驗觀測與檢定U447橋樑安全與事故U448各種橋型U449涵洞工程

基本大類簡表詳表50中國科學院圖書館圖書分類法簡表(第三版)00馬克思列寧主義毛澤東思想10哲學20社會科學(總論)21歷史、歷史學27經濟、經濟學31政治、社會生活34法律、法學36軍事、軍事學37文化、科學、教育、體育41語言、文字學42文學48藝術49無神論、宗教學50自然科學(總論)51數學52力學53物理學54化學55天文學56地球科學(地學)58生物科學61醫藥、衛生65農業科學66農作物67園藝68林業、林業科學71工程技術72能源學、動力工程73電技術、電子技術74礦業工程75金屬學(物理冶金)76冶金學77金屬工藝、金屬加工78機械工程、機器製造81化學83食品工業85輕工業、手工業及生活供應技術86土木建築工程87運輸工程90綜合性圖書51人大法簡表1.馬克思主義、列寧主義、毛澤東思想2.哲學3.社會科學、政治4.經濟5.軍事6.法律7.文化、教育、科學、體育8.藝術9.語言、文字10.文學11.歷史12.地理13.自然科學14.醫藥衛生15.工程技術16.農業科學技術17.綜合參考52《中國圖書分類法》(臺灣)000總論100哲學200宗教300自然科學400應用科學600歷史、地理700歷史、地理800語文900美術310數學320天文330物理340化學350地質360生物、博物370植物380動物390人類學410醫學420家政430農業440工程450礦冶460化學工業470製造480商業490商學441土木工程442道路工程443水利工程444船舶工程445市政工程446機械工程447陸空交通448電氣工程449核子工程53《杜威十進分類法》(DDC)000總論100哲學200宗教300社會科學400語言500自然科學600應用科學700藝術800文學900歷史、地理510數學520天文學530物理學540化學550地球科學560古生物學570生命科學580植物學590動物學621應用物理學622採礦623軍事及航海工程624土木工程625道路工程627水力工程628衛生及市政工程629其他工程610醫學620工程與應用科學630農業640家政650管理科學660化學工業670製造業680特種製造業690建築54《美國國會圖書館分類法》(LCC)A綜合性類目B哲學、宗教C歷史-輔助科學D歷史與地方誌(美洲以外)E~F美洲歷史與地方誌G地理學、人類學H社會科學J政治學K法律L教育M音樂N藝術P語言、文字學Q自然科學R醫學S農業、礦業T工業技術U軍事科學V海軍Z目錄學、圖書館學QA數學QB天文學QC物理學QD化學QE地質學TA工程總論TC水力工程TD衛生工程和市政工程TF鐵道工程和運輸TG橋樑工程TH建築工程551.3.2網路資訊分類[很多情況下並不很清楚自己的資訊需求,或者無法清楚表達資訊需要,需要通過類目流覽,獲得一些基本資訊,然後再選擇檢索關鍵字]搜索引擎【目錄

專題網站】

google網頁目錄

搜狗目錄學科資訊門戶

/

/開放目錄

/

/

特殊資源分類[電影分類/軟體分類/商業分類]561.3.3資料庫資訊分類如《CNKI中國學術文獻網路出版總庫》

57小結NO6文獻資訊分類特點方便文獻資訊的排架,便於索取;類目的結構嚴謹,邏輯性強;適合學術資訊資源(特別是印刷型)的組織。網路資訊分類特點根據網路資訊的存在狀況和當前上網用戶的特點來編制的,有一定的科學性和系統性;適合大眾資訊資源的組織。資料庫資訊分類特點結合文獻資訊分類和網路資訊分類的優點方便流覽和檢索581.4主題語言主題:論述的對象和研究的問題主題語言:以文獻的主題為依據,以規範化或未經規範化的名詞術語作為文獻標識來進行檢索的一種檢索語言。591.4.1標題詞語言標題詞:從自然語言中選取並經過規範化處理的、表示事物概念的的詞、片語或短語。代表:EI中《工程主題詞表》(簡稱SHE)電腦見(see)電腦局域網參見(seealso)電腦網絡601.4.2關鍵字語言所謂關鍵字是指那些出現在文獻的標題(篇名、章節名)以至摘要、正文中,對表達文獻主題內容具有實質意義的語詞,亦即對揭示和描述文獻主題內容來說是重要的、帶關鍵性的(可作為檢索“入口”的)那些詞語。關鍵字基本上不作規範化處理。例如,“國際聯機檢索概論”中的“國際聯機”、“聯機”、“檢索”都是能描述這篇文獻的主題的,可以作為檢索詞。概括地說,關鍵字法就是將文獻原來所用的,能描述其主題概念的那些具有關鍵性的詞抽出,不加規範或只作極少量的規範化處理,按字順排列,以提供檢索途徑的方法。611.4.3敘詞(主題)詞語言敘詞是指一些以概念為基礎的,經過規範化的,具有組配功能並可以顯示詞間關係和動態性的詞或片語。如:《漢語主題詞表》、《機械工程主題詞表》/

有一些英漢對照62主題詞語義參照系統參照項含義簡稱符號英文簡稱英文全稱用項同義詞(正式主題詞)用YUSEUse代項同義詞(非正式主題詞)代DUFUsedFor分項狹義詞(又叫下位詞)分FNTNarrowerTerm屬項廣義詞(又叫上位詞)屬SBTBroaderTerm族項族首詞族ZTTTopTerm參項相關詞參CRTRelatedTerm63正式主題詞款目Zàoshēnggānrăo

雜訊干擾[56MB]NoisejammingD雜波干擾

F瞄準式干擾掃頻干擾阻塞式干擾

S通信干擾有源干擾

Z電子對抗*

C連續波干擾脈衝干擾調製干擾中文拼音範疇分類號英譯名參照符號關系詞正式主題詞64非正式主題詞款目Zábōgānrăo

雜波干擾[56MB]NoisejammingY雜訊干擾非正式款目主題詞中文拼音範疇分類號英譯名關係詞參照符號65詞族索引款目Diànzĭduìkàng

電子對抗*

·通信對抗

··通信干擾

···脈衝干擾

···欺騙性干擾

···載波干擾

···雜訊干擾

····掃頻干擾

····阻塞式干擾

··通信抗干擾66概念組配是敘詞語言的基本原理。概念組配與字面組配在形式上有時相同,有時不同;而從性質上來看兩者區別是很大的。字面組配是詞的分析與組合(拆詞);概念組配是概念的分析與綜合(拆義)。例如:

字面組配模擬+控制-->模擬控制香蕉+蘋果-->香蕉蘋果

概念組配模擬+控制-->模擬控制香蕉味食品+蘋果-->香蕉蘋果67小結NO7分類語言主題語言以學科和專業集中文獻能將不同學科的資訊集中到一起適宜族性檢索適宜特性檢索不利於新興學科、交叉學科和邊緣學科的檢索不利於新興學科檢索查全率不高查準率不高682電腦資訊檢索技術機檢回憶“資訊檢索原理圖”

見第二講PPT50資訊檢索系統=硬體+軟體+資料庫電腦資訊檢索的實質就是由電腦將輸入的檢索策略與系統中存儲的文獻特徵標識及其邏輯組配關係進行類比、匹配的過程,需要人——機協同作用來完成。692.1電腦資訊檢索的類型電腦資訊檢索系統的類型檢索系統存儲的內容文獻資訊檢索系統事實資訊檢索系統數值資訊檢索系統圖像資訊檢索系統多媒體資訊檢索系統檢索系統工作方式脫機資訊檢索系統(20世紀50~60年代)聯機資訊檢索系統(20世紀70年代~光碟資訊檢索系統(20世紀80年代~網路資訊檢索系統(20世紀90年代~702.2電腦資訊檢索技術電腦資訊檢索技術是用戶資訊需求和文獻資訊集合之間的匹配比較技術。由於資訊檢索提問式是用戶需求與資訊集合之間匹配的依據,所以資訊檢索技術的實質是資訊檢索提問式的構造技術。目前,電腦資訊檢索技術已經從基本的布爾邏輯檢索、截詞檢索、鄰近檢索、限制檢索、短語檢索、字段檢索發展為高級的加權檢索、自然語言檢索、模糊檢索、概念檢索和相關檢索等多種技術並存。

712.2.1布爾邏輯檢索布爾邏輯組配是現行電腦檢索的基本技術,主要通過“與(and,*)”、“或(or,+)”、“非(not,-)”將檢索詞聯絡起來。

AND[*][&][空格]AandB邏輯與。A和B都為真時,結果才為真,即:A*B,邏輯含義用圖表示是:72OR[+][|]AorB邏輯或。A或B中只要有一個為真時,結果就為真,即:A+B

NOT[-][^][!]

AnotB邏輯非。A為真、B為假時,結果才為真,即:A-B73布爾邏輯運算符的運算次序括弧優先[與電腦編程中一樣]

(AORB)ANDCNOTD不同的系統次序有差別,但總的來說一般次序為:

NOTANDOR例A:查找有關資訊檢索的非英文文獻

資訊[information]檢索[retrieval]英文[english]

(信息and檢索)not英文

(informationandretriever)notenglish74分析實例:上海零售業的現狀與發展趨勢上海零售業現狀發展趨勢上海and

零售業and(現狀

or

發展趨勢)752.2.2截詞檢索截詞包括後截、中截、前截等。用?作為截詞符(有些系統用*),主要包括下列情形:

截詞符?中截一字元,後截斷n個字元

如wom?n可以檢索出:woman,women如

coumput?可以檢索出Compute,Computer,Computing,computable76??

後、中截二字元

如:transplant??可以檢索出:transplant、transplanted、transplanter???後、中截三字元

如:

comput???可以檢索出:compute;computer;computing77通配符,無限截斷[%][?][*]後方一致(前截斷):

“%國慶”將檢索出所有字段為張國慶、歐陽國慶、國慶等的記錄。

前方一致(後截斷):如:“熱電材料%”將檢索出熱電材料梯度化、熱電材料及其梯度化等的記錄。782.2.3鄰近檢索

位置算符(W)—with,(nW)—nwith

表示檢索算符兩側的詞不可以顛倒順序,n表示兩個詞中間可以插入<=n個的詞(如:aninbyofthe……)如:control(1w)system可以檢索出“controlsystem”“controlinsystem”等的資訊。79位置算符(N)—near,(nN)—nnear

表示檢索算符兩側的詞可以顛倒順序,n表示兩個詞中間可以插入<=n個的詞(如:aninbyofthe……)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论