数据库基本概念在专利检索中的运用陈卫明.ppt_第1页
数据库基本概念在专利检索中的运用陈卫明.ppt_第2页
数据库基本概念在专利检索中的运用陈卫明.ppt_第3页
数据库基本概念在专利检索中的运用陈卫明.ppt_第4页
数据库基本概念在专利检索中的运用陈卫明.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 数据库基本概念在专利检索中的运用 陈卫明许瑛姚文闫小苏2007 7 23 2 目录 1 数据 信息和数据处理2 数据库系统概述3 关系型数据库的三种操作4 布尔逻辑运算 集合运算 5 三种字段类型 3 1 数据 信息和数据处理 1 1 三个世界按照数据库理论 有现实世界 信息世界 计算机世界等三个世界 现实世界的 客观事物 事实 事件 在信息世界中抽象为 实体 并定义了各种 属性 来描述 实体 实体 在计算机世界被描述成一条 记录 客观事物 实体 记录 4 1 数据 信息和数据处理 1 2 数据 data 是一些符号 用来描述客观事物的特征 这些符号可以是数字形式 文字形式 以及图形 图像和声音等 例如学生成绩 飞机班次 测量温度 CPRS中的 发明人姓名 发明名称 文摘 优先权项 文献号 申请号 分类号 申请日 公开日等 5 1 数据 信息和数据处理 1 3 信息 information 信息是经过加工 记载 分类 组织 关联 解释 提炼 消化理解 而具有使用价值的数据 信息 数据 数据处理 有的信息由一个数据构成 比如分类号 有的信息由几个数据构成 比如优先权项 CPRS中的一条记录 数据和信息在形式上往往并无区别 尤其是那些由一个数据构成的信息 例如分类号 6 一 数据 信息和数据处理 1 4 数据和信息的关系 信息是数据的内涵 二者是形与质的关系 数据是信息的载体 信息的表现形式仍是数据 信息是经过加工而具有使用价值的数据 信息 数据 数据处理 数据只是把客观事物记录下来 并没有特定目的 而信息是有针对性的 某一问题 某一论点 某一特定目的 来收集 处理数据 用来作为决策或参考的依据 所以两者的差别在于是否存在某一特定目的 7 1 数据 信息和数据处理 1 5 数据处理数据处理是指对各种类型的数据进行加工 收集 存储 分类 计算 检索 传输 的过程 数据处理的目的使之成为信息 数据处理通常也称为信息处理 8 2 数据库系统概述 2 1 数据库 Datebase DB 长期存放在外部存储设备 外存储器 外存介质 上 可以以各种方式进行组织 可以共享的数据 包括这些数据之间的联系 集合 这些数据与应用程序 例如VB 相互独立 9 2 数据库系统概述 2 2 数据库系统 DatabaseSystem DBS 数据库不能独立存在 是数据库系统的一部分 在实际应用中 人们所面对的其实是数据库系统 数据库系统具有管理和控制数据库的能力 输入 输出 组织数据 10 2 数据库系统概述 数据库系统包括 硬件 计算机 数据库 DB 数据库管理系统 DBMS 常用的数据库管理系统有FoxPro Oracle SYBASE INFORMIX等 用来建立 管理 控制数据库 数据库管理员用户和应用程序 11 2 数据库系统概述 2 3 信息世界的术语实体 Entity 对应于现实世界中的 客观事物 实体可以指代具体事物 如一个学生 一本书 一件专利文献 也可以指代抽象事件 如一场足球比赛 12 2 数据库系统概述 属性 attribute 属性用来描述实体的特性 如学生实体可以用若干属性 学号 姓名 年龄 性别 出生日期 班级 来描述 属性的具体值称为属性值 如CN2745142Y 授权 公告号 马林 申请 专利权 人 2004年9月16日 2004 9 16 申请日 是属性值 13 2 数据库系统概述 2 4 计算机世界的术语记录 record 元组对应于信息世界的 实体 二维表中的一行 字段 field 对应于信息世界的 属性 二维表中的一列 每个字段有字段名 标头 例如 发明人 申请号 等等 字段值 value 数据项对应于信息世界的 属性值 二维表中的一格 关系 relation 数据库文件 14 2 数据库系统概述 一个关系就是一个二维表 每个关系有一个关系名 一个关系可以存储为一个数据库文件 例如某专利文献数据库可以有专利号的表 发明名称的表 专利权人的表等 下面是一个模拟数据库 该表是由一个以上的表 关系 通过 关联 而成 15 模拟数据库 不是真的 一列表示一个属性 2 数据库系统概述 16 2 数据库系统概述 2 5 关系的三种类型一对一的关系 例如一个学生只有一个学号 再例如一件专利只有一个申请号 一对多的关系 例如某班主任老师可以有多个学生 再例如一个发明人可以有多件专利 多对多的关系 例如一个学生可以选修多门课 一门课可以供多名学生选修 再例如一个分类号之下可以有多件专利文献 一件专利也可以有多个分类号 17 2 数据库系统概述 2 6 数据库的三种类型数据模型是数据库结构的组织形式 目前数据库系统中常用的数据模型有三种 层次模型 HierarchicalModel 用树形结构表示数据及其联系的数据模型 树形结构只能表示一对多联系 18 2 数据库系统概述 19 2 数据库系统概述 网状模型 NetworkModel 用网络结构表示数据及其联系的数据模型 网状模型可以直接表示多对多联系 但其中的结点间连线或指针更加复杂 因而数据结构更加复杂 20 2 数据库系统概述 21 2 数据库系统概述 关系模型 RelationalModel 用关系表示的数据模型 关系是指由行与列构成的二维表 关系不但可以表示实体间一对多的联系 通过关系间的连接 也可以表示多对多的联系 见连接 22 微机871班学生表 A 2 数据库系统概述 23 选修表 B 2 数据库系统概述 24 课程表 C 2 数据库系统概述 25 3 关系型数据库的三种操作 3 1 选择 从关系中找出满足给定条件的记录 元组 即在二维表中选行 例 例如 对表A中李峰的选择 3 2 投影 从关系中找出若干字段 属性 组成新的关系 即在二维表中选列 例如 对表B课程编号的投影 3 3 连接 将两个关系按某种条件提取部分 或全部 记录及部分 或全部 字段组合成新的关系 例如 表B 表C按照课程编号 关键字 连接 26 连接而成的新表 D 3 关系型数据库的三种操作 27 4 布尔逻辑运算 集合运算 4 1 并 或 or A B A集合和B集合所有元组合并 再删去重复的元组 这种运算称为 并 或 所组成新的C集合 称为A B的并集4 2 差 非 not A B A集合中删去 A集合中 与B集合相同 重复 的元组 这种运算称为 差 非 所组成新的C集合称为A B的差集4 3 交 与 and A B 既属于A集合又属于B集合的元组 这种运算称为 交 与 所组成新的C集合 称为A B的交集 28 交 与 and 属于集合A且属于集合B的元素组成的集合C 叫做A B的交集 属于A又属于B的元素组成的集合 AandB C 例 A 汽车 B 发动机 C 即有 汽车 也有 发动机 的记录集caps中两词间空格 and 集合B 集合A 集合C 29 并 或 or 属于集合A或属于集合B的元素组成的集合C 叫做A B的并集 A B所有元素合并 删除重复元素组成的集合 AorB C 例 A 汽车 B 发动机 C 仅有 汽车 的记录集 仅有 发动机 的记录集 即有 汽车 也有 发动机 的记录集 caps中用 or 集合A 集合B 集合C 30 差 非 NOT 与非 ANDNOT 属于集合A而不属于集合B的元素组成的集合C 叫做A B的差集 在A中排除属于B的元素后组成的集合 AnotB C 例 A 汽车 B 发动机 C 从所有含 汽车 的记录集中去掉含 发动机 的记录集caps中用 without not 集合A 集合B 集合C 31 4 布尔逻辑运算 集合运算 4 4 差并 ornot 或非 从总集合排除B 再与A集合合并 三种情况4 4 1 A集合的所有元素都是B集合的元素时 还要考虑A集合与B集合哪个更大 4 4 1 1 如果A集合更大 或非结果 总集合 4 4 1 2 如果B集合更大 总集合被挖去部分 B 只填入了局部 有 空区 32 4 布尔逻辑运算 集合运算 4 4 2 A集合的所有元素都不是B集合的元素 或非结果 总集合notB4 4 3 A集合的部分元素是B集合的元素 总集合被挖去部分 B 只填入局部 有 空区 33 或非 4 1 1 1 A所有元素都是B的元素 且A B 34 总 或非 4 1 1 1 A所有元素都是B的元素 且A B 35 或非 4 1 1 2 A所有元素都是B的元素 且A B 36 或非 4 1 1 2 A所有元素都是B的元素 且A B 37 或非 4 1 2 A所有元素都不是B的元素 38 或非 4 1 2 A所有元素都不是B的元素 39 或非 4 1 3 A部分元素是B的元素 40 或非 4 1 3 A部分元素是B的元素 41 4 布尔逻辑运算 集合运算 4 5 举例在检索时 可能会对这样的情形感到困惑 为什么当我们将两个检索结果进行集合运算时 或 与 非 却常常会得到我们所意想不到的结果 比如3 2 3 这是因为集合运算所强调的是 集合中的 元素的种类 42 3 2 3 A B C 或的讨论1 1 B集中所有元素都属于A集 43 3 2 3 或的讨论1 2 B集中所有元素都属于A集 44 3 2 3 A C 或的讨论1 3 B集中所有元素都属于A集 45 B A C 3 2 3 或的讨论1 4 B集中所有元素都属于A集 46 3 2 5 A B C 或的讨论2 1 B集中所有元素都不属于A集 47 3 2 5 或的讨论2 2 B集中所有元素都不属于A集 48 B C A 3 2 5 或的讨论2 3 B集中所有元素都不属于A集 49 3 2 5 C 或的讨论2 4 B集中所有元素都不属于A集 50 3 2 4 A B C 或的讨论3 1 B集中部分元素属于A集 51 3 2 4 或的讨论3 2 B集中部分元素属于A集 52 3 2 4 A C 或的讨论3 3 B集中部分元素属于A集 53 3 2 4 C 或的讨论3 4 B集中部分元素属于A集 54 非的讨论1 1 A集有几个B集没有的元素 B集中所有元素都属于A集 3 2 1 A B C 55 非的讨论1 2 A集有几个B集没有的元素 B集中所有元素都属于A集 3 2 1 56 非的讨论1 3 A集比B集多几个元素 B集中所有元素都属于A集 3 2 1 B A C 57 非的讨论1 4 A集比B集多几个元素 B集中所有元素都属于A集 3 2 1 B 58 非的讨论2 1 A集有几个B集没有的元素 B集中所有元素都不属于A集 3 2 3 A B C 59 非的讨论2 2 A集有几个B集没有的元素 B集中所有元素都不属于A集 3 2 3 60 非的讨论2 3 A集有几个B集没有的元素 B集中所有元素都不属于A集 3 2 3 61 非的讨论2 4 A集有几个B集没有的元素 B集中所有元素都不属于A集 3 2 3 C 62 非的讨论3 1 A集有几个B集没有的元素 B集中部分元素属于A集 3 2 2 A B C 63 非的讨论3 2 A集有几个B集没有的元素 B集中部分元素属于A集 3 2 2 64 非的讨论3 3 A集有几个B集没有的元素 B集中部分元素属于A集 3 2 2 B A C 65 非的讨论3 4 A集有几个B集没有的元素 B集中部分元素属于A集 3 2 2 C 66 A B C 与的讨论1 B集中所有元素都属于A集 3 2 2 67 3 2 0 A B 与的讨论2 B集中所有元素都不属于A集 68 A B C 3 2 1 与的讨论3 B集中部分元素属于A集 69 5 三种字段类型 5 1 文本型 人名 地址 发明名称 文摘 5 1 1 注意词组和人名 公司名 的输入方式 核心问题是词之间如何连接 carbody airconditioner methyltert butylether甲基叔丁基醚 中文不必考虑 情形1 USPTO中网站 searchpatents 中 人名为Lastname firstname initial 例如JohnE Doe要这样输入 IN Doe John E 为了模糊检索也可以 Doe Doe John Doe J 情形1a USPTO网站 searchpatents 中 AN generalmotors ABST bowlingballs TTL bowlingballs 情形2 欧洲局网站 espacenet 的applicant s 和inventor s 字段中 词之间连接用缺省或and title和abstract也类似情形3 epoque中例如 Intbusinessmachinescorp用w连接成为 Internationalwbusinessmachineswcorporation pa w 70 5 三种字段类型 5 1 2 操作符的使用5 1 2 1 截词符 截断符 通配符 模糊符 前方一致 白搭 wildcards truncationsymbol righttruncation 1 第一种截词符表示任意字符 2 第二种截词符表示0 1个字符 或1个字符要考虑截词符能否用于词的中间情形1 国知局网站 中国专利检索 用 词右可以缺省 代表任意字符 并可以用于词的中间 代表0 1个字符例如 陈卫 陈 明 北京海淀 地址 波 发明名称 波浪 发明名称 情形2 CPRS没有截词符 用缺省表达 71 5 三种字段类型 情形3 USPTO网站 searchpatents 用 代表任意字符 不能插置于词的中间 没有其它截词符情形4 欧洲局网站 espacenet Title Abstract Applicant Inventor 用 代表任意字符 代表0 1个字符 代表1个字符 但均不能插置于词的中间情形5 epoque用 使用时至少要输入3个字母 代表任意字符 代表0 1个字符 代表1个字符 均可用插置于词的中间 例如colo r 可查出color colour例如fu ee 可查出fuzee fusee 72 5 三种字段类型 5 1 2 2 布尔算符 booleanoperator and spacebar or not without 情形1 国知局网站 中国专利检索 and or not 情形2 CPRS用 情形3 USPTO网站 searchpatents 用 and or andnot 情形4 欧洲局网站 espacenet 用 and or not 但各文本型输入框 各词之间缺省 空格 时为and情形5 epoque用and or not 73 5 三种字段类型 5 1 2 3 邻近算符 proximityoperator 和同在算符 Co occurrenceoperator 情形1 epoque用w代表两词前后位置固定 d代表两词前后位置不固定 CAPS用adj near 例如 airconditioner carbody用邻近算符 airwconditioner carwbody情形2 F ield P aragraph S entence 例如 EpsA8 pn 74 5 三种字段类型 5 2 代码型 IPC 文献号 申请号 国家代码 5 2 1 注意分类号的输入方式情形1 CPRS不但要补零 还要去 例如G06F19 00 输入时为 G06F01900情形2 USPTO网站 searchpatent 的CCL字段输入时 G06F19 00要成为G06F019 00情形3 国知局网站 espacenet epoque ic 则不用加零 即保留原样 G06F19 00 75 5 三种字段类型 5 2 2 操作符的使用5 2 2 1 截词符情形1 国知局网站 中国专利检索 用 词右可以缺省 并可以插置于各数据的中间 和 申请 专利 号 公开 公告 号 分类号 主分类号 国际公布 有3个子值 等 情形2 CPRS没有截词符 用缺省表示 891 申请号 32 公开号 c01 IPC 76 5 三种字段类型 情形3 USPTO网站 searchpatents 用 但至少在3个字符之后 PN专利号 DN公开号 APN申请号 ICL国际分类号 CCL美国分类号 例如 427 美国分类 5641 美国专利号 检索结果为1000 而5641为0 情形4 欧洲局网站 espacenet 用 代表任意字符 代表0 1个字符 代表1个字符 但均不能插置于各数据的中间情形5 epoque在代码型字段的输入值可以用 右截断 例如us500 pn 但us pn是可以用的 77 5 三种字段类型 5 2 2 2 布尔算符各输入框中能否连续输入号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论