网络不良信息过滤研究.pdf_第1页
网络不良信息过滤研究.pdf_第2页
网络不良信息过滤研究.pdf_第3页
网络不良信息过滤研究.pdf_第4页
网络不良信息过滤研究.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

I TA 林 建 张 帆 华 中师范大学 信息管理系 湖北 武汉4 3 0 0 7 9 网络不 良信息过滤研究 冰 摘要 探讨 了目前 国内外 用于不 良信 息过 滤的 主要 方 法 包括分级 法 U R L地址 列表 法 文本 内 容过滤技术和多媒体信息过滤技术等 并对其优缺点进行 了分析和比较 关键词 互联 网 不 良信 息 信 息过 滤 Ab s t r a c t T h e p a p e r g i v e s a p r e l i mi n a r y d i s c u s s i o n o n t h e ma i n me t h o d s o f fi l t e r i n g u n h e a l t h y i n f o r ma t i o n o n t h e I n t e r n e t i n c l u d i n g I n t e r n e t c o n t e n t r a t i n g URL fi l t e r i n g t e x t c o n t e n t fi l t e r i n g a n d mu l t i me a i nfo rm a t i o n f i l t e r i n g I t als o ma k e s a c o mp a ris o n o f t h e a d v a n t a g e s an d d i s a d v a n t a g e s o f e a c h me t h o d Ke y wo r d s I n t e r n e t u n h e alt h y i nfo rm a t i o n i n f o r ma t i o n fi l t e r i n g 自1 9 9 5年以来 互联网在我国得到迅速普及 它不 仅推动了社会经济的发展 也给我们的学习 工作和生活 带来了极大的便利 与此同时 我们也看到 互联网上信 息庞杂多样 既有大量进步 有益的信息 也有不少反 动 迷信 黄色等不健康的内容 网络不良信息的泛滥给 社会发展造成了精神污染 它的出现主要有两个原因 其 一 是出于政治目的 国内外敌对势力在互联网上发布的旨 在颠覆国家政权的信息 以达到不可告人的政治 目的 其 二是出于经济 目的 许多网站提供色情等不良信息链接以 引起 网民的好奇 从 而吸引更 多的人登录 自己的网站 这 样做能够提高点击率 最终赢得更多的经济利益 1 网络不 良信息过滤特点 网络不良信息是指互联网上出现的违背社会主义精神 文明建设要求 违背中华民族优 良文化传统与习惯 以及 其他违背社会公德等的各类信息 包括文字 图片 音频 和视频等 网络不 良信息具有广泛性 快捷性 多渠道 性 隐秘性和社会危害性等特点 对其进行过滤也不同于 一 般信息的过滤 不良信息过滤与一般信息过滤相 比 有 其 自身的特点 首先 文本倾向性判断比较困难 一般信 息过滤中比较容易得到用户感兴趣和不感兴趣两方面的样 本 而在不良信息过滤中 正面样本通常较容易获取 负 面样本则较难获取 致使负面样本数 目较少 负面样本难 以判断 其次 一般信息过滤所过滤的信息表达形式稳 定 易于利用关键词和词频统计方法进行文本表示 而不 良信息制造者往往采取更换表达形式来逃避过滤 增加了 本文 为 2 0 0 6年国家社科基金项 目 网络 信息过滤 研究 的研 究论文之一 项 目编号 0 6 B T Q 0 2 4 5 3 4 过滤难度 2 网络不良信息过滤方法 2 1 网络 内容分级 当前 就网络内容规范途径而言 除了以计算机软件 作为规范网络内容的手段之外 内容分级是一个备受关注 的焦点 网页内容分级就是对网络信息分等级 分类别地 进行过滤的方法 它预先按照一定的分级标准对网页或网 站进行分级 当用户访问时根据分级标记决定能否访问 分级可以由自我分级和第三方分级两种方式完成 自我分 级是由网页作者针对自己网站的内容 在不同的向度下给 予适当的标记 并将等级标签嵌入网页原始码或表头中 第三方分级是由第三方组织机构针对网站内容给予各向度 之分级 分级标签则是透过标签机构 L a b e l B u r e a u 分 发 用户在使用时可通过下载过滤系统分级档案 并在浏 览器中设置不同的向度 在浏览网站时 浏览器会依据用 户设定的向度级别 筛选出合适的网站信息 2 1 1 国外网络内容分级标准据调查 国外在基于内 容分级方案中 多方标记和分级模式 Mu l ti P a 啊 I J a b e l i n g R a ti n g Mo d e l MP L R M 占据了主导地位 MP L R M遵循 W3 C Wo r l d Wi d e we b C o n s o r t i u m 所 提出的 互联网内容分级平台 P l a tf o rm f o r I n t e me t C o n t e n t S e l e c t i o n P I G S 技术标准 P I C S技术标准协议 完整定义 了网络分级所采用的检索方式 以及网络文件卷标的语法 P I C S 技术标准并不是绝对的 它的最大目的是让整个开放 的互联网有可以遵循的标准 这个标准有点复杂 主要是 定义了一些标签 P I C S系列规范中的 P I C S L a b e l D i s t r i b u t i o n L a b e l S y n t a x and C o m m u n i c a t i o n P r o t o c o l s 规定 了 P I C S 标记的一般格式 一个网页的 P I C S标记的一般格式包括 第 3 0卷 2 0 0 7年第 4期 维普资讯 I TA 以 U R L作为标记的分级机构 与分级信息有关的属性一 值 对 提供实际分级信息的属性一 值对 其一般格式为 P I C S 一 1 1 o p t i o n l a b e l s o p t i o n r a t i n g s o p t i o n r a t i n g s o p t i o n l a b e l s o p t i o n r a t i n g s o p t i o n r a t i n g s 架构符合 P I C S 标准的分级系统是首先需要考虑 的 其中首要的是需对过滤对象的内容提 出不同的向度和级 别 一般而言 所提出的向度大多为不雅语 言 性 裸 体 暴力 邪教 赌博等向度 也可以衍伸次向度 而级 别通常为4 6级 目前 以P I C S为核心研发的相关分级 系统 已不少 在众多引用P I C S 技术标准的平台中 又 以 表 1 I C R A分级标准 潜在有 用户产生内 裸露 性 暴力 语言 容 如聊天 背景 害内容 室 留言板 裸露乳 热情的接 攻 击 掠 辱骂或粗 烟草 节制的 艺 术 房 吻 夺 俗言语 酒 不节制的 类 裸露臀 隐喻之性 故意伤害 亵渎或咒 毒品 以上全无 教 育 部 行为 人类 骂的言语 武器 类 裸露阴 可见的性 故意伤害 温和的咒 赌博 医 药 部 接触 动物 骂言语 为小孩树 类 无任何 明确的性 故意伤害 无任何不 立坏榜样 运 动 裸露内 语言 虚构角色 敬言语 的 内 容 类 容 明确的性 血 腥 肢 如教 唆 新 闻 行为 解 人 孩子做有 类 色情作品 类 害的事或 无任何关 血 腥 肢 模仿危险 于性的内 解 动 行为 容 物 易造成心 血腥 肢 理恐惧的 解 虚构 内容 角色 歧视或恶 折磨或杀 意中伤 害人类 特别团体 折磨或杀 或族群 害动物 种 族 折磨或杀 性别 宗 害虚构角 教 国家 色 等 无任何暴 无潜在有 力内容 害内容 情报理论与实践 网络分级协会 I n t e r n e t C o n t e n t R a t i n g A s s o c i a t i o n I C R A 的推广最为有力 使用 I C R A分级系统为网页做标签的步 骤如下 1 创建文档标签 首先标签系统会先要求网站作者 填写网址 以确保系统所做标签与网站一一对应 其次 系统会要求完成问卷 以便为自己的网站分级 分级体系 如表 1 所示 2 创建附加标签文档 如果单一的标签无法对整个 网站分级 还需要为网站的副站点进行分级 这项工作可 以通过做附加标签完成 如新浪网包含有新闻 健康 育 儿 聊天等副站点 通过 I C R A系统可对各个副站点做不 同的标 签 3 上传 标签 文档 上传标 签 文档前 需要 先提 供 E m a i l 让系统把标签副本和相关信息发送到该 E m a i l 中备 用 上传标签文档可以由系统来完成也可以自己来完成 通过系统完成只需向系统提供建站时由 I S P分发的 F T P的 详细说 明即可 4 将网站内容与标签相连 这一步必须要由网站作 者来完成 网站作者会收到一封包含一个链接标签以及一 个 P I C S标签的电子邮件 示例标签如下 Li n k Ta g P I C S T a g t o s u p p o r t l e g a c y s y s t e ms 将邮件中收到的两个标签嵌入网站中的每一个网页的 H T ML代码的 部分即可完成网站的分级工作 2 1 2 国内网页内容分级标准我国对网页内容分级标 准的研究比较晚 比较有影响的是祝智庭教授提出的网络 教育 内容 分 级 标 准 C h i n e s e E l e a r n i n g C o n t e n t R a t i n g S t a n d a r d C H E R S C H E R S旨在为我国网络教育内容分级 提供统一的尺度 它遵守 P I C S技术规范 具有以下特点 1 适合中国国情 以代表我 国利益 的文化 理论 价值取向为出发点 2 用二维的内容分级方案 即同时采用内容分级维 和年龄分级维 3 内容分类更加全面 除了对色情 暴力等网络信 息进行过滤外 还可过滤不良语言 恐怖 军国主义 邪 教等网页内容 4 C H E R S 不仅仅具有阻挡不 良信息的功能 而且还 5 35 维普资讯 I TA 具有推荐信息的功能 它可借助先进的技术手段把中华民 族优秀文化传统 推 给广大 中国学习者 乃至全球的 学习者 C H E R S采用了两维 的分级方案 将 内容分级与年龄 分级纳入一个分级标准中 内容分类分级维分为两大取 向 推荐 过滤 每一取 向又分为若干子类 设置 了编 号 从 A到 U 推荐取向包括的子类有 中华民族优秀文 化传统 中国新时期主旋律 优秀教育内容等 5项 编号 分别为 A到 E 过滤取向包括的子类有 不良语言 烟酒 药物 谣言 恐怖 暴力血腥等 1 4项 编号从 F到 T 其中在 推荐 和 过滤 取向中均包含 未定义 子 类 这是为今后预留的 每一子类通常设置 5个等级 0 4级分别表示此内容的强烈程度 年龄维则规定了各年 龄层适合及禁止浏览的网页内容 2 1 3 网络内容分级方法评价优点有 分级法过滤 网络不良信息可以灵活地配置过滤模板 深入地反映用户 的思想观点和价值观念 是未来一段时间内比较可行的一 种方法 尤其是当网页作者 I S P I C P能主动采用标准的 分级体系进行分级 将会扩大分级处理的覆盖面 对过滤 不良信息 净化网络环境将产生较大影响 并可以降低互 联网的管理成本 简化互联网管理体系 采用人工分级 方法过滤信息错误率相对较低 并可以准确地对图像 视 频等多媒体信息准确分级 目前网络信息的分级标准都 是建立在自愿的基础上的 力求避免涉及到公 民的言论 通信自由等法律问题 并且维护了网络上的言论 自由与多 元化价值观 缺点有 自我分级的质量难 以保证 因为 该方法要求网页作者主动参与到信息过滤中来 而这与网 页作者希望更多人浏览其网页的初衷是相违背的 如果网 页作者欲通过网页恶意传播不 良信息的话 用户对其是无 法控制的 分级法要求网络用户必须向网站提供准确的 信息 比方说年龄和爱好等 网络用户只需更改年龄就很 容易逃避分级过滤的要求 2 2 U R L过滤 据 G a r t n e r 统计 2 0 0 5年全球 U R L U n i f o r m R e s o u r c e L o c a t i o n 信息过 滤市场 增 长 2 3 6 达到 3亿 美元 U R L过滤是 目前阶段及今后一段时间中可以实际采用的技 术 在因特网上 使用统一资源定位符 U R L来标志互联 网上的各种文档 可使每个文档在整个因特网范围内具有 唯一的标识符以便用户选择使用 正是由于 U R L的唯一 性 可以利用 U R L过滤互联网上的信息 2 2 1 U R L过 滤原理U R L过 滤主要 是通过 对互联 网上 各样信息进行分类后 精确地匹配 U R L和与之对应 的页 面内容 形成一个预分类网址库 在用户访问网页时 将 要访问的网址与预分类网址库中的网页地址进行对比 以 53 6 此来判断该网址是否被允许访问 通常情况下 需要维护两种类型的列表 一种为 黑 名单 B l a c k L i s t 包括禁止访问的 目标网站的 U R L 另一个为 白名单 Wh i t e L i s t 包括允许访问的 目标 网站的 U R L U R L地址列表一般 由管理者或第三方根据 一 定的标准来收集和编制 由于互联网上的不良信息资源 每天都在不断地增加和变化 因此 U R L列表还需要不断 地更新和丰富 2 2 2 实施 U R L过滤实施过滤时 首先将从用户请求 数据包中提取的 U R L与 白名单 列表进行匹配 如果 匹配成功 则说明用户的请求是合法的 用户可以浏览该 网页 如果匹配不成功 则进行进一步的非法 U R L匹配 把请求中的 U R L部分与 黑名单 列表进行匹配检测 如果匹配成功 说明用户所请求的信息不合法 这时 可 返回给用户警告提示 禁止用户访问该网页 当匹配再次 失败时 说明用户请求的 U R L在 U R L数据库中无法找到 对应项 标记该 U R L为可疑 S u s p i c i o u s 等待审核 但 还是可以按合法 U R L请求一样的方法来处理 2 2 3 U R L过滤方法评 价优点 有 U R L过 滤 由于有 人工的参与 过滤准确率较高 U R L过滤实现简单 过 滤成本低 缺点有 U R L过滤依赖事先开列出的特定网 址 而网站取舍与否主要依靠过滤公司所雇人员对网站所 做出的主观判断及组织 这种方法虽然精确 但相对较耗 时和费成本 且这种主观选择会因人而异 加上网络每天 都有新的网站和网页诞生 每天都有网址变更 因此 依 靠人工选择评鉴 的速度会远 不及 网站变 更及增 加 的速度 因而对非法 U R L的覆盖程度不高 U R L过滤仅仅将互 联网站区分为允许访问和拒绝访问两种类型 但不能对图 像搜索的结果进行分类 一些不良网络信息的提供者可以 采取了回避某些敏感词汇的办法 将不良文本嵌入到图像 文件中 或直接以图像文件的形式出版等方法 从而可以 轻易地逃避 U R L过滤 2 3 文本 内容 过滤 技术 上述方法实现简单 但其最大的缺陷就是过滤过于规 则化 无法动态地辨别文档的实际含义 只要满足过滤规 则就会被过滤掉 文本内容过滤技术能较好地克服这一缺 点 基于内容的文本过滤相似于信息检索 往往采用与信 息检索类似的技术 已有一些算法用来分析文档的内容 主要有关键词匹配法 潜在语义索引法和神经网络法 2 3 1 关键词匹配方法关键词匹配法 中较常用的模型 是布尔逻辑模型和向量空间模型 利用布尔逻辑模型进行过滤就是给定一系列的具有二 值逻辑的特征变量 其来源词从文档中抽取 是用来描述 文档的特征的 如关键词或索引词等 有的也可以是时 第 3 O卷 2 0 0 7年第 4期 维普资讯 I TA 间 作者的姓名等个性信息 在过滤过程中 它以文献中 是否包含关键词作为取舍标准 通过布尔操作符把表示文 档信息的特征变量构成布尔表达式 以此作为检索与过滤 的依 据 在一个查询中 如果两个查询关键词之间用布尔操作 符 A N D相关联 则表示这两个关键词必须同时包含在过 滤文档中 如果两个查询关键词之间用布尔操作符 O R相 关联 则表示这两个关键词只要其中一个包含在过滤文档 中即可 过滤时 用户将提取请求的页面关键词提交给系 统 系统通过交集运算来判断是否要过滤掉该页面 布尔 模型结构简单 容易实现 但其无权重设计使得过滤结果 很难控制 基于向量空间模型的关键词匹配法是以特征向量为基 础 将文本内容转换成向量方式 然后以用户需求向量与 过滤文本向量的夹角余弦来衡量文本同用户需求的相似 度 在以向量空间模型构造的信息过滤系统中 用字项标 识文档 如一个不 良信息文档 D 用一个 m维 向量来表 示 其中m是能够用来表示文档内容的字项总数 给每 一 个字项赋予一个权值 用它来表明它的重要程度 设文 档的向量公式表示为 D w W 2 w 1 式中 w 表示第 i 个字项的权值 判断一篇文档与用户兴趣的相似程度通常采用求两个 向量的余弦值来计算 再给定一用户兴趣描述向量公式 P U U U 其中 U i 表示权值 则它们的夹角 的余弦值为 Si m i z w i 刍 由公式 2 可知 若两向量的夹角变小 则相似程 度随余弦值而变大 待过滤文本符合过滤需求的可能性增 加 设定过滤阈值 P 当 S i m D P p时 其 D所对 应的内容符合过滤需求 该文档则应禁止浏览 这两种基于关键词的过滤方法虽然实现简单 实时性 强 但它只能根据关键词进行简单的机械匹配 系统难以 理解文本的含义 因此对于相似文本很难区分 例如有关 性文化 性保健的内容与色情文本在关键词方面非常相 似 给识别和过滤带来很大的误差 2 3 2 潜在语义索引算法使用关键词匹配过滤的天然 缺陷是上下文背景信息不足 过滤的准确率不高 潜在语 义索引法则在一定程度上解决了传统词汇匹配方法中的歧 义和同义问题 同义现象是指文本中使用不同的词汇来表 达同一概念 这样会在过滤的时候有些相关文档会被遗 漏 歧义现象是指一个词往往具有多种不同的含义 其过 情报理论与实践 滤结果往往是一些无关文档被保留下来 因为虽然两篇文 献使用的词汇相同 但实际上两者含义却不一样 潜在语 义索引是一种概念检索方法 它试图解决单纯关键词匹配 方法中的上述两个问题 以挖掘文本的潜在的语义内容 潜在语义索引法是利用矩阵的奇异值分解 S i n g u l a r V a l u e D e c o m p o s i t i o n S V D 来捕 捉相关 联文 献 的 潜 在 结构的 对于奇异值分解来实现信息过滤的原理是给定一 个字项文档矩阵 x x有 r 表示文档集中关键字项 的个 数 行 C 表示文档集中文档的数量 列 对X进行奇异 值分解得 X T o S o D T 3 公式 3 中 T 0 是 r m矩 阵 D 是 m c矩 阵 都是正交矩 S 是 m m的对角阵 其中的正奇异值以减 序排列 m是矩阵 S的秩 为化简向量空间 通过对矩阵 T o S 和 D 的处理使 x矩阵重构 设置参数 K 一般情况下设置 1 0 0 2 0 0 取矩阵 S 的 K个奇异值 其他的值置零 原始矩阵 x可 近似表示为X T S D 其中T D分别是具有标准正交列 的r k矩阵和 C k矩阵 S是一个 k k 角阵 x 是对X 的一个近似 它是最接近X的 k秩矩阵 保持了X中所反 映的词语和文本之间联系的内在结构 又去掉了语言的多 义性 潜在语义索引法是基于文档集中潜在的语义关系构造 一 个索引项文档空间 所相似主题的文档在该空间中对应 的位置点 相距很近 则可以通过对所待过滤文本和过滤 模型向量 并根据设定的阈值来进行信息过滤 潜在语义索引法具有丰富的表述能力 其过滤精度较 关键词匹配法有了提高 但该方法的算法复杂 系统执行 慢 其过滤性能也会随着新词的加入而下降 缺乏直观意 义 不便理解 2 3 3 神经网络算法利用神经网络技术过滤旨在模拟 人脑的神经系统结构与功能 把用户兴趣表示成一个人工 神经网络 神经网络算法过滤信息的基本思想是在其内部 存储可行模式的整个集合 这些模式可被外部唤起 即使 外部提供的资料不足也可以在内部重构 神经网络可以实 现响应 自我组织 学习抽象和遗忘功能 当神经网络被 训练好之后 输入定制领域内的新模式识别问题 它可以 输出有关这种模式的相关信息 即神经网络的输入为文本 特征向量 输 出为评价向量 经过训练的神经 网络可实现 文档向量到评价向量的映射 把代表不同文档的特征向量 映射为相应的评价向量 图1中表示待过滤文本的N个特 征向量通过神经网络映射到 M个主题 每个小圆圈代表 一 个处理 单元 相 当于神 经元 X x x 5 3 7 维普资讯 I TA X 表示文本的特征向量 w i 表示对每个第 j 个主题来 n 说 第 i 个关键词 的权重 且 W i 1 评价值为 Y j n x w j 若某个文本的第 J 个评价值大于第J 个阈值 说 明该文本符合第 j 个内容 同一文本有可能同时符合多个 主题 最后对评价值大于阈值的输出所对应的权值进行修 正 图 1 神经 网络模 型 输出层 输入层 神经网络过滤方法模拟 了人脑对信息进行过滤的原 理 并结合各种数学算法来实现信息过滤功能 具备一定 的容错性和柔韧性 在较少人为干预的情况下 实现自我 更新和完善 但该算法非常复杂 执行速度慢 还不符合 目前的实用要求 2 4 多媒体信息过滤技术 现代网络不良信息不仅仅是以文本的形式出现 还包 括大量的多媒体信息 多媒体信息不仅包括文本信息 还 包括图像信息 音频信息和视频信息 因此多媒体信息的 过滤要比文本信息过滤困难得多 目前对多媒体信息过滤 主要有两种方法 第一种是基于文本的多媒体信息过滤 第二种是基于内容的多媒体信息过滤 2 4 1 基于文本的多媒体信息过滤基于文本的多媒体 过滤方法是 目前多媒体信息过滤最常用的方法 其过滤原 理是以关键词的形式来反映多媒体物理特征和内容特征 并对抽取出的关键词进行著录或标引 建立类似于文本文 献信息检索系统的索引数据库 过滤时通过文本匹配来完 成 基于文本的多媒体信息过滤是文本过滤方式的延续 不需要进行新的过滤技术的开发研究 其实施 比较简单 实现成本也比较低 然而 完全基于文本的多媒体过滤技 术存在严重问题 首先 目前的计算机视觉和人工智能技 术都无法对多媒体信息 自动地进行文本标注 而必须依赖 于人工 人工标注不但费时费力 而且不可避免地带有主 观性 其次 多媒体信息中所包含的丰富的视觉特征往往 无法用文本进行客观描述 2 4 2 基于内容的多媒体信息过滤基于内容的多媒体 信息过滤是目前多媒体过滤研究中最活跃的领域 其过滤 流程是 首先要从多媒体数据流中提取能代表原始信号的 53 8 数据形式 即特征提取 多媒体数据中的特征可以是从 图 像与视频中提取的视觉特征 如色彩 纹理和运动等 也 可以是从音频中提取的听觉特征 如音调 音质和音高 等 由于多媒体信息是时间序列流 因而我们不能对长时 间的视频或音频直接处理 需要先把连续多媒体数据流分 成不同长度的数据片段 然后对分割出来的多媒体物理单 元进行识别分类 至于分成哪些语义类由过滤系统事先定 义 再对识别出来的语义类建立索引 当用户浏览多媒体 信息时 系统会将需要浏览的多媒体信息与索引库中的多 媒体物理单元进行相似度的匹配 如果相似则禁止用户浏 览 多媒体信息是多种媒介 的综合 它们缺乏 明显的结 构 过滤起来涉及的计算量很大 从目前看 计算机的处 理能力尚不能达到多媒体过滤对速度的要求 这将有待于 计算机技术本身的突破 3 网络不良信息过滤实现途径 目前 网络不良信息过滤主要有4种实现途径 3 1 通过运营商过滤不良信息 通过网络运营商过滤网络不良信息 就是网络运营商 在宽带网络的路由器端直接设置不良网站的过滤标准 用 户无须在个人电脑上做任何设置和修改 也不需要安装终 端软件 通过一个指定账号拨号上网就能实现 如中国电 信在 2 0 0 4年开始推广的 绿色上网 业务 该业务采用 一 种国际领先的拦截技术 能够在电信网络上对有害网站 进行拦截 并针对每天新增加的数百万个不良网站进行跟 踪 并保持同步更新和屏蔽 通过这一技术 可以屏蔽数 百万个色情 暴力 毒品 赌博和邪教等不良网站的信息 内容 通过运营商来过滤网络不良信息的优势在于从源头上 封堵了不 良网站 减轻了用户的负担 其缺陷则是它只能 过滤部分已知的不 良网站 而且需要按月付费 3 2 通过电脑厂商过滤不良信息 通过电脑厂商过滤网络不 良信息就是品牌电脑厂商针 对家庭电脑所推出的一些内置不良信息过滤功能 其实就 是电脑厂商预装了不良信息过滤软件 据了解 在 日本和 韩国 许多针对家庭的品牌机都内置了过滤网络不 良信息 的功能 在新加坡则有 2 0 的家庭采用了这种方式来防 止青少年受网络不良 信息的侵害 在我国 网络文明工程 委员会早在 2 0 0 2年就启动了 绿色行动 计划 推行建 立 网络文明工程绿色电脑 生产服务体系 即要求 电 脑厂商在其产品上配置安全过滤软硬件设施 并随即附送 网络文明培训教材 许多家长出于了解程度 价格 电脑操作水平等原 第3 0卷2 0 0 7年第4期 维普资讯 I TA 因 失去了使用软件保护子女的机会 而通过电脑厂商内 置不良信息过滤设备 避免了软硬件销售环节的脱离 同 时可以得到电脑厂商在售后服务中的指导 3 3 通过 网络应用程序 过滤 不 良信 息 有些网络应用程序如 We b浏览器 搜索引擎 电子 邮件 新闻组等附有不良信息的过滤功能 用户可以自行 设置来过滤不良信息 如 I E浏览器的内容分级审查功能 则是利用前述的网络内容分级过滤方法来过滤不 良信息 用户只需打开 I E浏览器 从菜单的 工具 栏进入 I n t e r n e t 选项 再从 内容 中点击 启用 即可看到分 级审查页面 其分级向度为性 裸体 语言和暴力 分级 级别为0 4五个等级 用户根据 自己的需要来设置即可 达到过滤不良信息的目的 该过滤不 良信息的方式给用户 提供了很大方便 但是却限制了用户必须使用特定的应用 程序 3 4 通过软件过滤不 良信 息 通过在电脑终端安装过滤软件来实现对网络不良信息 的过滤应该是较常见的一种方式 现有不良信息过滤软件 往往综合 U R L过滤 文本 内容过滤 图像过滤等多种技 术 它不仅能像网络运营商那样过滤已知的不良网站 还 能按照关键词过滤一些不良画面 过滤软件可以对计算机 屏幕出现的词汇进行逻辑判断 当电脑上出现不 良文字和 图片时 软件就会自动关闭掉这些信息窗口 从而完成对 不 良信息的查杀 中文过滤软件从 2 0世纪末开始起步 目前市面上的软件已达几十种之多 较著名的有 网络爸 爸 美萍反黄专家 等 过滤软件在功能上非常强大 但在用户终端电脑上 自 行安装过滤软件等于让用户 自己限制 自己 是不现实的 而且软件 由各个用户 自己进行设 置 无 法统一 因此 也难 以实现有效管理 在实际应用中也必然会出现许多非技术 性 问题 而使这些产品形同虚设 当前 信息过滤技术在过滤网络不 良信息方面尚未达 到预期的目的 过滤的准确率还比较低 网络不良信息过 滤技术还有待进一步研究 包括文本倾向性的判定 信息 过滤的智能化 多媒体信息过滤等 随着技术的进步 网 络不良信息过滤方式与技术将不断增多也将不断完善 从 而真正实现 绿色上网 口 参考文献 1 林 阳 祝智庭 网络教育 内容分级标 准研究 J 现代 教 育技术 2 0 0 5 5 3 8 43 2 黄晓斌 邱 明辉 网络信息 过滤方法 的 比较研 究 J 大 学 图书馆 2 0 0 5 1 4 2 48 3 符敏慧 基于文本 的信息 过滤模 型 J 图书馆 理论与 实 践 2 0 0 6 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论