多媒体内容识别_第1页
多媒体内容识别_第2页
多媒体内容识别_第3页
多媒体内容识别_第4页
多媒体内容识别_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不良图片分析系统方案目 录第1章需求分析21.1背景21.2ICP面对的挑战2第2章不良图片分析系统解决方案42.1技术原理42.2技术指标62.3部署方案7第3章投资及回报83.1系统投资83.2投资回报8第4章附录:新浪应用案例9第5章附录:公司简介10第1章 需求分析1.1 背景截至2009年6月底,我国网民数量已达3.38亿人,网站数达306.1万个,博客用户数也达1.81亿人。(来源:CNNIC。)互联网内容的迅猛增长,给内容监管提出了严峻的挑战。互联网有别于传统媒体,互动性、实时性强,传播速度快,覆盖性广,数据类型多种多样,其中滋生了大量的色情低俗内容,严重危害了青少年的身心健康。前一段时间,谷歌网络搜索含有低俗信息的争议一直是网络上热议的话题,然而谷歌“消毒”并非一件容易的事情,尽管谷歌工程师做了“机器学习”系统作辅助,但也只是对低俗文字网页有用,而对那些社会影响更恶劣的色情图片仍显得无能为力,只能通过网民举报等非技术手段在事发之后做出响应,非常被动。国际网络搜索巨擎尚且不能很好解决的问题,对于其他网络内容、服务提供商来说其难度不言而喻。自2009年1月全国开展整治互联网低俗之风专项行动以来,一批批违规网站被曝光、整治和关闭,网上淫秽色情和低俗内容明显减少,行动取得了巨大的成果,网络文化环境明显改善。然而,近期新公布的一批违规网站名单中,我们仍能发现一些知名ICP内容提供商上榜,有识之士频频呼吁全社会参与,长期坚持,与网络色情低俗内容打一场持久战。网络色情低俗问题,受到广大社会以及媒体的广泛关注,CCTV焦点访谈也频频进行跟踪及讨论。1.2 ICP面对的挑战网络色情低俗问题,涉及的范围很广,涉及到网络及网络传输的各个环节,包括:运营商、内容提供商、各类网站、以及手机业务。ICP,具有自己的特点:集中运营,有固定的运营地点,具有大规模的业务及大规模的设备,设备集中、内容集中存放、内容更新一般采用用户上传的方式。ICP内容控制,最大的挑战是:数据量极大,采用人工的方式,不可能做到全面检查与控制,并且相应开销巨大。人工审核用户举报整治屏蔽用户上传审视目前的监管和防治体系,我们能发现一个发布-审核-举报-整治的基本链条。以博客应用为例,用户注册后发表文章、上传图像或视频文件,服务提供商采用各种事前事后的内容审核手段防堵可能的色情低俗内容,对于大中型网站而言,即便配备了人数众多的内容审核人员,在海量信息的上传和发布面前,也常常是有心无力,做不到全面、实时和准确的内容监管,以致于主要依赖于最终用户的举报和事后查处。前谷歌中国负责人李开复在接受记者采访时坦承没有好的技术手段进行自动化检测,只能推出用户举报机制来发现不良内容。具有讽刺意味的是,在这种模式下,是潜在的受害者来举报侵犯自己的内容,在被人工封杀之前,可能还会有更多人受到不良的伤害。究其原因,还是内容和应用提供商没有好的技术手段来防患于未然,御敌于城门之外。纵观全世界,针对色情图像和视频的自动化检测,是一个相当前沿的技术领域。在规定范式的图像模式识别领域,如针对文字的OCR,针对指纹、视网膜、号牌、工业零件等特定物件的识别已经相当成熟。但色情内容千差万别,难以提取统一和规范化的特征,所以成为一个具有高度挑战性的研究课题。第2章 不良图片分析系统解决方案雄智伟业的研发团队潜心耕耘于内容监控领域,早在2007年就意识到了色情图像检测的技术挑战,开始进行这方面的研究,经过近2年的反复摸索,终于研制成功了集准确度、智能化和高性能于一身的“网清”色情图像自动化检测技术,在多家电信运营商和信息提供商用户成功运用,取得了巨大的社会和经济效益。针对ICP的业务特点,推出:不良图片分析系统不良图片分析系统具有两项重要功能:1. 不良图片分析:用来分析淫秽色情图片2. 相似图片分析:用来进行图片比对,分析敏感图片特点:部署简便快捷。产品具有自主知识产权,提供标准TCP接口(提供API和命令行)。面向ICP,系统非常适合ICP对图片文件进行检查(ICP文件及图片存储非常集中,并且有统一的上传接口,这就为不良图片分析系统的部署提供了方便)。2.1 技术原理色情图像检测色情图像的识别,有别于传统特定范式的图像识别,具有模糊性、特征点数量多而且样式多样的特点。因此,网清采用了二级分离器的识别体系,在通过海量样本采样分析的基础上,形成了一个高度智能化的检测架构,如下图所示:预处理一级神经网络分离器二级向量机分离器无效正常色情疑似色情正常*通过一级神经网络分离器,首先分离出正常图像,其他图像进入二级向量机分离器,再分出色情、疑似色情和正常图像(可以调整评分机制)。采用二级分离器的优势是既可以提高分离速度,又能给出多层级结果,符合人类模糊判断的特点。神经网络分离器的特点是分类较粗,但速度快,在这一步就可以将大部分明显是正常的图像排除在外,减低了第二级算法密集型的向量机分离器的负担,在这一级,我们在海量色情图像样本采样、建模和综合分析的基础上,进一步将图像分类成色情、疑似色情和正常内容。针对在不同应用场景下对精确度要求的不同,第二级分离器不但给出了图像分级,而且给出了具体判据分值,用户能够根据判据分值排序,甚至调整图像分级的上下限分值,达到精确与模糊的完美结合。针对色情图像样式多变的特点,该算法还能通过样本训练,智能化提升对新种类的色情图像的识别能力,真正做到魔高一尺、道高一丈。敏感图像检测在ICP内容提供商的应用实践中,除了要防治淫秽色情内容,还要对一些敏感图像,如暴力、政治敏感、侵权、突发事件等特殊图像进行检测和判断。为此,网清解决方案中还具备图像相似度(相似度可调整)判断功能,能够有效应对水印、截取、缩放、色变等多种图像变形,检出与样本图像相似的图像, 在对敏感图片的处理方面我们采用了另一套分析系统,我们在系统中加入了样本库,通过与样本库图片进行DNA检索来完成敏感图片的分析,这样不管是经过拉伸等任何处理都可以进行判别。2.2 技术指标网清色情图像检测达到了业界领先水平,色情图像识别准确率大于90%,正常图像误判率小于2%。针对图像相似度的准确率更高达95%以上。对于ICP内容提供商,每天新增的数以万计的图像内容,数据量上T非常普遍。因此,检测算法的效率也非常重要,网清独特的二级分离体系在性能上比单级分离更高。在较低服务器配置下,色情图像检测的速率至少不低于1Mbyte/s,按通常图片大小,每秒检测图像数量可达50-500张;图像相似度检测速率不低于6Mbyte/s,每秒检测图像数量可达300-2000张。2.3 部署方案由于色情内容判断仍具有模糊的特点,不同的图像在不同的判断标准下,仍可能判断为不同的结果。因此,最佳实践是将机器判断和人工判断有效结合,形成综合防治方案。首先,通过机器判断,排除正常和明显色情的内容,将疑似色情的内容交由人工分拣。这种多层级的解决方案,能有效权衡防范和用户易用度的平衡。机器判断可将人工分拣的工作量降低10到20倍,从而大量节省监管成本。在更严格的应用场景下,也可完全采用机器自动化判断的机制,将色情和疑似色情全部自动屏蔽。网清开发的解决方案提供了一个实时图像检测引擎服务,可运行于Linux或Windows平台,提供API和命令行,ICP可将这套系统集成到现有的内容发布审核平台中,根据自身的情况,灵活定义内容通过和阻拦策略,根据实际情况,自行调整检测敏感度,自行管理敏感图像样本库,从而完美解决低俗内容监管的难题。第3章 投资及回报3.1 系统投资图片分析系统建设,相关费用(包括两部分):1.图片分析服务器:根据数据量(图片量)采用不同配置的服务器、2.图片分析系统软件:软件费用,按照CPU数量计算服务器配置参考数据:软件环境 后台: 操作系统-centos5硬件环境 后台: 硬盘:800G CPU:1.83HZ(2) 内存:2G 下面数据代表了一台该配置服务器可以处理的新增图片能力:160GB/天/每CPU测试时间文件总数量总大小(KB)用时(秒)返回结果数2010-1-49,397.00 299,400.00 264.00 9,397.00 2010-1-418,465.00 512,708.00 300.00 18,465.00 2010-1-492,225.00 2,899,968.00 1,036.00 92,225.00 2010-1-5112,736.00 3,616,712.00 1,507.00 112,736.00 每秒扫描文件数系统负载线程数带宽mbps带宽mBps36118.8600852271.107510653612.26213.351770831.6689713548912.61021.868725872.7335907347416.21318.74954382.3436929743.2 投资回报为了应对低俗内容监管,ICP内容提供商往往配置了人数众多的内容审核队伍,投入了高昂的人力、管理成本,并且还有很多相关开销(比如:工作环境成本、办公设备等)。采用网清色情低俗内容监管解决方案后,可将需人工审核内容降至原来的1/10、1/20甚至更高,从而可以大大降低成本,将有效和宝贵的物质资源及人力资源投入到更需要的领域。更重要的是,有了网清解决方案,在这场对低俗内容的持久战中,运营商掌握了坚实有效的武器,真正在战斗中处于不败之地。我们坚信,一个和谐、文明、健康的网络环境必将早日成为现实!第4章 附录:新浪应用案例典型案例新浪互动内容监测上图,为不良图片分析系统在新浪互动部门(相册+博客)的应用,图片监测已经于2009年12月16日上线。新浪是中国最著名的ICP之一,新浪的相册、博客具有广泛的客户群,极大的影响力,也具有极其庞大的数据量和访问量,在用户上传照片或者图片的时候,采用人工审核,工作量繁重,并且对时间的需求也非常突出,占用了大量的人力,并且相应增加了很多办公开销。在应用不良图片分析系统之后,大量图片进行了自动的排查,人工分拣只需对图片分析系统提交的那一部分,这样大大降低了工作量及相应开销。第5章 附录:公司简介北京雄智伟业科技公司成立于1998年,是专业的网络平台开发厂商,多年来从事网络服务器系统平台的研究开发、产品销售服务,公司本部地处北京中关村高科技园区,在上海、西安、郑州、等地均设有办事处及技术支持中心。 北京雄智伟业科技公司吸引了国内一批最早涉足IP网络技术的优秀人才,公司汇集了大批来自清华、北大、中科院的IT精英。早在2000年起就在国内不同领域开始进行IP网络的技术开发和商业运作。公司主营业务为计算机网络软件产品的开发与销售,兼营计算机软、硬件产品的销售、代理。公司主要的软件产品包括:不良图片分析系统、网清内容监控系统、电子邮件服务器、电子邮件安全网关、电子邮件归档系统、邮件订阅分发系统、短信应用平台、网络负载均衡系统等等。同时与众多国内外的IT厂商建立了良好的合作伙伴关系,与美国的NSS、Radtec、LSI、EuroLogic, 韩国的安博士公司建立了合作代理关系;在国内与神州数码、中国联想、TRS、东软集团、北大青鸟、太极集团、榕基企业、天时数码等业内知名公司也建立了良好的代理合作关系。公司客户遍及全国各个省市、地区,在电信、网络运营商、军队、政府、金融、企业、教育等各个行业都有大量的用户案例,在国内的软件行业建立了良好的声誉。我们真诚希望与您携手合作,共同走向成功。之前写过两篇科普文章,使用gdb调试程序入门篇和中级篇,今天打算把最后的一部分写完,就是所谓的高级篇。其实很简单,也没有多复杂。只是个人认为gdb的使用,掌握到这个地方,对于常规的调试需求就已经足够了。至于更高级的应用,肯定是多多益善。但是学习工具的目的就在于提高工作效率,没有必要为了技术而技术,技术永远都只是一种工具。不知道这个观点是否会被技术迷所鄙视,呵呵。不多废话了,言归正传。查看运行时数据在你调试程序时,当程序被停住时,你可以使用print命令(简写命令为p),或是同义命令inspect来查看当前程序的运行数据。print命令的格式是: print print / 是表达式,是你所调试的程序的语言的表达式(GDB可以调试多种编程语言),是输出的格式,比如,如果要把表达式按16进制的格式输出,那么就是/x。有时候,你需要查看一段连续的内存空间的值。比如数组的一段,或是动态分配的数据的大小。你可以使用GDB的“”操作符,“”的左边是第一个内存的地址的值,“”的右边则你你想查看内存的长度。例如,你的程序中有这样的语句:int *array = (int *) malloc (len * sizeof (int);于是,在GDB调试过程中,你可以以如下命令显示出这个动态数组的取值:p*arraylen的左边是数组的首地址的值,也就是变量array所指向的内容,右边则是数据的长度,其保存在变量len中,其输出结果,大约是下面这个样子的: (gdb) p*arraylen $1 = 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40输出格式一般来说,GDB会根据变量的类型输出变量的值。但你也可以自定义GDB的输出的格式。例如,你想输出一个整数的十六进制,或是二进制来查看这个整型变量的中的位的情况。要做到这样,你可以使用GDB的数据显示格式:x 按十六进制格式显示变量。 d 按十进制格式显示变量。 u 按十六进制格式显示无符号整型。 o 按八进制格式显示变量。 t 按二进制格式显示变量。 a 按十六进制格式显示变量。 c 按字符格式显示变量。 f 按浮点数格式显示变量。(gdb) p i $21 = 101 (gdb) p/a i $22 = 0x65 (gdb) p/c i $23 = 101 e (gdb) p/f i $24 = 1.41531145e-43 (gdb) p/x i $25 = 0x65 (gdb) p/t i $26 = 1100101查看内存你可以使用examine命令(简写是x)来查看内存地址中的值。x命令的语法如下所示: x/ n、f、u是可选的参数。 n 是一个正整数,表示显示内存的长度,也就是说从当前地址向后显示几个地址的内容。 f 表示显示的格式,参见上面。如果地址所指的是字符串,那么格式可以是s,如果地十是指令地址,那么格式可以是i。 u 表示从当前地址往后请求的字节数,如果不指定的话,GDB默认是4个bytes。u参数可以用下面的字符来代替,b表示单字节,h表示双字节,w表示四字节,g表示八字节。当我们指定了字节长度后,GDB会从指内存定的内存地址开始,读写指定字节,并把其当作一个值取出来。 表示一个内存地址。 n/f/u三个参数可以一起使用。例如: 命令:x/3uh 0x54320 表示,从内存地址0x54320读取内容,h表示以双字节为一个单位,3表示三个单位,u表示按十六进制显示。5.1.1 1. 查看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论