云盘秒传原理的探讨——哈希查找与数据去重.docx_第1页
云盘秒传原理的探讨——哈希查找与数据去重.docx_第2页
云盘秒传原理的探讨——哈希查找与数据去重.docx_第3页
云盘秒传原理的探讨——哈希查找与数据去重.docx_第4页
云盘秒传原理的探讨——哈希查找与数据去重.docx_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云盘秒传原理的探讨哈希查找与数据去重用云盘存片的童鞋注意了,别以为你辛辛苦苦收集好几年的片存到云盘就高枕无忧了,根据“假秒传,真共享”原则,你秒传的文件是非常不保险的,很容易被河蟹,已经有童鞋表示存到云盘的片子被河蟹了。自己多年的“劳动成果”很有可能突然化为乌有!自己的“财产”突然被剥夺了你有脾气么?最近我也发现360云盘把片都删了,至少是不能在线播放,下载我不确定。想保住革命果实,赶紧看下边的方法,打造属于你自己的,独特的,不被河蟹的云盘片源。=前几天给360云盘传了一个华尔街之狼(无删减送审版,很暴力呦:/QICpnLPX3CLaX),但是是秒 传的,当时能想到肯定是服务器有了,但是它凭什么知道已经有?文件名?不可能,乱七八糟什么文件名都有,我改了一个试试,还是秒传究竟是什么原理呢?首先想到的是360云盘利用文件标识符之类,唯一的ID,有文件相关信息等,尤其是索引信息。但后来感觉不对,查了一下,原来标识符指的是文件名,那个概念应该是文件描述符。那是否是通过文件描述符来解决文件重复的问题呢?仔细想想,明显不是,很关键的一个问题其实是,文件索引,描述符,它唯一的标识你的硬盘中某文件的索引信息,在另一台机子上他就是另一个ID了,这是针对系统的而不是针对文件的。那么文件有什么唯一性呢?想起了mp3文件可以改属性,包括音乐家、专辑等,而且很多播放器是利用这个属性来自动匹配歌词等信息的。但是视频文件好像不是这样的。到这,常识已经用的差不多了,似乎没找到方向。其实通过过去网盘常用的贴一个链接大家都用,或者百度文库的收藏就可以知道,通过把同一个文件分发一些链接等假象,是可以让很多人 同时”拥有“的。不过看云盘需要角度更深一点,是不管你们共享不共享,传播不传播,只要文件相同,他都是只存一份(问题简单化,不考虑分布式和备份等现实 问题)。那他怎么做到的呢?是对比整个文件吗?如果真的去一个字节一个字节的完全不差的比较,那样 服务器不得憋死!其实,他只要比较HASH值就够了,联想我们去网上下东西,某些网站,是不是也经常看到HASH值呢。那计算HASH值是不是也得耗费 服务器资源呢,其实,HASH去重也是分粒度的,有文件去重,块去重,字节去重,粒度越细的准确率越高,相应的耗费服务器资源肯定也要多,这里只要文件级别的去重就够了, 有谁没事闲的(或者具备一定的知识而有能力)去修改一个音视频文件呢?太少了吧,对于大多数人,除了文件名,他的音视频文件无非就是网上流传的几个热门版 本,这样大家都用一个就够了,是不是很节约云盘资源呢?通过数十个视频数十G大规模的上传证实,虽然这些文件都“秒传”了,但是没那么迅速,说明检索庞大 的数据库是需要时间的,或者跟颗粒粗细有关系。“破解”秒传的办法:比如360云盘,把电影文件随便改哪怕一个字符,那应该就“秒传”不成了。这样仇视360的就可以通过不断上 传垃圾文件饱和攻击360网盘了(不过怕网速不够)。如果真的这种现象频繁了,他们可以把去重粒度转为字节级,这样你把一个字节改一百次,因为其他部分都 重复,所以只需增加99字节(问题简单化分析)的空间,不过考虑到文件太大,可能粒度需要把调整到块来应对又是另一个根据现实情况分析对策的问题了。个中细节,其实我也不是很了解,只是整合了一些知识进行了一个小猜想,不保证对,想解释的很透,还得再充电。补充测试:前边说的不是非常准确吧,hash码我不知道,但是回到mp3的问题上,mp3的文件头是有各种歌曲歌手信息的,也许人家去重就是通过这个文件头,这个是我知识范围能搞定的事。百度云盘下载了一个华尔街之狼插曲the money chant.mp3,秒传360云盘。用UE打开mp3文件,如图:挂到linuxcpp view plaincopy1. rootv:/mnt/hgfs/share2VM#cpTheMoneyChant.mp3/tmp2. rootv:/mnt/hgfs/share2VM#cd/tmp3. rootv:/tmp#ls4. at-spi2ssh-bCAlBYJZ2212VMwareDnDvmware-root-29661033755. pulse-2L9K88eMlGn7TheMoneyChant.mp3vmware-huhuhu6. pulse-PKdhtXMmr18nunity_support_test.0vmware-root用vi打开,把ID3(注意看上图)直接改成ID4: cpp view plaincopy1. rootv:/tmp#cpTheMoneyChant.mp3/mnt/hgfs/share2VM/TheMoneyChant_ID4.mp3传回去,不影响,能听,传360云盘,秒传失败 当然,这是改了二进制文件的,不是改文件名,至于改文件名行不行,你试试另外,不光ID3,后边的几个改了也有点效果(我这显示的效果有上传过程有网速,不过还是近乎秒传,不知道是不是网速太快了,有时候能到1M,估计 还是太快了,加上他在进度条出现之前耗了一阵子,所以刚看到进度条就快满了,有条件还是应该用电影测试,我硬盘太小,没存)。最后一个小规律就是,人家应该是存了一个数据库的,放索引用(也许就是文件头)。你刚上传一个个性化定制(ID4)的MP3文件,哪怕马上又删了,第二个和他一样的也能秒传了。那样貌似会出问题?你的删了,别人是“秒传”不是真传。那他也下载不到这个文件了,最后出现空有标题没有文件的尴尬怎么办?其实你只管删你的就行了,人家服务器还是存着呢,不光文件头存着,物理硬盘也躺着一份。可以”秒传“,就不可以“秒删”么?“秒删”又是一个假象,只是你对该文件的定向没了,人家服务器才懒得帮你删了又装,并且人家可以用来让别人“秒传”。至于为什么厂商做这么无私的事情(硬盘躺一堆没用的文件占地方):一方面,大家某日传文件,突然发现能秒传,是不是很开心呢?这对口碑和用户粘性都有好处。(不过也不一定就传多少垃圾“删除”后都给你保留,可能有一定的算法,比如你上传又删了的东西,长时间都没有人传相同的,这样也就没必要保留死数据在那了。)另一方面,让你秒传他也节省带宽啊。今天传高音质mp3,十兆以上的,全不是秒传。你传到云盘,说的通俗点,等于你把自己文件全传别人机子里去了,人家那一个目录写着mp3,一个目录写着avi的,说复制就复制,说分享就分享。最后人家就有了无数免费资源,免费上传?是免费打工,替人家收集资源了。你就不怕哪天人家云盘运营商突然开个资源发布(并且设法避免版权纠纷)什么的?其实现在人家也在积极推动这个事,比如资源共享群什么的,一方面是让 你们重复“存储”相同内容,另一方面,可能把云盘里边“私人“存储的东西又取出来分享了,所以,你

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论