如何把日志导入到excel文档图文教程(含url去重).docx_第1页
如何把日志导入到excel文档图文教程(含url去重).docx_第2页
如何把日志导入到excel文档图文教程(含url去重).docx_第3页
如何把日志导入到excel文档图文教程(含url去重).docx_第4页
如何把日志导入到excel文档图文教程(含url去重).docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

程序人生程序人生论坛飞翔网以下内容是从日志合并拆分一直到导入excel,然后进行百度抓取url去重的全过程,因此用到了不少知识,为了更多初入门的朋友明白,请参考以下几个贴子。我是用Ubuntu下的linux进行日志拆分的,所以有兴趣的朋友请点击Ubuntu和lynx安装指南(图文攻略)日志分析的方法是采用zhiping版主的Linux下使用grep命令分析网站日志虚拟机上文件与win主机共享的方法wmware下ubuntu共享文件夹之手把手教程。(日志分析必备)一,进入终端,输入cd /mnt/hgfs进入共享文件夹,我的共享文件目录是gnbase,所以我接着输入cd gnbase 注:ls是查看文件及目录命令。2011-3-10 14:56:52 上传下载附件 (27.31 KB) 二,合并和拆分相关日志(Linux下使用grep命令分析网站日志)输入cat *.log 3.log(把所有的log日志合并为3.log)输入grep Baiduspider+ 3.log baiduspider.log (拆分3.log中的百度蜘蛛日志)2011-3-10 14:56:53 上传下载附件 (29.08 KB) 三,退出虚拟机,进入我们的XP主机上,可以看到我们刚刚的操作记录2011-3-10 14:56:53 上传下载附件 (17.08 KB) 四,此时我们就要把log或txt文件导入到excel中了。新建一个excel文档,点击 文件-打开 ,然后找到我们刚刚的文件baiduspider.log2011-3-10 14:56:55 上传下载附件 (43.57 KB) 五,然后就是相关选项的选择2011-3-10 14:56:56 上传下载附件 (22.47 KB) 2011-3-10 14:56:56 上传下载附件 (20.58 KB) 2011-3-10 14:56:57 上传下载附件 (23.1 KB) 通过以上操作,log日志就成功导入到excel文档中了。如下图2011-3-10 14:56:51 上传下载附件 (46.86 KB) 第二部分,url去重。有兴趣的同学可以同时参考波菜的如何查询唯一不重复抓取量,和zhiping版主的在火狐浏览器下将光年日志分析系统结果转到Excel分析 。1,进入虚拟机,进入共享目录后,输入命令grep Baiduspider+ 3.log | awk print $6 url.txt火这样就把3.log中的百度抓取的url提取到了url.txt,然后我们把url.txt导入到excel文档,如下图2011-3-10 15:44:58 上传下载附件 (38.63 KB) 2011-3-10 15:44:59 上传下载附件 (70.4 KB) 看来蜘蛛抓取我的首页量很大呀,呵呵2.点击 数据-筛选-高级筛选,然后出现选项,勾选选择不重复的记录,然后点确定,就得到如下结果。2011-3-10 15:45:01 上传下载附件 (56.85 KB) 2011-3-10 15:44:57 上传下载附件 (83.33 KB) 去重后,总共186个的百度抓取记录,现在只有22条,而且从里面可以看出很多是我已经robots掉的,依然在不停的抓取!最近以来,尝试用国平讲的用数据分析SEO,所以不可避免的用到excel,而我本人对技术是比较陌生的,所以往往一些简 单的方法我要从0学起,因此能体会到大部分的入门者的辛苦,更愿意把一些基础性的的SEO数据分析方法和大家分享。希望大家都乐于分享,让光年论坛成为 SEO数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论