Linux wget命令行的下载工具.doc_第1页
Linux wget命令行的下载工具.doc_第2页
Linux wget命令行的下载工具.doc_第3页
Linux wget命令行的下载工具.doc_第4页
Linux wget命令行的下载工具.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Linux wget命令行的下载工具对大家推荐很好使用的Linux wget命令系统,像让大家对Linux wget命令系统有所了解,然后对Linux wget命令系统全面讲解介绍,希望对大家有用Linux wget使用。 一 Linux wget简介wget是linux上的命令行的下载工具。这是一个GPL许可证下的自由软件。Linux wget支持HTTP和FTP协议,支持代理服务器和断点续传功能,能够自动递归远程主机的目录,找到合乎条件的文件并将其下载到本地硬盘上;如果必要,Linux wget将恰当地转换页面中的超级连接以在本地生成可浏览的镜像。由于没有交互式界面,Linux wget可在后台运行,截获并忽略HANGUP信号,因此在用户推出登录以后,仍可继续运行。通常,Linux wget用于成批量地下载Internet网站上的文件,或制作远程网站的镜像。 二 实例下载下载68首页并且显示下载信息Linux wget -d 68下载68首页并且不显示任何信息wget -q 68下载filelist.txt中所包含的链接的所有文件wget -i filelist.txt下载到指定目录wget -P/tmp ftp:/user:passwdurl/file把文件file下载到/tmp目录下。Linux wget是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 Linux wget 小技巧,可以让你更加高效而灵活的使用 Linux wget。* $ wget -r -np -nd /packages/这条命令可以下载 网站上 packages 目录中的所有文件。其中,-np 的作用是不遍历父目录,-nd 表示不在本机重新创建目录结构。* $ wget -r -np -nd -accept=iso /centos-5/i386/与上一条命令相似,但多加了一个 -accept=iso 选项,这指示Linux wget仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。* $ wget -i filename.txt此命令常用于批量下载的情形,把所有需要下载文件的地址放到 filename.txt 中,然后 Linux wget就会自动为你下载所有文件了。* $ wget -c /really-big-file.iso这里所指定的 -c 选项的作用为断点续传。* $ wget -m -k (-H) /该命令可用来镜像一个网站,Linux wget将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。三 参数代码:$ wget -helpGNU Wget 1.9.1,非交互式的网络文件下载工具。用法:Linux wget选项. URL.长选项必须用的参数在使用短选项时也是必须的。启动:1. -V,-version显示Wget的版本并且退出。 2. -h,-help打印此帮助。 3. -b,-background启动后进入后台操作。 4. -e,-execute=COMMAND运行.wgetrc形式的命令。日志记录及输入文件:1. -o,-output-file=文件将日志消息写入到指定文件中。 2. -a,-append-output=文件将日志消息追加到指定文件的末端。 3. -d,-debug打印调试输出。 4. -q,-quiet安静模式(不输出信息)。 5. -v,-verbose详细输出模式(默认)。 6. -nv,-non-verbose关闭详细输出模式,但不进入安静模式。 7. -i,-input-file=文件下载从指定文件中找到的URL。 8. -F,-force-html以HTML方式处理输入文件。 9. -B,-base=URL使用-F-i文件选项时,在相对链接前添加指定的URL。下载:1. -t,-tries=次数配置重试次数(0表示无限)。 2. -retry-connrefused即使拒绝连接也重试。 3. -O-output-document=文件将数据写入此文件中。 4. -nc,-no-clobber不更改已经存在的文件,也不使用在文件名后添加.#(#为数字)的方法写入新的文件。 5. -c,-continue继续接收已下载了一部分的文件。 6. -progress=方式选择下载进度的表示方式。 7. -N,-timestamping除非远程文件较新,否则不再取回。 8. -S,-server-response显示服务器回应消息。 9. -spider不下载任何数据。 10. -T,-timeout=秒数配置读取数据的超时时间(秒数)。 11. -w,-wait=秒数接收不同文件之间等待的秒数。 12. -waitretry=秒数在每次重试之间稍等一段时间(由1秒至指定的秒数不等)。 13. -random-wait接收不同文件之间稍等一段时间(由0秒至2*WAIT秒不等)。 14. -Y,-proxy=on/off打开或关闭代理服务器。 15. -Q,-quota=大小配置接收数据的限额大小。 16. -bind-address=地址使用本机的指定地址(主机名称或IP)进行连接。 17. -limit-rate=速率限制下载的速率。 18. -dns-cache=off禁止查找存于高速缓存中的DNS。 19. -restrict-file-names=OS限制文件名中的字符为指定的OS(操作系统)所允许的字符。目录:1. -nd-no-directories不创建目录。 2. -x,-force-directories强制创建目录。 3. -nH,-no-host-directories不创建含有远程主机名称的目录。 4. -P,-directory-prefix=名称保存文件前先创建指定名称的目录。 5. -cut-dirs=数目忽略远程目录中指定数目的目录层。HTTP 选项:1. -http-user=用户配置http用户名。 2. -http-passwd=密码配置http用户密码。 3. -C,-cache=on/off(不)使用服务器中的高速缓存中的数据(默认是使用的)。 4. -E,-html-extension将所有MIME类型为text/html的文件都加上.html扩展文件名。 5. -ignore-length忽略“Content-Length”文件头字段。 6. -header=字符串在文件头中添加指定字符串。 7. -proxy-user=用户配置代理服务器用户名。 8. -proxy-passwd=密码配置代理服务器用户密码。 9. -referer=URL在HTTP请求中包含“Referer:URL”头。 10. -s,-save-headers将HTTP头存入文件。 11. -U,-user-agent=AGENT标志为AGENT而不是Wget/VERSION。 12. -no-http-keep-alive禁用HTTPkeep-alive(持久性连接)。 13. -cookies=off禁用cookie。 14. -load-cookies=文件会话开始前由指定文件载入cookie。 15. -save-cookies=文件会话结束后将cookie保存至指定文件。 16. -post-data=字符串使用POST方法,发送指定字符串。 17. -post-file=文件使用POST方法,发送指定文件中的内容。HTTPS (SSL) 选项:1. -sslcertfile=文件可选的客户段端证书。 2. -sslcertkey=密钥文件对此证书可选的“密钥文件”。 3. -egd-file=文件EGDsocket文件名。 4. -sslcadir=目录CA散列表所在的目录。 5. -sslcafile=文件包含CA的文件。 6. -sslcerttype=0/1Client-Cert类型0=PEM(默认)/1=ASN1(DER) 7. -sslcheckcert=0/1根据提供的CA检查服务器的证书 8. -sslprotocol=0-3选择SSL协议;0=自动选择, 9. 1=SSLv22=SSLv33=TLSv1FTP 选项:1. -nr,-dont-remove-listing不删除“.listing”文件。 2. -g,-glob=on/off设置是否展开有通配符的文件名。 3. -passive-ftp使用“被动”传输模式。 4. -retr-symlinks在递归模式中,下载链接所指示的文件(连至目录则例外)。递归下载:1. -r,-recursive递归下载。 2. -l,-level=数字最大递归深度(inf或0表示无限)。 3. -delete-after删除下载后的文件。 4. -k,-convert-links将绝对链接转换为相对链接。 5. -K,-backup-converted转换文件X前先将其备份为X.orig。 6. -m,-mirror等效于-r-N-linf-nr的选项。 7. -p,-page-requisites下载所有显示完整网页所需的文件,例如图像。 8. -strict-comments打开对HTML备注的严格(SGML)处理选项。递归下载时有关接受/拒绝的选项:1. -A,-accept=列表接受的文件样式列表,以逗号分隔。 2. -R,-reject=列表排除的文件样式列表,以逗号分隔。 3. -D,-domains=列表接受的域列表,以逗号分隔。 4. -exclude-domains=列表排除的域列表,以逗号分隔。 5. -follow-ftp跟随HTML文件中的FTP链接。 6. -follow-tags=列表要跟随的HTML标记,以逗号分隔。 7. -G,-ignore-tags=列表要忽略的HTML标记,以逗号分隔。 8. -H,-span-hosts递归时可进入其它主机。 9. -L,-relative只跟随相对链接。 10. -I,-include-directories=列表要下载的目录列表。 11. -X,-exclude-directories=列表要排除的目录列表。 12. -np,-no-parent不搜索上层目录。四 FQAA.使用wget工具linux所以的主要版本都自带了Linux wget这个下载工具.bash$ wget http:/place.your.url/here它还能控制ftp来下载整个web站点的各级目录,当然,如果你不小心,可能会把整个网站以及其他和他做链接的网站全部下载下来.bash$ wget -m http:/target.web.site/subdirectory由于这个工具具有很强的下载能力,所以可以在服务器上把它用作镜像网站的工具.让它按照”robots.txt”的规定来执行.有很多参数用来控制它如何正确地做镜像,可以限制链接的类型和下载文件的类型等等.例如:只下载有联系的链接并且忽略GIF图片:bash$ wget -m -L reject=gif http:/target.web.site/subdirectoryLinux wget也能够实现断点续传(-c参数),当然,这种操作是需要远程服务器支持的.bash$ wget -c http:/the.url.of/incomplete/file可以把断点续传和镜像功能结合起来,这样可以在以前断过多次的情况下继续镜像一个有大量选择性文件的站点.如何自动实现这个目的我们在后面会讨论得更多.如果你觉得下载时老是断线会影响你办公的话,你可以限制Linux wget重试的次数.bash$ wget -t 5 http:/place.your.url/here这样重试五次后就放弃了.用”-t inf”参数表示永远不放弃.不停地重试.B那对于代理服务该怎么办呢?可以使用http代理的参数或者在.wgetrc配置文件里指定一个如何通过代理去下载的途径.但是有这么一个问题,如果通过代理来进行断点续传的话可能会有几次失败.如果有一次通过代理下载的过程发生中断,那么代理服务器上缓存里保存是那个完整的文件拷贝. 所以当你用”wget -c”来下载剩余部分的时候代理服务器查看它的缓存,并错误地认为你已经下载了整个文件.于是就发出了错误的信号.这个时候你可以用添加一个特定的请求参数来促使代理服务器清除他们的缓存:bash$ wget -c header=”Pragma: no-cache” http:/place.your.url/here这个”header”参数能够以各种数字,各种方式添加。通过它我们可以更改web服务器或者代理服务器的某些属性。有些站点不提供外部连接的文件服务,只有通过同一个站点上其他的一些页面时内容才会被提交。这个时候你可以用加上”Referer:”参数:bash$ wget header=”Referer: http:/coming.from.this/page” http:/surfing.to.this/page有些特殊的网站只支持某种特定的浏览器,这个时候可以用”User-Agent:”参数bash$ wget header=”User-Agent: Mozilla/4.0 (compatible; MSIE 5.0;Windows NT; DigExt)” http:/msie.only.url/hereC那我怎么设定下载时间呢?如果你需要在你的办公电脑上通过和其他同事共享的一个连接来下载一些很大的文件,而且你希望你的同事不会因为网络速度的减慢而收到影响,那你就应该尽量避开高峰时段。当然,不需要在办公室里等到所以人都走掉,也不需要在家里用完晚饭后还惦记着要上网下载一次。用at来就可以很好的定制工作时间:bash$ at 23:00warning: commands will be executed using /bin/shat wget http:/place.your.url/hereat press Ctrl-D这样,我们设定了下载工作在晚上11点进行。为了使这个安排能够正常进行,请确认atd这个后台程序正在运行。D下载要花很多时间?当你需要下载大量的数据,而且你又没有享有足够的带宽,这个时候你会经常发现在你安排的下载任务还没有完成,一天的工作却又要开始了。作为一个好同事,你只能停掉了这些任务,而开始另外的工作。然后你又需要反复地重复使用”wget -c”来完成你的下载。这样肯定太繁琐了,所以最好是用crontab来自动执行。创建一个纯文本文件,叫做”crontab.txt”,包含下面的内容:0 23 * * 1-5 wget -c -N http:/place.your.url/here0 6 * * 1-5 killall wgetz这个crontab文件指定某些任务定期地执行。前五列声明是什么时候执行这个命令,而每行的剩余部分则告诉crontab执行什么内容。前两列指定了每天一到晚上11点就开始用Linux wget下载,一到早上6点就停止一切Linux wget下载。第三四列的*表示每个月的每一天都执行这个任务。第五列则指定了一个星期的哪几天来执行这个程序。 ”1-5表示从星期一到星期五。这样在每个工作日的晚上11点,下载工作开始,到了上午的6点,任何的Linux wget任务就被停掉了。你可以用下面的命令来执行crontab:bash$ crontab crontab.txtLinux wget的这个”-N”参数将会检查目标文件的时间戳,如果匹配了,下载程序就会停止,因为它说明整个文件已经下载完全了。用”crontab -r”可以删除这个计划安排。我已经多次采用这种方法,通过共享的电话拨号来下载过很多的ISO镜像文件,还是比较实用的。E如何下载动态变化的网页有些网页每天都要根据要求变化好几次.所以从技术上讲,目标不再是一个文件,它没有文件长度.因此”-c”这个参数也就失去了意义.例如:一个PHP写的并且经常变动的linux周末新闻网页:bash$ wget /bigpage.php3我办公室里的网络条件经常很差,给我的下载带了很大的麻烦,所以我写了个简单的脚本来检测动态页面是否已经完全更新了.1. #!/bin/bash 2. #createitifabsent 3. touchbigpage.php3 4. #checkifwegotthewholething 5. while!grep-qibigpage.php3 6. do 7. rm-fbigpage.php3 8. #downloadLWNinonebigpage 9. wget/bigpage.php3 10. done这个脚本能够保证持续的下载该网页,直到网页里面出现了 ,这就表示该文件已经完全更新了.F对于ssl和Cookies怎么办?如果你要通过ssl来上网,那么网站地址应该是以”https:/”来开头的.在这样的情况下你就需要另外一种下载工具,叫做curl,它能够很容易获得.有些网站迫使网友在浏览的时候必须使用cookie.所以你必须从在网站上得到的那个 Cookie里面得到”Cookie:”这个参数.这样才能保证下载的参数正确.对于lynx和Mozilla的Cookie的文件格式,用下面的:bash$ cookie=$( grep nytimes /.lynx_cookies |awk printf(”%s=%s;”,$6,$7) )就可以构造一个请求Cookie来下载上的内容.当然,你要已经用这个浏览器在该网站上完成注册.w3m使用了一种不同的,更小巧的Cookie文件格式:bash$ cookie=$( grep nytimes /.w3m/cookie |awk printf(”%s=%s;”,$2,$3) )现在就可以用这种方法来下载了:bash$ wget header=”Cookie: $cookie” /reuters/technology/tech-tech-supercomput.html或者用curl工具:bash$ curl -v -b $cookie -o supercomp.html /reuters/technology/tech-tech-supercomput.htmG如何建立地址列表?到现在为止我们下载的都是单个文件或者是整个网站.有的时候我们需要下载某个网页上链接的大量文件,但没有必要把它整个网站都镜像下来.比如说我们想从一个依次排列的100首歌里面下载前20首.注意,这里”accept”和”reject”参数是不会起作用的, 因为他们只对文件操作起作用.所以一定要用”lynx -dump”参数来代替.bash$ lynx -dump /pub/lg/ |grep gz$ |tail -10 |awk print $2 urllist.txtlynx的输出结果可以被各种GNU文本处理工具过虑.在上面的例子里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论