C#中处理网页等_第1页
C#中处理网页等_第2页
C#中处理网页等_第3页
C#中处理网页等_第4页
C#中处理网页等_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.用C#编写一个抓网页的应用程序作者: 发表时间: 2003-7-13 10:13:07本文利用C#和.NET提供的类来轻松创建一个抓取网页内容源代码的程序 。HTTP是WWW进行数据访问最基本的协议之一,在.NET的基本类型库类中提供了两个对象类:HTTPWebRequest和HTTPWebResponse,分别用来向某资源发送请求和获得响应。为了得到一个资源的内容,我们先指定一个想要抓取的URL地址,用HTTPWebRequest对象进行请求,用HTTPWebResponse对象接收响应的结果,最后用TextStream对象来提取我们想要的信息,并在控制台打印出来。 下面就是看看如何实现这

2、样的功能:第一步:打开VS.NET,点“文件”-“新建”-“项目”,项目类型选择“Visual C#项目”,模板选“Windows应用程序”,第二步:在Form1里加入Label1,Button1,TextBox1,TextBox2四个控件,TextBox2的Multiline属性改为True,第三步:在Form1窗体上点击右键,选“查看代码”,然后在最顶端输入: using System.IO; using System.Net; using System.Text; 在 private void button1_Click(object sender, System.EventArgs e

3、) 的括号之间输入下面的代码: byte buf = new byte38192; HttpWebRequest request = (HttpWebRequest)WebRequest.Create(textBox1.Text); HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream resStream = response.GetResponseStream(); int count = resStream.Read(buf, 0, buf.Length); textBox2.Text = Enc

4、oding.Default.GetString(buf, 0, count); resStream.Close(); 第四步:点“Save all”按钮,按“F5”运行应用程序,在“请输入URL地址:”后面的单行文本框里输入/down.htm,点击“得到 HTML 代码”按钮,就可以看到该地址的代码了!下面,我们就对上面的程序做一个分析:上面的这个程序的功能是抓取网页/down.htm的内容,并在多行文本框里显示出HTML代码,由于返回的数据是字节类型的,因此,我们创建一个名为buf的字节类型的数组变量来存

5、储请求返回来的结果,其中数组的大小与我们要请求返回的数据大小有关系。首先,我们实例化HttpWebRequest对象,使用WebRequest类的静态方法Create(),该方法的字符串参数就是我们要请求页面的URL地址,由于Create()方法返回的是WebRequest类型的,我们必须对它进行造型(即类型转换)成HttpWebRequest类型,再赋给request变量。一旦我们建立了HttpWebRequest对象,就可以使用它的GetResponse()方法来返回一个WebResponse对象,然后再造型成HttpWebResponse对象赋给response变量。现在,就可以使用re

6、sponse对象的GetResponseStream()方法来得到响应的文本流了,最后用Stream对象的Read()方法把返回的响应信息放到我们最初创建的字节数组buf中,Read()有3个参数,分别是:要放入的字节数组,字节数组的开始位置,字节数组的长度。最后把字节转换成字符串,注意:这里采用的采用的是Default编码,它使用默认的编码方式,我们就不用再进行字符编码之间的转换了。也可以利用WebRequest和WebResponse实现以上的功能,代码如下: WebRequest request = WebRequest.Create(textBox1.Text); WebRespons

7、e response =request.GetResponse(); 输入其它的URL看看是不是很方便! C#编码标准编码习惯 cuike519(翻译)1. 避免将多个类放在一个文件里面。 2. 一个文件应该只有一个命名空间,避免将多个命名空间放在同一个文件里面。3. 一个文件最好不要超过500行的代码(不包括机器产生的代码)。4. 一个方法的代码长度最好不要超过25行。5. 避免方法中有超过5个参数的情况。使用结构来传递多个参数。6. 每行代码不要超过80个字符。7. 不要手工的修改机器产生的代码。a) 如果需要编辑机器产生的代码,编辑格式和风格要符合该编码标准。b) Use partial

8、 classes whenever possible to factor out the maintained portions. 8. 避免利用注释解释显而易见的代码。a) 代码应该可以自解释。好的代码由可读的变量和方法命名因此不需要注释。9. Document only operational assumptions, algorithm insights and so on. 10. 避免使用方法级的文档。a) 使用扩展的API文档说明之。b) 只有在该方法需要被其他的开发者使用的时候才使用方法级的注释。(在C#中就是/)11. 不要硬编码数字的值,总是使用构造函数设定其值。12. 只有

9、是自然结构才能直接使用const,比如一个星期的天数。13. 避免在只读的变量上使用const。如果想实现只读,可以直接使用readonly。public class MyClass public readonly int Number; public MyClass(int someValue) Number = someValue; public const int DaysInWeek = 7; 14. 每个假设必须使用Assert检查a) 平均每15行要有一次检查(Assert)using System.Diagnostics; object GetObject() object ob

10、j = GetObject(); Debug.Assert(obj != null); 15. 代码的每一行都应该通过白盒方式的测试。16. 只抛出已经显示处理的异常。17. 在捕获(catch)语句的抛出异常子句中(throw),总是抛出原始异常维护原始错误的堆栈分配。catch(Exception exception) MessageBox.Show(exception.Message); throw ; /和throw exception一样。 18. 避免方法的返回值是错误代码。19. 尽量避免定义自定义异常类。20. 当需要定义自定义的异常时:a) 自定义异常要继承于Applicat

11、ionException。b) 提供自定义的序列化功能。21. 避免在单个程序集里使用多个Main方法。22. 只对外公布必要的操作,其他的则为internal。23. Avoid friend assemblies, as it increases inter-assembly coupling.24. Avoid code that relies on an assembly running from a particular location. 25. 使应用程序集尽量为最小化代码(EXE客户程序)。使用类库来替换包含的商务逻辑。26. 避免给枚举变量提供显式的值。/正确方法 publi

12、c enum Color Red,Green,Blue /避免public enum Color Red = 1,Green = 2,Blue = 3 27. 避免指定特殊类型的枚举变量。/避免 public enum Color : long Red,Green,Blue 28. 即使if语句只有一句,也要将if语句的内容用大括号扩起来。29. 避免使用trinary条件操作符。30. 避免在条件语句中调用返回bool值的函数。可以使用局部变量并检查这些局部变量。bool IsEverythingOK() /避免 if (IsEverythingOK () /替换方案 bool ok = I

13、sEverythingOK(); if (ok) 31. 总是使用基于0开始的数组。32. 在循环中总是显式的初始化引用类型的数组。public class MyClass MyClass array = new MyClass100; for(int index = 0; index array.Length; index+) arrayindex = new MyClass(); 33. 不要提供public 和 protected的成员变量,使用属性代替他们。34. 避免在继承中使用new而使用override替换。35. 在不是sealed的类中总是将public 和 protecte

14、d的方法标记成virtual的。36. 除非使用interop(COM+ 或其他的dll)代码否则不要使用不安全的代码(unsafe code)。37. 避免显示的转换,使用as操作符进行兼容类型的转换。Dog dog = new GermanShepherd(); GermanShepherd shepherd = dog as GermanShepherd; if (shepherd != null ) 38. 当类成员包括委托的时候a) Copy a delegate to a local variable before publishing to avoid concurrency r

15、ace condition. b) 在调用委托之前一定要检查它是否为nullpublic class MySource public event EventHandler MyEvent; public void FireEvent() EventHandler temp = MyEvent; if(temp != null ) temp(this,EventArgs.Empty); 39. 不要提供公共的事件成员变量,使用事件访问器替换这些变量。public class MySource MyDelegate m_SomeEvent ; public event MyDelegate Som

16、eEvent add m_SomeEvent += value; remove m_SomeEvent -= value; 40. 使用一个事件帮助类来公布事件的定义。 41. 总是使用接口。42. 类和接口中的方法和属性至少为2:1的比例。43. 避免一个接口中只有一个成员。44. 尽量使每个接口中包含35个成员。45. 接口中的成员不应该超过20个。a) 实际情况可能限制为12个 46. 避免接口成员中包含事件。47. 避免使用抽象方法而使用接口替换。48. 在类层次中显示接口。49. 推荐使用显式的接口实现。50. 从不假设一个类型兼容一个接口。Defensively query for

17、 that interface.SomeType obj1; IMyInterface obj2; /* 假设已有代码初始化过obj1,接下来 */ obj2 = obj1 as IMyInterface; if (obj2 != null) obj2.Method1(); else /处理错误 51. 表现给最终用户的字符串不要使用硬编码而要使用资源文件替换之。52. 不要硬编码可能更改的基于配置的字符串,比如连接字符串。53. 当需要构建长的字符串的时候,使用StringBuilder不要使用string54. 避免在结构里面提供方法。a) 建议使用参数化构造函数b) 可以重裁操作符55.

18、 总是要给静态变量提供静态构造函数。56. 能使用早期绑定就不要使用后期绑定。57. 使用应用程序的日志和跟踪。58. 除非在不完全的switch语句中否则不要使用goto语句。59. 在switch语句中总是要有default子句来显示信息(Assert)。int number = SomeMethod(); switch(number) case 1: Trace.WriteLine(Case 1:); break; case 2: Trace.WriteLine(Case 2:); break; default : Debug.Assert(false); break; 60. 除非在构

19、造函数中调用其他构造函数否则不要使用this指针。/ 正确使用this的例子 public class MyClass public MyClass(string message ) public MyClass() : this(hello) 61. 除非你想重写子类中存在名称冲突的成员或者调用基类的构造函数否则不要使用base来访问基类的成员。/ 正确使用base的例子public class Dog public Dog(string name) virtual public void Bark( int howLong) public class GermanShepherd : Do

20、g public GermanShe pherd(string name): base (name) override public void Bark(int howLong) base .Bark(howLong); 62. 基于模板的时候要实现Dispose()和Finalize()两个方法。63. 通常情况下避免有从System.Object转换来和由System.Object转换去的代码,而使用强制转换或者as操作符替换。class SomeClass /避免: class MyClass void SomeMethod(T t) object temp = t; SomeClass

21、 obj = (SomeClass)temp; / 正确: class MyClass where T : SomeClass void SomeMethod(T t) SomeClass obj = t; 64. 在一般情况下不要定影有限制符的接口。接口的限制级别通常可以用强类型来替换之。public class Customer /避免:public interface IList where T : Customer /正确:public interface ICustomerList : IList 65. 不确定在接口内的具体方法的限制条件。66. 总是选择使用C#内置(一般的gen

22、erics)的数据结构。 由于本人水平有限,如果在翻译中有什么错误我将本着疯狂英语的态度,随便说好了,但是一定要给出我合适的理由,谢谢让我丢脸。另外文章中有几处没有翻译,那是我实在翻不出来,我将原文放在那里希望高手指点!谢谢!C#书写规范一、命名对于理解应用程序的逻辑流,命名方案是最有影响力的一种帮助。名称应该说明“什么”而不是“如何”。通过避免使用公开基础实现(它们会发生改变)的名称,可以保留简化复杂性的抽象层。例如,可以使用 GetNextStudent(),而不是 GetNextArrayElement()。 命名原则是:选择正确名称时的困难可能表明需要进一步分析或定义项的目的。使名称足

23、够长以便有一定的意义,并且足够短以避免冗长。唯一名称在编程上仅用于将各项区分开。表现力强的名称是为了帮助人们阅读;因此,提供人们可以理解的名称是有意义的。不过,请确保选择的名称符合适用语言的规则和标准。以下几点是推荐的命名方法。1、方法、属性、变量规范 避免容易被主观解释的难懂的名称,如方面名 AnalyzeThis(),或者属性名 xxK8。这样的名称会导致多义性。 在面向对象的语言中,在类属性的名称中包含类名是多余的,如 Book.BookTitle。而是应该使用 Book.Title。 使用动词-名词的方法来命名对给定对象执行特定操作的例程,如 CalculateInvoiceTotal

24、()。 在允许函数重载的语言中,所有重载都应该执行相似的函数。 只要合适,在变量名的末尾或开头加计算限定符(Avg、Sum、Min、Max、Index)。 在变量名中使用互补对,如 min/max、begin/end 和 open/close。 鉴于大多数名称都是通过连接若干单词构造的,请使用大小写混合的格式以简化它们的阅读。另外,为了帮助区分变量和例程,请对例程名称使用 Pascal 大小写处理 (CalculateInvoiceTotal),其中每个单词的第一个字母都是大写的。对于变量名,请使用 camel 大小写处理 (documentFormatType),其中除了第一个单词外每个单词

25、的第一个字母都是大写的。 布尔变量名应该包含 Is,这意味着 Yes/No 或 True/False 值,如 fileIsFound。 在命名状态变量时,避免使用诸如 Flag 的术语。状态变量不同于布尔变量的地方是它可以具有两个以上的可能值。不是使用 documentFlag,而是使用更具描述性的名称,如 documentFormatType。 (此项只供参考) 即使对于可能仅出现在几个代码行中的生存期很短的变量,仍然使用有意义的名称。仅对于短循环索引使用单字母变量名,如 i 或 j。 可能的情况下,尽量不要使用原义数字或原义字符串,如 For i = 1 To 7。而是使用命名常数,如 F

26、or i = 1 To NUM_DAYS_IN_WEEK 以便于维护和理解。 二、代码书写规范格式化使代码的逻辑结构很明显。花时间确保源代码以一致的逻辑方式进行格式化,这对于您和你的开发小组,以及以后维护源代码的其他开发人员都有很大的帮助。以下几点是推荐的格式化方法。 建立标准的缩进大小(如四个空格),并一致地使用此标准。用规定的缩进对齐代码节。 在发布源代码的硬拷贝版本时使用特定的字体以及字号(新宋体、小五号)。 在括号对对齐的位置垂直对齐左括号和右括号,如: for (i = 0; i 100; i+) ;也可以使用倾斜样式,即左括号出现在行尾,右括号出现在行首,如: for (i = 0

27、; i 100; i+);无论选择哪种样式,请在整个源代码中使用那个样式。 沿逻辑结构行缩进代码。没有缩进,代码将变得难以理解,如: if(expression )/此处填写你的代码块;/if(expression )/此处填写你的代码块;/else/此处填写你的代码块;/缩进代码会产生出更容易阅读的代码,如: if(expression ) if(expression )/此处填写你的代码块;/else/此处填写你的代码块;/ 为注释和代码建立最大的行长度,以避免不得不滚动源代码编辑器,并且可以提供整齐的硬拷贝表示形式。 在大多数运算符之前和之后使用空格,这样做时不会改变代码的意图。但是,C

28、+ 中使用的指针表示法是一个例外。 使用空白为源代码提供结构线索。这样做会创建代码“段”,有助于读者理解软件的逻辑分段。 当一行内容太长而必须换行时,在后面换行代码中要使用缩进格式,如下:string inserString = Insert Into TableName(username,password,email,sex,address)+ Values(Soholife,chenyp,,male,深圳福田); 只要合适,每一行上放置的语句避免超过一条。例外是 C、C+、C# 或 JScript 中的循环,如 for (i = 0; i 100; i+)。

29、 编写 HTML 时,建立标准的标记和属性格式,如所有标记都大写或所有属性都小写。另一种方法是,坚持 XHTML 规范以确保所有 HTML 文档都有效。尽管在创建 Web 页时需折中考虑文件大小,但应使用带引号的属性值和结束标记以方便维护。 编写 SQL 语句时,对于关键字使用全部大写,对于数据库元素(如表、列和视图)使用大小写混合。 在物理文件之间在逻辑上划分源代码。 将每个主要的 SQL 子句放在不同的行上,这样更容易阅读和编辑语句,例如: SELECT FirstName, LastNameFROM CustomersWHERE State = WA 将大的复杂代码段分为较小的、易于理解

30、的模块。 三、注释软件文档以两种形式存在:外部的和内部的。外部文档(如规范、帮助文件和设计文档)在源代码的外部维护。内部文档由开发人员在开发时在源代码中编写的注释组成。不考虑外部文档的可用性,由于硬拷贝文档可能会放错地方,源代码清单应该能够独立存在。外部文档应该由规范、设计文档、更改请求、错误历史记录和使用的编码标准组成。内部软件文档的一个难题是确保注释的维护与更新与源代码同时进行。尽管正确注释源代码在运行时没有任何用途,但这对于必须维护特别复杂或麻烦的软件片段的开发人员来说却是无价的。以下几点是推荐的注释方法: 如果用 C# 进行开发,请使用 XML 文档格式,如下面方法的注释:/ / 得到

31、某人的年龄/ / 用户名/ 用户年龄public int GetUserAge(string userName)/此处写你的程序代码/ 修改代码时,总是使代码周围的注释保持最新。 在每个例程的开始,提供标准的注释样本以指示例程的用途、假设和限制很有帮助。注释样本应该是解释它为什么存在和可以做什么的简短介绍。 避免在代码行的末尾添加注释;行尾注释使代码更难阅读。不过在批注变量声明时,行尾注释是合适的;在这种情况下,将所有行尾注释在公共制表位处对齐。 避免杂乱的注释,如一整行星号。而是应该使用空白将注释同代码分开。 避免在块注释的周围加上印刷框。这样看起来可能很漂亮,但是难于维护。 在部署之前,移

32、除所有临时或无关的注释,以避免在日后的维护工作中产生混乱。 如果需要用注释来解释复杂的代码节,请检查此代码以确定是否应该重写它。尽一切可能不注释难以理解的代码,而应该重写它。尽管一般不应该为了使代码更简单以便于人们使用而牺牲性能,但必须保持性能和可维护性之间的平衡。 在编写注释时使用完整的句子。注释应该阐明代码,而不应该增加多义性。 在编写代码时就注释,因为以后很可能没有时间这样做。另外,如果有机会复查已编写的代码,在今天看来很明显的东西六周以后或许就不明显了。 避免多余的或不适当的注释,如幽默的不主要的备注。 使用注释来解释代码的意图。它们不应作为代码的联机翻译。 注释代码中不十分明显的任何

33、内容。 为了防止问题反复出现,对错误修复和解决方法代码总是使用注释,尤其是在团队环境中。 对由循环和逻辑分支组成的代码使用注释。这些是帮助源代码读者的主要方面。 在整个应用程序中,使用具有一致的标点和结构的统一样式来构造注释。 用空白将注释同注释分隔符分开。在没有颜色提示的情况下查看注释时,这样做会使注释很明显且容易被找到。 C#如何取硬件标志版权所有 2003-2005发表时间:2005-1-1 关键字:未知using System;using System.Runtime.InteropServices;using System.Management;namespa

34、ce Hardware/ / Hardware_Mac 的摘要说明。/ public class HardwareInfo /取机器名 public string GetHostName() return System.Net.Dns.GetHostName(); /取CPU编号 public String GetCpuID() try ManagementClass mc = new ManagementClass(Win32_Processor); ManagementObjectCollection moc = mc.GetInstances(); String strCpuID = n

35、ull ; foreach( ManagementObject mo in moc ) strCpuID = mo.PropertiesProcessorId.Value.ToString(); break; return strCpuID; catch return ; /end method /取第一块硬盘编号 public String GetHardDiskID() try ManagementObjectSearcher searcher = new ManagementObjectSearcher(SELECT * FROM Win32_PhysicalMedia); String

36、 strHardDiskID = null ; foreach(ManagementObject mo in searcher.Get() strHardDiskID = moSerialNumber.ToString().Trim(); break; return strHardDiskID ; catch return ; /end public enum NCBCONST NCBNAMSZ =16, /* absolute length of a net name */ MAX_LANA =254, /* lanas in range 0 to MAX_LANA inclusive */

37、 NCBENUM =0x37, /* NCB ENUMERATE LANA NUMBERS */ NRC_GOODRET =0x00, /* good return */ NCBRESET =0x32, /* NCB RESET */ NCBASTAT =0x33, /* NCB ADAPTER STATUS */ NUM_NAMEBUF =30, /* Number of NAMEs BUFFER */ StructLayout(LayoutKind.Sequential) public struct ADAPTER_STATUS MarshalAs(UnmanagedType.ByValA

38、rray, SizeConst=6) public byte adapter_address; public byte rev_major; public byte reserved0; public byte adapter_type; public byte rev_minor; public ushort duration; public ushort frmr_recv; public ushort frmr_xmit; public ushort iframe_recv_err; public ushort xmit_aborts; public uint xmit_success;

39、 public uint recv_success; public ushort iframe_xmit_err; public ushort recv_buff_unavail; public ushort t1_timeouts; public ushort ti_timeouts; public uint reserved1; public ushort free_ncbs; public ushort max_cfg_ncbs; public ushort max_ncbs; public ushort xmit_buf_unavail; public ushort max_dgram

40、_size; public ushort pending_sess; public ushort max_cfg_sess; public ushort max_sess; public ushort max_sess_pkt_size; public ushort name_count; StructLayout(LayoutKind.Sequential) public struct NAME_BUFFER MarshalAs(UnmanagedType.ByValArray, SizeConst=(int)NCBCONST.NCBNAMSZ) public byte name; publ

41、ic byte name_num; public byte name_flags; StructLayout(LayoutKind.Sequential) public struct NCB public byte ncb_command; public byte ncb_retcode; public byte ncb_lsn; public byte ncb_num; public IntPtr ncb_buffer; public ushort ncb_length; MarshalAs(UnmanagedType.ByValArray, SizeConst=(int)NCBCONST.NCBNAMSZ) public byte ncb_callname; MarshalAs(UnmanagedType.ByValArray, SizeConst=(int)NCBCONST.NCBNAMSZ) public byte ncb_name; public byte ncb_rto; public byte ncb_sto; public IntPtr ncb_post

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论