解析Html生成标签树

上传人：s*** IP属地：天津上传时间：2022-01-25 格式：DOC 页数：9 大小：42KB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、解析 Html 生成标签树解析 Html 生成标签树（一）2011 -04-01 09:10:24|分类：HTML | 标签：tag stack ilevel文本 htmltag | 字号大中小订阅解析 Html 成标签树结构以后，我们不但可以很容易取得想要的元素，同时也很容易将 Html 转换成对应的 XML 文件。但是由于代码是在公司写的，所以没有粘贴出来的可能性，所以我只能给出大概的代码流程，具体细节描述，相信各位都很容易写出来，并且写的比我好，关键的是算法实现思想。算法的关键如下：1. Html 中每个 tag 都是都将作为树中的一个节点存在的，每个 tag 都

2、属于树中的某一层。2. 辅助数据结构：栈（ stack ）、List、HashTable 。其中 HashTablei （i 属于 int 类型）是一个 Li st ，用于临时存储第 i 层子 Tag 。3. 顺序扫描Html文本，当遇到” 0) HtmlTag tag = null; while (Stack.Count 0) tag = Stack.Pop(); PopTag(tag); / 最后一个元素作为根元素 if (tag != null) m_listRoot.Add(tag); private void PopTag(HtmlTag tag) int iLevel = Sta

3、ck.Count; / 找到了元素，把 iLevel 到 m_IMaxLevel 中所有的元素按照全部作为 tag 的子元素 for (int i = iLevel + 1; i m_iMaxLevel; i+) for (j = 0; j 0) / 将文本作为一个普通 Tag 入栈 Stack.Push(new HtmlTextTag(m_CurrentText); HtmlTag tag =Stack.Pop(); / 元素出栈 int iLevel = Stack.Count; / 记录栈元素数 while (tag.Name != tagName) / 将 tag 放入第 iLe

4、vel 层的 List 中 HashTableiLevel.Add(tag); tag = Stack.Pop(); iLevel = Stack.Count; / 元素出栈后续处理 PopTag(tag); private HtmlTag GetTag() if (如果发现是= A) & (chiBeginPos = Index; / 记录开始位置/表示可能是一个标签HtmlTag tag = GetTag(); / 解析此 Tagif (tag != null)/首先判断是否有文本if (m_CurrentText.Lenght 0)/将文本作为一个普通 Tag 入栈 Stack.Push

5、(new HtmlTextTag(m_CurrentText);tag.BeginPos = iBeginPos; / 记录此 Tag 的开始位置 Stack.Push(tag); / 把 Tag 入栈ch = GetCurrentChar(); if (ch = /) /可能是结束标签 tagName = GetTagName(); /从上到下查看 Stack ，如果 Tag 中存在 if (FindInStack(tagName) /在栈中找到名为 tagName 的元素，则把找到的元素出栈 PopTag(tagName);else/对于 xxx 之间的文本 xxx ，这里将作为 Text

6、Tag 来处理 m_CurrentText.Append(GetCurrentChar();/继续处理下一个字符ch = MoveNext();/解析完成以后，如果栈不空，那么把元素出栈，并把最后一次出栈的元素作为根if (Stack.Count 0)HtmlTag tag = null;while (Stack.Count 0)tag = Stack.Pop();PopTag(tag);/最后一个元素作为根元素 if (tag != null) m_listRoot.Add(tag); private void PopTag(HtmlTag tag)int iLevel = Stack.C

7、ount;/找到了元素，把 iLevel 到 m_IMaxLevel 中所有的元素按照全部作为 tag 的子元素 for (int i = iLevel + 1; ifor (j = 0; j /表示栈已经为空，那么最后一次出栈的 tag 将作为根 if (Stack.Count = 0) m_listRoot.Add(tag);private void PopTag(string tagName)/* 元素出栈的时候，首先需要把当前已经存在了的 HtmlTextTag 入栈* 比如：文本段 1 文本段 2 文本段 3* 在 Parse 中，当解析出入栈前，需要先把文本段 1 入栈* 在这

8、里，解析出了结束标志* 那么首先需要把文本段 2 入栈。* 解析出则需要把文本段 3 入栈。* 这样才能够保证文本段 1 和文本段 3 成为的子节点，而文本段 2 作为的子节点*/ if (m_CurrentText.Lenght 0)/将文本作为一个普通 Tag 入栈Stack.Push(new HtmlTextTag(m_CurrentText); HtmlTag tag = Stack.Pop(); / 元素出栈 int iLevel = Stack.Count; / 记录栈元素数while (tag.Name != tagName)/将 tag 放入第 iLevel 层的

9、List 中 HashTableiLevel.Add(tag);tag = Stack.Pop();iLevel = Stack.Count;/元素出栈后续处理 PopTag(tag);private HtmlTag GetTag() if (如果发现是SkipComment();HtmlTag tag = new HtmlTag();tag.Name = GetTagName();/这里的 Attribute 我将其作为 HashTable 类型， Hash 属性名=属性值tag.Attribute = GetTagAttribute();return tag; 解析结束以后，通过访问 m_listRoot 就可以遍历出所有的节点了。上面仅仅是给出了大概的方法，不过我相信要将上面的方法转换成可运行代码，各位都是有这个能力的。。解析 Html 生成标签树(二)2011-04-01 09:12:08| 分类： HTML | 标签：解析 div html td 阿道夫 |字号大中小订阅前面两篇讲解了解析 Html

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

解析Html生成标签树

文档简介

温馨提示

最新文档

评论

解析Html生成标签树

文档简介

温馨提示

最新文档

评论

相关文档