[转载]网站采集 – jyshi – 博客园

网站采集 - jyshi - 博客园. 一、采集器的制作的基本知识点。 1、懂一些简单的正则表达式的知识,知道些基本知识对大家在采集软件设置规则的时候是有帮助,正则表达式的一些基础知识是很容易掌握的,而绝大多数采集用的是最基本的正则表达式的内容。 如: 你起码要知道\".\" “\\n” “\\s” \"\\d\" \"*\" \"+\" \"?\" \"{3,5}\" \"\"。 了解这些简单正则式的基本含义,

[转载].net HTMLParser详细使用说明

.net HTMLParser详细使用说明 强大的Filter类 解析HTML文档如此简单 - cestarme - 博客园. 背景: HTMLParser原本是一个在sourceforge上的一个Java开源项目,使用这个Java类库可以用来线性地或嵌套地解析HTML文 本。他的 功能强大和开源等特性吸引了大量Web信息提取的工作者。然而,许多.net开发者朋友一直在寻找一种能在.net