开发笔记-Mikel-第882页

[转]深入浅出之正则表达式（二）

2008-02-19mikel阅读(673)

前言：
本文是前一片文章《深入浅出之正则表达式（一）》的续篇，在本文中讲述了正则表达式中的组与向后引用，先前向后查看，条件测试，单词边界，选择符等表达式及例子，并分析了正则引擎在执行匹配时的内部机理。
本文是Jan Goyvaerts为RegexBuddy写的教程的译文，版权归原作者所有，欢迎转载。但是为了尊重原作者和译者的劳动，请注明出处！谢谢！
9. 单词边界
元字符<<\b>>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。
有4种位置被认为是“单词边界”：
1) 在字符串的第一个字符前的位置(如果字符串的第一个字符是一个“单词字符”)
2) 在字符串的最后一个字符后的位置(如果字符串的最后一个字符是一个“单词字符”)
3) 在一个“单词字符”和“非单词字符”之间，其中“非单词字符”紧跟在“单词字符”之后
4) 在一个“非单词字符”和“单词字符”之间，其中“单词字符”紧跟在“非单词字符”后面
“单词字符”是可以用“\w”匹配的字符，“非单词字符”是可以用“\W”匹配的字符。在大多数的正则表达式实现中，“单词字符”通常包括<<[a-zA-Z0-9_]>>。
例如：<<\b4\b>>能够匹配单个的4而不是一个更大数的一部分。这个正则表达式不会匹配“44”中的4。
换种说法，几乎可以说<<\b>>匹配一个“字母数字序列”的开始和结束的位置。
“单词边界”的取反集为<<\B>>，他要匹配的位置是两个“单词字符”之间或者两个“非单词字符”之间的位置。
· 深入正则表达式引擎内部
让我们看看把正则表达式<<\bis\b>>应用到字符串“This island is beautiful”。引擎先处理符号<<\b>>。因为\b是0长度，所以第一个字符T前面的位置会被考察。因为T是一个“单词字符”，而它前面的字符是一个空字符(void)，所以\b匹配了单词边界。接着<>和第一个字符“T”匹配失败。匹配过程继续进行，直到第五个空格符，和第四个字符“s”之间又匹配了<<\b>>。然而空格符和<>不匹配。继续向后，到了第六个字符“i”，和第五个空格字符之间匹配了<<\b>>，然后<>和第六、第七个字符都匹配了。然而第八个字符和第二个“单词边界”不匹配，所以匹配又失败了。到了第13个字符i，因为和前面一个空格符形成“单词边界”，同时<>和“is”匹配。引擎接着尝试匹配第二个<<\b>>。因为第15个空格符和“s”形成单词边界，所以匹配成功。引擎“急着”返回成功匹配的结果。
10. 选择符
正则表达式中“|”表示选择。你可以用选择符匹配多个可能的正则表达式中的一个。
如果你想搜索文字“cat”或“dog”，你可以用<>。如果你想有更多的选择，你只要扩展列表<>。
选择符在正则表达式中具有最低的优先级，也就是说，它告诉引擎要么匹配选择符左边的所有表达式，要么匹配右边的所有表达式。你也可以用圆括号来限制选择符的作用范围。如<<\b(cat|dog)\b>>，这样告诉正则引擎把(cat|dog)当成一个正则表达式单位来处理。
· 注意正则引擎的“急于表功”性
正则引擎是急切的，当它找到一个有效的匹配时，它会停止搜索。因此在一定条件下，选择符两边的表达式的顺序对结果会有影响。假设你想用正则表达式搜索一个编程语言的函数列表：Get，GetValue，Set或SetValue。一个明显的解决方案是<>。让我们看看当搜索SetValue时的结果。
因为<>和<>都失败了，而<>匹配成功。因为正则导向的引擎都是“急切”的，所以它会返回第一个成功的匹配，就是“Set”，而不去继续搜索是否有其他更好的匹配。
和我们期望的相反，正则表达式并没有匹配整个字符串。有几种可能的解决办法。一是考虑到正则引擎的“急切”性，改变选项的顺序，例如我们使用<>，这样我们就可以优先搜索最长的匹配。我们也可以把四个选项结合起来成两个选项：<>。因为问号重复符是贪婪的，所以SetValue总会在Set之前被匹配。
一个更好的方案是使用单词边界：<<\b(Get|GetValue|Set|SetValue)\b>>或<<\b(Get(Value)?|Set(Value)?\b>>。更进一步，既然所有的选择都有相同的结尾，我们可以把正则表达式优化为<<\b(Get|Set)(Value)?\b>>。
11. 组与向后引用
把正则表达式的一部分放在圆括号内，你可以将它们形成组。然后你可以对整个组使用一些正则操作，例如重复操作符。
要注意的是，只有圆括号“()”才能用于形成组。“[]”用于定义字符集。“{}”用于定义重复操作。
当用“()”定义了一个正则表达式组后，正则引擎则会把被匹配的组按照顺序编号，存入缓存。当对被匹配的组进行向后引用的时候，可以用“\数字”的方式进行引用。<<\1>>引用第一个匹配的后向引用组，<<\2>>引用第二个组，以此类推，<<\n>>引用第n个组。而<<\0>>则引用整个被匹配的正则表达式本身。我们看一个例子。
假设你想匹配一个HTML标签的开始标签和结束标签，以及标签中间的文本。比如This is a test，我们要匹配和以及中间的文字。我们可以用如下正则表达式：“<([A-Z][A-Z0-9]*)[^>]*>.*?”
首先，“<”将会匹配“”的第一个字符“<”。然后[A-Z]匹配B，[A-Z0-9]*将会匹配0到多次字母数字，后面紧接着0到多个非“>”的字符。最后正则表达式的“>”将会匹配“”的“>”。接下来正则引擎将对结束标签之前的字符进行惰性匹配，直到遇到一个“”
你可以对相同的后向引用组进行多次引用，<<([a-c])x\1x\1>>将匹配“axaxa”、“bxbxb”以及“cxcxc”。如果用数字形式引用的组没有有效的匹配，则引用到的内容简单的为空。
一个后向引用不能用于它自身。<<([abc]\1)>>是错误的。因此你不能将<<\0>>用于一个正则表达式匹配本身，它只能用于替换操作中。
后向引用不能用于字符集内部。<<(a)[\1b]>>中的<<\1>>并不表示后向引用。在字符集内部，<<\1>>可以被解释为八进制形式的转码。
向后引用会降低引擎的速度，因为它需要存储匹配的组。如果你不需要向后引用，你可以告诉引擎对某个组不存储。例如：<>。其中“(”后面紧跟的“?:”会告诉引擎对于组(Value)，不存储匹配的值以供后向引用。
· 重复操作与后向引用
当对组使用重复操作符时，缓存里后向引用内容会被不断刷新，只保留最后匹配的内容。例如：<<([abc]+)=\1>>将匹配“cab=cab”，但是<<([abc])+=\1>>却不会。因为([abc])第一次匹配“c”时，“\1”代表“c”；然后([abc])会继续匹配“a”和“b”。最后“\1”代表“b”，所以它会匹配“cab=b”。
应用：检查重复单词–当编辑文字时，很容易就会输入重复单词，例如“the the”。使用<<\b(\w+)\s+\1\b>>可以检测到这些重复单词。要删除第二个单词，只要简单的利用替换功能替换掉“\1”就可以了。
· 组的命名和引用
在PHP，Python中，可以用<<(?Pgroup)>>来对组进行命名。在本例中，词法?P就是对组(group)进行了命名。其中name是你对组的起的名字。你可以用(?P=name)进行引用。
.NET的命名组
.NET framework也支持命名组。不幸的是，微软的程序员们决定发明他们自己的语法，而不是沿用Perl、Python的规则。目前为止，还没有任何其他的正则表达式实现支持微软发明的语法。
下面是.NET中的例子：
(?group)(?’second’group)
正如你所看到的，.NET提供两种词法来创建命名组：一是用尖括号“<>”，或者用单引号“’’”。尖括号在字符串中使用更方便，单引号在ASP代码中更有用，因为ASP代码中“<>”被用作HTML标签。
要引用一个命名组，使用\k或\k’name’.
当进行搜索替换时，你可以用“${name}”来引用一个命名组。
12. 正则表达式的匹配模式
本教程所讨论的正则表达式引擎都支持三种匹配模式：
<>使正则表达式对大小写不敏感，
<>开启“单行模式”，即点号“.”匹配新行符
<>开启“多行模式”，即“^”和“$”匹配新行符的前面和后面的位置。
· 在正则表达式内部打开或关闭模式
如果你在正则表达式内部插入修饰符(?ism)，则该修饰符只对其右边的正则表达式起作用。(?-i)是关闭大小写不敏感。你可以很快的进行测试。<<(?i)te(?-i)st>>应该匹配TEst，但是不能匹配teST或TEST.
13. 原子组与防止回溯
在一些特殊情况下，因为回溯会使得引擎的效率极其低下。
让我们看一个例子：要匹配这样的字串，字串中的每个字段间用逗号做分隔符，第12个字段由P开头。
我们容易想到这样的正则表达式<<^(.*?,){11}P>>。这个正则表达式在正常情况下工作的很好。但是在极端情况下，如果第12个字段不是由P开头，则会发生灾难性的回溯。如要搜索的字串为“1,2,3,4,5,6,7,8,9,10,11,12,13”。首先，正则表达式一直成功匹配直到第12个字符。这时，前面的正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11,”，到了下一个字符，<

>并不匹配“12”。所以引擎进行回溯，这时正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11”。继续下一次匹配过程，下一个正则符号为点号<<.>>，可以匹配下一个逗号“,”。然而<<，>>并不匹配字符“12”中的“1”。匹配失败，继续回溯。大家可以想象，这样的回溯组合是个非常大的数量。因此可能会造成引擎崩溃。
用于阻止这样巨大的回溯有几种方案：
一种简单的方案是尽可能的使匹配精确。用取反字符集代替点号。例如我们用如下正则表达式<<^([^,\r\n]*,){11}P>>，这样可以使失败回溯的次数下降到11次。
另一种方案是使用原子组。
原子组的目的是使正则引擎失败的更快一点。因此可以有效的阻止海量回溯。原子组的语法是<<(?>正则表达式)>>。位于(?>)之间的所有正则表达式都会被认为是一个单一的正则符号。一旦匹配失败，引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组可以表达成<<^(?>(.*?,){11})P>>。一旦第十二个字段匹配失败，引擎回溯到原子组前面的<<^>>。
14. 向前查看与向后查看
Perl 5 引入了两个强大的正则语法：“向前查看”和“向后查看”。他们也被称作“零长度断言”。他们和锚定一样都是零长度的（所谓零长度即指该正则表达式不消耗被匹配的字符串）。不同之处在于“前后查看”会实际匹配字符，只是他们会抛弃匹配只返回匹配结果：匹配或不匹配。这就是为什么他们被称作“断言”。他们并不实际消耗字符串中的字符，而只是断言一个匹配是否可能。
几乎本文讨论的所有正则表达式的实现都支持“向前向后查看”。唯一的一个例外是JavaScript只支持向前查看。
· 肯定和否定式的向前查看
如我们前面提过的一个例子：要查找一个q，后面没有紧跟一个u。也就是说，要么q后面没有字符，要么后面的字符不是u。采用否定式向前查看后的一个解决方案为<>。否定式向前查看的语法是<<(?!查看的内容)>>。
肯定式向前查看和否定式向前查看很类似：<<(?=查看的内容)>>。
如果在“查看的内容”部分有组，也会产生一个向后引用。但是向前查看本身并不会产生向后引用，也不会被计入向后引用的编号中。这是因为向前查看本身是会被抛弃掉的，只保留匹配与否的判断结果。如果你想保留匹配的结果作为向后引用，你可以用<<(?=(regex))>>来产生一个向后引用。
· 肯定和否定式的先后查看
向后查看和向前查看有相同的效果，只是方向相反
否定式向后查看的语法是：<<(?>
肯定式向后查看的语法是：<<(?<=查看内容)>>
我们可以看到，和向前查看相比，多了一个表示方向的左尖括号。
例：<<(?>将会匹配一个没有“a”作前导字符的“b”。
值得注意的是：向前查看从当前字符串位置开始对“查看”正则表达式进行匹配；向后查看则从当前字符串位置开始先后回溯一个字符，然后再开始对“查看”正则表达式进行匹配。
· 深入正则表达式引擎内部
让我们看一个简单例子。
把正则表达式<>应用到字符串“Iraq”。正则表达式的第一个符号是<>。正如我们知道的，引擎在匹配<>以前会扫过整个字符串。当第四个字符“q”被匹配后，“q”后面是空字符(void)。而下一个正则符号是向前查看。引擎注意到已经进入了一个向前查看正则表达式部分。下一个正则符号是<>，和空字符不匹配，从而导致向前查看里的正则表达式匹配失败。因为是一个否定式的向前查看，意味着整个向前查看结果是成功的。于是匹配结果“q”被返回了。
我们在把相同的正则表达式应用到“quit”。<>匹配了“q”。下一个正则符号是向前查看部分的<>，它匹配了字符串中的第二个字符“i”。引擎继续走到下个字符“i”。然而引擎这时注意到向前查看部分已经处理完了，并且向前查看已经成功。于是引擎抛弃被匹配的字符串部分，这将导致引擎回退到字符“u”。
因为向前查看是否定式的，意味着查看部分的成功匹配导致了整个向前查看的失败，因此引擎不得不进行回溯。最后因为再没有其他的“q”和<>匹配，所以整个匹配失败了。
为了确保你能清楚地理解向前查看的实现，让我们把<>应用到“quit”。<>首先匹配“q”。然后向前查看成功匹配“u”，匹配的部分被抛弃，只返回可以匹配的判断结果。引擎从字符“i”回退到“u”。由于向前查看成功了，引擎继续处理下一个正则符号<>。结果发现<>和“u”不匹配。因此匹配失败了。由于后面没有其他的“q”，整个正则表达式的匹配失败了。
· 更进一步理解正则表达式引擎内部机制
让我们把<<(?<=a)b>>应用到“thingamabob”。引擎开始处理向后查看部分的正则符号和字符串中的第一个字符。在这个例子中，向后查看告诉正则表达式引擎回退一个字符，然后查看是否有一个“a”被匹配。因为在“t”前面没有字符，所以引擎不能回退。因此向后查看失败了。引擎继续走到下一个字符“h”。再一次，引擎暂时回退一个字符并检查是否有个“a”被匹配。结果发现了一个“t”。向后查看又失败了。
向后查看继续失败，直到正则表达式到达了字符串中的“m”，于是肯定式的向后查看被匹配了。因为它是零长度的，字符串的当前位置仍然是“m”。下一个正则符号是<>，和“m”匹配失败。下一个字符是字符串中的第二个“a”。引擎向后暂时回退一个字符，并且发现<>不匹配“m”。
在下一个字符是字符串中的第一个“b”。引擎暂时性的向后退一个字符发现向后查看被满足了，同时<>匹配了“b”。因此整个正则表达式被匹配了。作为结果，正则表达式返回字符串中的第一个“b”。
· 向前向后查看的应用
我们来看这样一个例子：查找一个具有6位字符的，含有“cat”的单词。
首先，我们可以不用向前向后查看来解决问题，例如：
<< cat\w{3}|\wcat\w{2}|\w{2}cat\w|\w{3}cat>>
足够简单吧！但是当需求变成查找一个具有6-12位字符，含有“cat”，“dog”或“mouse”的单词时，这种方法就变得有些笨拙了。
我们来看看使用向前查看的方案。在这个例子中，我们有两个基本需求要满足：一是我们需要一个6位的字符，二是单词含有“cat”。
满足第一个需求的正则表达式为<<\b\w{6}\b>>。满足第二个需求的正则表达式为<<\b\w*cat\w*\b>>。
把两者结合起来，我们可以得到如下的正则表达式：
<<(?=\b\w{6}\b)\b\w*cat\w*\b>>
具体的匹配过程留给读者。但是要注意的一点是，向前查看是不消耗字符的，因此当判断单词满足具有6个字符的条件后，引擎会从开始判断前的位置继续对后面的正则表达式进行匹配。
最后作些优化，可以得到下面的正则表达式：
<<\b(?=\w{6}\b)\w{0,3}cat\w*>>
15. 正则表达式中的条件测试
条件测试的语法为<<(?ifthen|else)>>。“if”部分可以是向前向后查看表达式。如果用向前查看，则语法变为：<<(?(?=regex)then|else)>>，其中else部分是可选的。
如果if部分为true，则正则引擎会试图匹配then部分，否则引擎会试图匹配else部分。
需要记住的是，向前先后查看并不实际消耗任何字符，因此后面的then与else部分的匹配时从if测试前的部分开始进行尝试。
16. 为正则表达式添加注释
在正则表达式中添加注释的语法是：<<(?#comment)>>
例：为用于匹配有效日期的正则表达式添加注释：
(?#year)(19|20)\d\d[- /.](?#month)(0[1-9]|1[012])[- /.](?#day)(0[1-9]|[12][0-9]|3[01])

[转]深入浅出之正则表达式（一）

2008-02-19mikel阅读(718)

[书]Flexible Rails: Flex 3 on Rails 2

2008-02-19mikel阅读(762)

简介 Book Description
Flexible Rails is a unique, application-based guide for using Ruby on Rails 2 and Adobe Flex 3 to build rich Internet applications (RIAs). It is not an exhaustive Ruby on Rails or Flex reference. Instead, it is an extensive tutorial in which the reader builds multiple iterations of an interesting RIA using Flex and Rails together.
Author Peter Armstrong walks readers through eleven iterations in which the sample application–pomodo–is variously built, refactored, Debugged, sliced, diced and otherwise explored from every conceivable angle with respect to Ruby on Rails and Adobe Flex. The book unfolds both the application and the Flex-on-Rails approach side-by-side.
目录 Summary of contents
PART 1 GETTING STARTED ………………………………………………. 1
1 ■ Why are we here? Where are we going? 3
2 ■ Hello World 14
3 ■ Getting started 52
PART 2 BUILDING THE APPLICATION………………………………. 103
4 ■ Creating the main Flex UI 105
5 ■ Expanding the Rails code, RESTfully 118
6 ■ Flex on Rails 186
7 ■ Validation 261
PART 3 REFACTORING…………………………………………………. 293
8 ■ Refactoring to Cairngorm 295
9 ■ Holding state on the client properly 369
PART 4 FINISHING UP………………………………………………….. 419
10 ■ Finishing the application 421
11 ■ Refactoring to RubyAMF 468
12 ■ Rails on AIR (Adobe Integrated Runtime) 512
作者 About the Author
Peter Armstrong is a professional developer who has been working with Flex full-time since July 2004 and Ruby on Rails since mid-2005–that's before Rails 1.0. His background includes five years of working with Java Swing and a brief stint with PHP during the dotcom bubble in 2000.
下载 Download
点击下载此文件

[转]xmlhttp实例－一个完整的pagerank查询小偷带示例

2008-02-16mikel阅读(634)

本程序三个页面,其中的远程获取类非常不错.
这个也是学习asp小偷程序的好例子.
页面演示见:http://www.aspxuexi.com/forfun/pagerank/pr.asp
三个页面:
CLS_Asphttp.asp
<% '================================================================= '飞扬远程获取类(AspHttp) 1.0.1 Bate1 ' By 奔腾的心 ' 2006-04-19 '================================================================= Class FlyCms_AspHttp Public oForm,oXml,Ados Public strHeaders Public sMethod Public sUrl Public sReferer Public sSetCookie Public sLanguage Public sCONTENT Public sAgent Public sEncoding Public sAccept Public sData Public sCodeBase Private slresolveTimeout,slconnectTimeout,slsendTimeout,slreceiveTimeout ' ============================================ ' 类模块初始化 ' ============================================ Private Sub Class_Initialize() oForm = "" Set oXml = Server.CreateObject("MSXML2.ServerXMLHTTP") set Ados = Server.CreateObject("Adodb.Stream") slresolveTimeout = 20000 ' 解析DNS名字的超时时间,20秒 slconnectTimeout = 20000 ' 建立Winsock连接的超时时间,20秒 slsendTimeout = 30000 ' 发送数据的超时时间,30秒 slreceiveTimeout = 30000 ' 接收response的超时时间,30秒 End Sub ' ============================================ ' 返回版本信息 ' ============================================ Public Property Get Version Version = "飞扬asphttp类1.0.0" End Property ' ============================================ ' 解析DNS名字的超时时间 ' ============================================ Public Property Let lresolveTimeout(LngSize) If IsNumeric(LngSize) Then slresolveTimeout = Clng(LngSize) End If End Property ' ============================================ ' 建立Winsock连接的超时时间 ' ============================================ Public Property Let lconnectTimeout(LngSize) If IsNumeric(LngSize) Then slconnectTimeout = Clng(LngSize) End If End Property ' ============================================ ' 发送数据的超时时间 ' ============================================ Public Property Let lsendTimeout(LngSize) If IsNumeric(LngSize) Then slsendTimeout = Clng(LngSize) End If End Property ' ============================================ ' 接收response的超时时间 ' ============================================ Public Property Let lreceiveTimeout(LngSize) If IsNumeric(LngSize) Then slreceiveTimeout = Clng(LngSize) End If End Property ' ============================================ ' Method ' ============================================ Public Property Let Method(strMethod) sMethod = strMethod End Property ' ============================================ ' 发送url ' ============================================ Public Property Let Url(strUrl) sUrl = strUrl End Property ' ============================================ ' Data ' ============================================ Public Property Let Data(strData) sData = strData End Property ' ============================================ ' Referer ' ============================================ Public Property Let Referer(strReferer) sReferer = strReferer End Property ' ============================================ ' SetCookie ' ============================================ Public Property Let SetCookie(strCookie) sSetCookie = strCookie End Property ' ============================================ ' Language ' ============================================ Public Property Let Language(strLanguage) sLanguage = strLanguage End Property ' ============================================ ' CONTENT-Type ' ============================================ Public Property Let CONTENT(strCONTENT) sCONTENT = strCONTENT End Property ' ============================================ ' User-Agent ' ============================================ Public Property Let Agent(strAgent) sAgent = strAgent End Property ' ============================================ ' Accept-Encoding ' ============================================ Public Property Let Encoding(strEncoding) sEncoding = strEncoding End Property ' ============================================ ' Accept ' ============================================ Public Property Let Accept(strAccept) sAccept = strAccept End Property ' ============================================ ' CodeBase ' ============================================ Public Property Let CodeBase(strCodeBase) sCodeBase = strCodeBase End Property ' ============================================ ' 建立数据传送对向! ' ============================================ Public Function AddItem(Key, Value) On Error Resume Next Dim TempStr If oForm = "" Then oForm = Key + "=" + Server.URLEncode(Value) Else oForm = oForm + "&" + Key + "=" + Server.URLEncode(Value) End If End Function ' ============================================ ' 发送数据并取回远程数据 ' ============================================ Public Function HttpGet() Dim sReturn With oXml .setTimeouts slresolveTimeout,slconnectTimeout,slsendTimeout,slreceiveTimeout .Open sMethod,sUrl,False If sSetCookie<>“” Then
.setRequestHeader “Cookie”, sSetCookie '设定Cookie
End If
If sReferer<>“” Then
.setRequestHeader “Referer”, sReferer '设定页面来源
Else
.setRequestHeader “Referer”, sUrl
End If
If sLanguage<>“” Then
.setRequestHeader “Accept-Language”, sLanguage '设定语言
End If
.setRequestHeader “Content-Length”,Len(sData) '设定数据长度
If sCONTENT<>“” Then
.setRequestHeader “CONTENT-Type”,sCONTENT '设定接受数据类型
End If
If sAgent<>“” Then
.setRequestHeader “User-Agent”, sAgent '设定浏览器
End If
If sEncoding<>“” Then
.setRequestHeader “Accept-Encoding”, sEncoding '设定gzip压缩
End If
If sAccept<>“” Then
.setRequestHeader “Accept”, sAccept '文档类型
End If
Response.Write sData
.Send sData '发送数据
While .readyState <> 4
.waitForResponse 1000
Wend
strHeaders = .getAllResponseHeaders()
If sCodeBase<>“” Then
sReturn = bytes2BSTR(.responseBody)
Else
sReturn = .responseBody
End If
End With
HttpGet = sReturn
End Function
' ============================================
' 处理二进制数据
' ============================================
Private Function bytes2BSTR(vIn)
strReturn = “”
For i = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn,i,1))
If ThisCharCode < &H80 Then strReturn = strReturn & Chr(ThisCharCode) Else NextCharCode = AscB(MidB(vIn,i+1,1)) strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode)) i = i + 1 End If Next bytes2BSTR = strReturn End Function ' ============================================ ' 类模块注销 ' ============================================ Private Sub Class_Terminate oForm = "" Set oXml = Nothing Set Ados = Nothing End Sub End Class %>
googleCH.asp
<% Const GOOGLE_MAGIC = &HE6359A60 Function sl(ByVal x, ByVal n) If n = 0 Then sl = x Else Dim k k = CLng(2 ^ (32 - n - 1)) Dim d d = x And (k - 1) Dim c c = d * CLng(2 ^ n) If x And k Then c = c or &H80000000 End If sl = c End If End Function '//from www.aspxuexi.com Function sr(ByVal x, ByVal n) If n = 0 Then sr = x Else Dim y y = x And &H7FFFFFFF Dim z If n = 32 - 1 Then z = 0 Else z = y \ CLng(2 ^ n) End If If y <> x Then
z = z or CLng(2 ^ (32 – n – 1))
End If
sr = z
End If
End Function
Function zeroFill(ByVal a, ByVal b)
Dim x
If (&H80000000 And a) Then
x = sr(a, 1)
x = x And (Not &H80000000)
x = x or &H40000000
x = sr(x, b – 1)
Else
x = sr(a, b)
End If
zeroFill = x
End Function
Private Function uadd(ByVal L1, ByVal L2)
Dim L11, L12, L21, L22, L31, L32
L11 = L1 And &HFFFFFF
L12 = (L1 And &H7F000000) \ &H1000000
If L1 < 0 Then L12 = L12 or &H80 L21 = L2 And &HFFFFFF L22 = (L2 And &H7F000000) \ &H1000000 If L2 < 0 Then L22 = L22 or &H80 L32 = L12 + L22 L31 = L11 + L21 If (L31 And &H1000000) Then L32 = L32 + 1 uadd = (L31 And &HFFFFFF) + (L32 And &H7F) * &H1000000 If L32 And &H80 Then uadd = uadd or &H80000000 End Function Private Function usub(ByVal L1, ByVal L2) Dim L11, L12, L21, L22, L31, L32 L11 = L1 And &HFFFFFF L12 = (L1 And &H7F000000) \ &H1000000 If L1 < 0 Then L12 = L12 or &H80 L21 = L2 And &HFFFFFF L22 = (L2 And &H7F000000) \ &H1000000 If L2 < 0 Then L22 = L22 or &H80 L32 = L12 - L22 L31 = L11 - L21 If L31 < 0 Then L32 = L32 - 1 L31 = L31 + &H1000000 End If usub = L31 + (L32 And &H7F) * &H1000000 If L32 And &H80 Then usub = usub or &H80000000 End Function Function mix(ByVal ia, ByVal ib, ByVal ic) Dim a, b, c a = ia b = ib c = ic a = usub(a, b) a = usub(a, c) a = a Xor zeroFill(c, 13) b = usub(b, c) b = usub(b, a) b = b Xor sl(a, 8) c = usub(c, a) c = usub(c, b) c = c Xor zeroFill(b, 13) a = usub(a, b) a = usub(a, c) a = a Xor zeroFill(c, 12) b = usub(b, c) b = usub(b, a) b = b Xor sl(a, 16) c = usub(c, a) c = usub(c, b) c = c Xor zeroFill(b, 5) a = usub(a, b) a = usub(a, c) a = a Xor zeroFill(c, 3) b = usub(b, c) b = usub(b, a) b = b Xor sl(a, 10) c = usub(c, a) c = usub(c, b) c = c Xor zeroFill(b, 15) Dim ret(3) ret(0) = a ret(1) = b ret(2) = c mix = ret End Function Function gc(ByVal s, ByVal i) gc = Asc(Mid(s, i + 1, 1)) End Function Function GoogleCH(ByVal sUrl) Dim iLength, a, b, c, k, iLen, m iLength = Len(sUrl) a = &H9E3779B9 b = &H9E3779B9 c = GOOGLE_MAGIC k = 0 iLen = iLength Do While iLen >= 12
a = uadd(a, (uadd(gc(sUrl, k + 0), uadd(sl(gc(sUrl, k + 1), 8), uadd(sl(gc(sUrl, k + 2), 16), sl(gc(sUrl, k + 3), 24))))))
b = uadd(b, (uadd(gc(sUrl, k + 4), uadd(sl(gc(sUrl, k + 5), 8), uadd(sl(gc(sUrl, k + 6), 16), sl(gc(sUrl, k + 7), 24))))))
c = uadd(c, (uadd(gc(sUrl, k + 8), uadd(sl(gc(sUrl, k + 9), 8), uadd(sl(gc(sUrl, k + 10), 16), sl(gc(sUrl, k + 11), 24))))))
m = mix(a, b, c)
a = m(0)
b = m(1)
c = m(2)
k = k + 12
iLen = iLen – 12
Loop
c = uadd(c, iLength)
Select Case iLen ' all the case statements fall through
Case 11
c = uadd(c, sl(gc(sUrl, k + 10), 24))
c = uadd(c, sl(gc(sUrl, k + 9), 16))
c = uadd(c, sl(gc(sUrl, k + 8), 8))
b = uadd(b, sl(gc(sUrl, k + 7), 24))
b = uadd(b, sl(gc(sUrl, k + 6), 16))
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 10
c = uadd(c, sl(gc(sUrl, k + 9), 16))
c = uadd(c, sl(gc(sUrl, k + 8), 8))
b = uadd(b, sl(gc(sUrl, k + 7), 24))
b = uadd(b, sl(gc(sUrl, k + 6), 16))
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 9
c = uadd(c, sl(gc(sUrl, k + 8), 8))
b = uadd(b, sl(gc(sUrl, k + 7), 24))
b = uadd(b, sl(gc(sUrl, k + 6), 16))
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 8
b = uadd(b, sl(gc(sUrl, k + 7), 24))
b = uadd(b, sl(gc(sUrl, k + 6), 16))
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 7
b = uadd(b, sl(gc(sUrl, k + 6), 16))
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 6
b = uadd(b, sl(gc(sUrl, k + 5), 8))
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 5
b = uadd(b, gc(sUrl, k + 4))
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 4
a = uadd(a, sl(gc(sUrl, k + 3), 24))
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 3
a = uadd(a, sl(gc(sUrl, k + 2), 16))
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 2
'//form http://www.aspxuexi.com
a = uadd(a, sl(gc(sUrl, k + 1), 8))
a = uadd(a, gc(sUrl, k + 0))
Case 1
a = uadd(a, gc(sUrl, k + 0))
End Select
m = mix(a, b, c)
GoogleCH = m(2)
End Function
Function CalculateChecksum(sUrl)
CalculateChecksum = “6” & CStr(GoogleCH(“info:” & sUrl))
End Function
%>
PR.asp

<% Sub Rw(Str) Response.Write Str & vbCrLf Response.Flush End Sub Function HttpGet(lresolveTimeout,lconnectTimeout,lsendTimeout,lreceiveTimeout,Method,Url,Referer,Data,SetCookie,Language,CONTENT,Agent,Encoding,Accept,CodeBase) Set DoGet = New FlyCms_AspHttp DoGet.lresolveTimeout = lresolveTimeout DoGet.lconnectTimeout = lconnectTimeout DoGet.lsendTimeout = lsendTimeout DoGet.lreceiveTimeout = lreceiveTimeout DoGet.Method = Method DoGet.Url = Url DoGet.Referer = Referer DoGet.Data = Data DoGet.SetCookie = SetCookie DoGet.Language = Language DoGet.CONTENT = CONTENT DoGet.Agent = Agent DoGet.Encoding = Encoding DoGet.Accept = Accept DoGet.CodeBase = CodeBase HttpGet = DoGet.HttpGet() Set DoGet = Nothing End Function Function GGPR(ByVal URL) Dim strRet sURL = "http://www.google.com/search?client=navclient-auto&ch=" & CalculateChecksum(URL) & "&features=Rank&q=info:" & URL Rw "查询地址: " & sURL & " " strRet = HttpGet(10000,10000,20000,20000,"GET",sUrl,"","","","zh-cn","","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)","","*/*","gb2312") If InStr(strRet,":") Then R = Split(strRet,":") GGPR = R(2) Else GGPR = 0 End If Rw "返回结果: " & strRet & " " Rw "　　PR值: " & GGPR & " " End Function iURL = Request("iURL") If iURL="" Then iURL = "http://www.aspxuexi.com" Call GGPR(iURL) %>

Google Pagerank 查询(pr查询小偷)

输入完整页面地址查选pagerank(页面pr值):

URL

[转]ASP网页小偷程序原理和简单示例

2008-02-16mikel阅读(760)

现在网上流行的小偷程序比较多，有新闻类小偷，音乐小偷，下载小偷，那么它们是如何做的呢，下面我来做个简单介绍，希望对各位站长有所帮助。
（一）原理
小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序，很多都是调用了sina的新闻网页，并且对其中的html 进行了一些替换，同时对广告也进行了过滤。用小偷程序的优点有：无须维护网站，因为小偷程序中的数据来自其他网站，它将随着该网站的更新而更新；可以节省服务器资源，一般小偷程序就几个文件，所有网页内容都是来自其他网站。缺点有：不稳定，如果目标网站出错，程序也会出错，而且，如果目标网站进行升级维护，那么小偷程序也要进行相应修改；速度，因为是远程调用，速度和在本地服务器上读取数据比起来，肯定要慢一些。
（二）事例
下面就XMLHTTP在ASP中的应用做个简单说明
<%
'常用函数
'1、输入url目标网页地址，返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
     dim Http
     set Http=server.createobject("MSXML2.XMLHTTP")
     Http.open "GET",url,false
     Http.send()
     if Http.readystate<>4 then
         exit function
     end if
     getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
     set http=nothing
     if err.number<>0 then err.Clear
end function
'2、转换乱玛，直接用xmlhttp调用有中文字符的网页得到的将是乱玛，可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
         dim objstream
         set objstream = Server.CreateObject("adodb.stream")
         objstream.Type = 1
         objstream.Mode =3
         objstream.Open
         objstream.Write body
         objstream.Position = 0
         objstream.Type = 2
         objstream.Charset = Cset
         BytesToBstr = objstream.ReadText
         objstream.Close
         set objstream = nothing
End Function
'下面试着调用 http://www.sgxcn.com/doc/ 的html内容
Dim Url,Html
Url="http://www.sgxcn.com/doc/"
Html = getHTTPPage(Url)
Response.write Html
%>

[转]ASP网站数据采集的攻、防原理和策略

2008-02-16mikel阅读(660)

说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验：
我开发过几个采集程序，也研究过很多采集程序代码，所以对采集程序的原理还算是稍微有些了解。
先说一下采集原理：
采集程序的主要步骤如下：
一、获取被采集的页面的内容
二、从获取代码中提取所有用的数据
一、获取被采集的页面的内容
我目前所掌握的ASP常用获取被采集的页面的内容方法：
1、用serverXMLHTTP组件获取数据
Function GetBody(weburl)
'创建对象
Dim ObjXMLHTTP
Set ObjXMLHTTP=Server.CreateObject(“MSXML2.serverXMLHTTP”)
'请求文件,以异步形式
ObjXMLHTTP.Open “GET”,weburl,False
ObjXMLHTTP.send
While ObjXMLHTTP.readyState <> 4
ObjXMLHTTP.waitForResponse 1000
Wend
'得到结果
GetBody=ObjXMLHTTP.responseBody
'释放对象
Set ObjXMLHTTP=Nothing
End Function
调用方法：
GetBody(文件的URLf地址)
2、或XMLHTTP组件获取数据
Function GetBody(weburl)
'创建对象
Set Retrieval = CreateObject(“Microsoft.XMLHTTP”)
With Retrieval
.Open “Get”, weburl, False, “”, “”
.Send
GetBody = .ResponseBody
End With
'释放对象
Set Retrieval = Nothing
End Function
调用方法：
GetBody(文件的URLf地址)
这样获取的数据内容还需要进行编码转换才可以使用
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject(“adodb.stream”)
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
调用方法：BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8
二、从获取代码中提取所有用的数据
目前我掌握的方法有：
1、用ASP内置的MID函数截取需要的数据
Function body(wstr,start,over)
start=Newstring(wstr,start)
'设置需要处理的数据的唯一的开始标记
over=Newstring(wstr,over)
'和start相对应的就是需要处理的数据的唯一的结束标记
body=mid(wstr,start,over-start)
'设置显示页面的范围
End Function
调用方法：body(被采集的页面的内容,开始标记,结束标记)
2、用正则获取需要的数据
Function body(wstr,start,over)
Set xiaoqi = New Regexp'设置配置对象
xiaoqi.IgnoreCase = True'忽略大小写
xiaoqi.Global = True'设置为全文搜索
xiaoqi.Pattern = “”&start&“.+?”&over&“”'正则表达式
Set Matches =xiaoqi.Execute(wstr)'开始执行配置
set xiaoqi=nothing
body=””
For Each Match in Matches
body=body&Match.Value '循环匹配
Next
End Function
调用方法：body(被采集的页面的内容,开始标记,结束标记)
采集程序祥细思路：
1、取得网站的分页列表页的每页地址
目前绝大部分动态网站的分页地址都有规则，如:
动态页
第一页：index.asp?page=1
第二页：index.asp?page=2
第三页：index.asp?page=3
…..
静态页
第一页：page_1.htm
第二页：page_2.htm
第三页：page_3.htm
…..
取得网站的分页列表页的每页地址，只需要用变量替代每页地址的变化的字符即可如：page_<%="&page&"%>.htm
2、获取被采集网站的分页列表页内容
3、从分页列表代码中提取被采集的内容页面的URL连接地址
绝大部分分页页面里的内容页连接也有固定规则，如：
连接1
连接2
连接3
用以下代码就可以获得一个URL连接集合
Set xiaoqi = New Regexp
xiaoqi.IgnoreCase = True
xiaoqi.Global = True
xiaoqi.Pattern = ””“.+?”““
Set Matches =xiaoqi.Execute(页面列表内容)
set xiaoqi=nothing
url=””
For Each Match in Matches
url=url&Match.Value
Next
4、取得被采集的内容页面内容，根据”提取标记“从被采集的内容页面分别截取要取得的数据
因为是动态生成的页面，大多数内容页面内都有相同的html标记，我们可以根据这些有规则的标记提取需要的各个部分的内容。
如：
每个页面都有网页标题网页标题，用我上面写的MID截取函数就可以获得之间的值，也可以用正则表达式来获得。
例：body(“网页标题“,”“,”“)
介绍完采集器的祥细原理后，就开始说一下防采集的策略。
目前防采集的方法有很多种，先介绍一下常见防采集策略方法和它的弊端及采集对策：
一、判断一个IP在一定时间内对本站页面的访问次数，如果明显超过了正常人浏览速度，就拒绝此IP访问
弊端：
1、此方法只适用于动态页面，如：asp\jsp\php等…静态页面无法判断某个IP一定时间访问本站页面的次数
2、此方法会严重影响搜索引擎蜘蛛对其收录，因为搜索引擎蜘蛛收录时，浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件
采集对策：只能放慢采集速度，或者不采
建议：做个搜索引擎蜘蛛的IP库，只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集，也不太容易，一个搜索引擎蜘蛛，也不一定只有一个固定的IP地址。
评论：此方法对防采集比较有效，但却会影响搜索引擎对其收录。
二、用JavaScript加密内容页面
弊端：此方法适用于静态页面，但会严重影响搜索引擎对其收录情况，搜索引擎收到到的内容，也都是加密后的内容
采集对策：建议不采，如非要采，就把解密码的JS脚本也采下来。
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。
三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“
弊端：此方法弊端不大，仅仅会增加一点点的页面文件大小，但容易反采集
采集对策：把采集来的含有隐藏版权文字内容的版权文字替掉，或替换成自己的版权。
建议：目前没有好的改良建议
评论：自己感觉实用价值不大，就算是加上随机的隐藏文字，也等于画蛇添足。
四、只允许用户登陆后才可以浏览
弊端：此方法会严重影响搜索引擎蜘蛛对其收录
采集对策：目前落伍已经有人发了对策文章，具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。
五、用JavaScript、vbscript脚本做分页
弊端：影响搜索引擎对其收录
采集对策：分析JavaScript、vbscript脚本，找出其分页规则，自己做个对应此站的分页集合页即可。
建议：目前没有好的改良建议
评论：感觉懂点脚本语言的人都能找出其分页规则
六、只允许通过本站页面连接查看，如：Request.ServerVariables(“HTTP_REFERER”)
弊端：影响搜索引擎对其收录
采集对策：不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。
从以上可以看出，目前常用的防采集方法，要么会对搜索引擎收录有较大影响，要么防采集效果不好，起不到防采集的效果。那么，还有没有一种有效防采集，而又不影响搜索引擎收录的方法呢？那就请继续往下看吧，精彩的地方马上呈献给大家。
下面就是我的防采集策略，防采集而又不防搜索引擎
从前面的我讲的采集原理大家可以看出，绝大多数采集程序都是靠分析规则来进行采集的，如分析分页文件名规则、分析页面代码规则。
一、分页文件名规则防采集对策
大部分采集器都是靠分析分页文件名规则，进行批量、多页采集的。如果别人找不出你的分页文件的文件名规则，那么别人就无法对你的网站进行批量多页采集。
实现方法：
我认为用MD5加密分页文件名是一个比较好的方法，说到这里，有人会说，你用MD5加密分页文件名，别人根据此规则也可以模拟你的加密规则得到你的分页文件名。
我要指出的是我们加密分页文件名时，不要只加密文件名变化的部分
如果I代表分页的页码，那么我们不要这样加密
page_name=Md5(I,16)&”.htm”
最好给要加密的页码上再跟进一个或多个字符，如：page_name=Md5(I&”任意一个或几个字母”,16)&”.htm”
因为MD5是无法反解密的，别人看到的会页字母是MD5加密后的结果，所以加人也无法知道你在 I 后面跟进的字母是什么，除非他用暴力****MD5，不过不太现实。
二、页面代码规则防采集对策
如果说我们的内容页面无代码规则，那么别人就无法从你的代码中提取他们所需要的一条条内容。
所以我们要的这一步做到防采集，就要使代码无规则。
实现方法：
使对方需要提取的标记随机化
1、定制多个网页模板，每个网页模板里的重要HTML标记不同，呈现页面内容时，随机选取网页模板，有的页面用CSS+DIV布局，有的页面用table布局，此方法是麻烦了点，一个内容页面，要多做几个模板页面，不过防采集本身就是一件很烦琐的事情，多做一个模板，能起到防采集的作用，对很多人来说，都是值得的。
2、如果嫌上面的方法太麻烦，把网页里的重要HTML标记随机化，也可以。
做的网页模板越多，html代码越是随机化，对方分析起内容代码时，就越麻烦，对方针对你的网站专门写采集策略时，难度就更大，在这个时候，绝大部分人，都会知难而退，因为这此人就是因为懒，才会采集别人网站数据嘛~~~再说一下，目前大部分人都是拿别人开发的采集程序去采集数据，自己开发采集程序去采集数据的人毕竟是少数。
还有些简单的思路提供给大家：
1、把对数据采集者重要，而对搜索引擎不重要的内容用客户端脚本显示
2、把一页数据，分为N个页面显示，也是加大采集难度的方法
3、用更深层的连接，因为目前大部分采集程序只能采集到网站内容的前3层，如果内容所在的连接层更深，也可以避免被采集。不过这样可能会给客户造成浏览上的不便。
如：
大多网站都是首页—-内容索引分页—-内容页
如果改成：
首页—-内容索引分页—-内容页入口—-内容页
注：内容页入口最好能加上自动转入内容页的代码

其实，只要做好防采集的第一步(加密分页文件名规则)，防采集的效果就已经不错了，还是建议两条反采集方法同时使用，给采集者增加采集难度，使得他们知难页退。

[转]如何用asp编写网站数据采集程序(二)

2008-02-16mikel阅读(831)

六、对抓取的网页进行截取
首先写个截取子程序cutBy(head,headCusor,bot,botCusor)，它可以按照你指定的首尾字符串、及位置偏移指针，对抓取的网页进行裁减。程序中参数head,headCusor,bot,botCusor分别是首字符串，首偏移值，尾字符串，尾偏移值；偏移值单位为字符数，向前偏移为负值，向后偏移为正值。
public sub cutBy(head,headCusor,bot,botCusor)
if isGet_= false then call steal()
On Error Resume Next
url=src_
value_=mid(value_ ,instr(value_ ,head)+len(head)+headCusor,instr(value_ ,bot)-1+botCusor-instr(value_ ,head)-len(head)-headcusor)
If Err.Number<>0 Then Response.Write “裁减“&url&” 失败。”
end sub
把以上cutBy子程序添加到clsThief类中，然后在2hand-cj.asp中增加如下调用：
<% s1=" ” '要裁减的起始标志为

pos1=”-22″ '距起始标志向前22个字符,从此处开始裁减
s2=”var x = 50,y = 60″ '要裁减的结束标志
pos2=”-2055″ '距结束标志向前2055个字符,到此处结束裁减
myThief.cutBy s1,pos1,s2,pos2 '开始裁减
url_tittle=myThief.value '获得裁减的内容
Html=””&url_tittle&”” '最后结果保存在Html中
Html=”
“&Html '最前部添加

再次执行2hand-cj.asp ，效果如下图2，只保留了表格，大功告成！
七、替换网页中的数据
检查一下抓取的表格中每个帖子网址，其格式均为InformationDisplay.php?id=，这样的网址是不正确的！应该替换成http://market.ah163.net/city/InformationDisplay_enter.php?id=才行，所以我们在clsThief类中再增加一个替换程序change(oldStr,str)，用于替换网址，其中参数oldStr,str分别是旧字符串，新字符串。
public sub change(oldStr,str) '对偷到的内容中的个别字符串用新值更换/方法
if isGet_= false then call steal()
value_=replace(value_ , oldStr,str)
end sub
同时在2hand-cj.asp中也增加如下调用：
<% myThief.change "“)
url=TRIM(url) '去掉空格
'—–得到大类别和小类别
CateIDText=GetKey(HTML,”[“,”]”) '截取类别数据
CateIDText=TRIM(CateIDText)
select case CateIDText
case “交通” '如果类别数据=交通
CateID=8 ' 大类别CateID就等于8
SubCateID=1 ' 小类别SubCateID就等于1
case “游戏”
CateID=1
SubCateID=26
case “电脑”
CateID=1
SubCateID=1
case “房产”
CateID=6
SubCateID=1
case “通讯”
CateID=2
SubCateID=1
case “宠物”
CateID=31
SubCateID=221
case “求职”
CateID=37
SubCateID=230
case “影音”
CateID=4
SubCateID=1
case “家用”
CateID=5
case “书籍”
SubCateID=1
CateID=17
case “其它”
CateID=0
SubCateID=1
end select
'—–取得方式
fangshi=GetKey(HTML,”

“,”
“)
fangshi=TRIM(right(fangshi,4))
select case fangshi
case “求购”
SoftType=”买进”
case “出售”
SoftType=”卖出”
end select
if instr(fangshi,”””>”)>0 then fangshi=”其他” '如果fangshi含有字符”> 则fangshi=”其他”
'—–取得价格
jiage=GetKey(HTML,”
“,”
“)
jiage=TRIM(mid(jiage,44))
'—–取得帖子发布日期
DayDate=GetKey(HTML,”
“,”
“)
DayDate=right(DayDate,10)
'—–显示得到的帖子数据
Response.write tittle
Response.write url
Response.write fangshi
Response.write jiage
Response.write DayDate
九、帖子数据入库
最后要把帖子数据tittle、url、fangshi、jiage、DayDate写入#2hand.mdb库中，为防止帖子重复入库，需要写个 testsj函数来判断某帖子是否已入库了，假如某帖子URL在库中找不到，则将该帖入库，否则就不予入库，代码如下：
'检测库中是否有某帖子的URL
Function testsj(titURL)
SQL=”select * from SoftDown_SoftInfo where url like '%”&titURL&”%' ”
set rs=server.createobject(“adodb.recordset”)
rs.open SQL,conn,1,1
if rs.bof and rs.eof then
testsj=True
ErrMsg=ErrMsg & “

你要找的帖子不存在，或者已经被管理员删除！

”
else
testsj=false '库中无该帖子的URL
end if
rs.close
set rs=nothing
End Function
接下来打开数据库语句如下：
db=”#2hand.mdb”
Set conn = Server.CreateObject(“ADODB.Connection”)
connstr=”Provider=Microsoft.Jet.OLEDB.4.0;Data Source=” & Server.MapPath(db)
conn.Open connstr
'—–判断帖子是否已经入库?
FoundErr=False
FoundErr=testsj(url)
'—–帖子数据写入库中
if FoundErr=True then
set rs=server.createobject(“adodb.recordset”)
sql=”select * from SoftDown_SoftInfo where (SoftID is null)”
rs.open sql,conn,1,3
if rs.bof and rs.eof then
ErrMsg=ErrMsg & “

你要找的帖子不存在，或者已经被管理员删除！

”
else
ArticleTitle=rs(“SoftName”)
end if
rs.addnew
rs(“SoftName”)=tittle
rs(“url”)=url
rs(“CateID”)=CateID '所属大类
rs(“SubCateID”)=SubCateID '所属小类
rs(“SoftType”)=fangshi '出售\买进\出租\求租等方式
rs(“SoftSize”)=jiage '价格
rs(“hfsj”)=DayDate '发布时间
rs.update
rs.close
set rs=nothing
Response.write ” 该帖入库成功

”
end if

[转]如何用asp编写网站数据采集程序(一)
2008-02-16mikel阅读(923)
引:假如你想从网上自动采集数据，把它们写进本地数据库中，那就看看本文介绍的方法吧。笔者为了解决这个问题，花了三天的时间，终于大功告成，下面就是完整的ASP代码，能让你随心所欲地从网上采集数据入库，非常实用啊！
一、网站数据采集方法
目前网站数据采集方法主要有两种，一是使用现成的软件，二是自己编写采集程序。
1、使用现成的软件
很多软件（例如网络信息采集大师、BK通用信息采集系统等）都能采集网上数据，只要你到baidu、Google中，以“数据采集软件”为关键词搜一下，即可找到。如今这类软件数量繁多，都是别人用C、DEPHI或VB写成的，一般都提供了免费版让你下载试用。它们虽然也能采集网上数据，但是采集后的数据要么不能入库，要么只能入库前10条；如果你想突破这种限制，就必须花钱购买其正式版了。笔者试用了所有的数据采集软件，发现都是如此！
2、自己编写ASP采集程序
既然现成的软件不能免费使用，为了省钱，只能自己编写ASP网站数据采集程序了！下面就是该程序的代码，如果你想免费采集网站数据，运行之即可。
二、网站数据采集过程
编写ASP网站数据采集程序，首先需要抓取远程网页的源代码。微软serverXMLHTTP组件能帮你抓取远程页面的二进制代码，然后将该代码转换成字符，进行截取、替换处理，即可得到想要的数据；最后再将数据显示出来、或者写入数据库中，整个采集工作就完成了。
三、如何抓取远程网页？
抓取远程HTML的二进制代码主要语句如下：
Set Http = CreateObject(“MSXML2.XMLHTTP”) '创建serverXMLHTTP组件
Http.open “GET”,src_ ,false
Http.send() '开始抓取
if Http.readystate<>4 then
exit sub
end if
value_ = Http.responseBody '抓取到的网页二进制代码存放在value_中
下面我们写一个steal()子程序，只要你提供一个网址url，即可利用它抓取URL网页的二进制代码，存放在value_变量中。
public sub steal() '窃取目标URL地址的HTML代码
if src_<>“” then 'src_=目标URL地址
dim Http
set Http=server.createobject(“MSXML2.XMLHTTP”) '创建serverXMLHTTP组件
Http.open “GET”,src_ ,false
Http.send()
if Http.readystate<>4 then '判断是否准备好
exit sub
end if
value_= Http.responseBody '抓取到网页
if len(value_)<100 then response.write "获取远程文件 “&url&” 失败。”
response.end
end if
isGet_= True '已抓取过标志isGet_
set http=nothing
if err.number<>0 then err.Clear
else
response.Write(““)
end if
end sub
四、将网页二进制代码转换成字符
现在只要你提供一个远程网页URL，然后调用上面的steal()，即可抓到该网页（二进制代码形式）；由于二进制代码无法显示，所以要显示抓到的网页、或者入库，还需要转换成字符，必须写一个转换函数BytesToBstr，将网页二进制代码转换成字符，代码如下：
private Function BytesToBstr(body,Cset) '二进制转换成字符
dim objstream
set objstream = Server.CreateObject(“adodb.stream”)
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
五、抓取网页实例
现在我们能真枪实弹地抓一个网页了！例如要抓取六安信息港网页（http://market.ah163.net/city/AllDisplay.php?page=1&cityid=13），可以写一个2hand-cj.asp文件，在该文件中定义一个clsThief类，类中含有上面的子程序和函数，代码如下：
<% Dim Html,myThief,url_tittle '====采集六安信息港帖子网址列表 set myThief=new clsThief GetUrl="http://market.ah163.net/city/AllDisplay.php?page=1&cityid=13" myThief.src=GetUrl myThief.steal '抓取远程GetUrl整个网页，并将该网页二进制代码转换成字符 url_tittle=myThief.value '抓取的网页存在url_tittle中 Html=""&url_tittle&"" '最后结果存在Html中 Response.write Html '显示结果 Response.write "
”
set myThief=nothing '释放对象
Class clsThief '定义一个clsThief类
Private value_ '窃取到的内容
Private src_ '要偷的目标URL地址
Private isGet_ '判断是否已经偷过
public property let src(str) '赋值—要偷的目标URL地址/属性
src_=str
end property
public property get value '返回值—最终窃取并应用类方法加工过的内容/属性
value=value_
end property
private sub class_initialize() '初始化clsThief类
value_=””
src_=””
isGet_= false
end sub
public sub steal() '窃取目标URL地址的HTML代码/方法
if src_<>“” then
dim Http
set Http=server.createobject(“MSXML2.XMLHTTP”)
Http.open “GET”,src_ ,false
Http.send()
if Http.readystate<>4 then
exit sub
end if
value_=BytesToBSTR(Http.responseBody,”GB2312″) '将网页二进制转换成字符
if len(value_)<100 then response.write "获取远程文件 “&url&” 失败。”
response.end
end if
isGet_= True
set http=nothing
if err.number<>0 then err.Clear
else
response.Write(““)
end if
end sub
private Function BytesToBstr(body,Cset) '二进制转换成字符
dim objstream
set objstream = Server.CreateObject(“adodb.stream”)
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
end class
%>
解释一下以上程序中几个关键的语句：
GetUrl=http://market.ah163.net/city/AllDisplay.php?page=1&cityid=13 '要采集的网址
myThief.src=GetUrl '网址赋予myThief.src
myThief.steal '调用steal方法抓取远程网页，并将该网页二进制代码转换成字符
url_tittle=myThief.value '抓取的网页存放在url_tittle中
Html=””&url_tittle&”” '最后结果存放在Html中
Response.write Html '使用response显示抓取的网页
运行上面的2hand-cj.asp可以成功地抓取网页，结果如下图1所示！
接下来对于抓取的网页，我们只想保留表格（如上图）、其他的数据全不要，该怎么办呢？这就需要对抓取的网页进行截取了

上一页
1
···
879
880
881
882
共 882 页

热门标签
C# (826)ASP.NET MVC (621)Android (588)ASP.NET (448)数据库 (300)JavaScript (287)JQuery (221)PHP (210)SQLServer (197)程序开发 (156)架构设计 (156)源价值 (155)SQL (128)Java (116)EasyUi (85)教程 (76)网站 (67)人工智能 (66)Debug (63)互联网 (63)MySQL (61)Flash (56)搜索优化 (54)创意 (53)SEO (51)ASP.NET MVC3 (51)电子商务 (50)建站经验 (49)实例代码 (49)源码下载 (47)
分类

开发笔记 (5,970)

源码下载 (9)

网站运营 (279)

图书下载 (115)

创意应用 (108)

动画视频 (75)

琐事杂记 (292)

Android (1,011)

Java (206)

iOS开发 (150)

ASP.NET MVC (881)

ASP.NET (670)

C# (2,018)

JavaScript (1,047)

Delphi (56)

Flash (94)

Debug (840)

数据库 (849)

架构设计 (870)

项目管理 (239)

AR (27)

Android源码 (2)

C#源码 (2)

Java源码 (4)

PHP (402)

PHP源码 (2)

Python (49)

互联网 (244)

产品 (75)

人工智能 (153)

人工智能 (31)

建站经验 (186)

微信小程序开发 (58)

搜索优化 (130)

机器学习 (28)

游戏 (10)

电子商务 (82)

网站 (56)

网站模板 (1)

网络营销 (133)

链接表

威客宝

© 2025 Mikel 网站地图备案号：冀ICP备17031416号

开发笔记 第882页

输入完整页面地址查选pagerank(页面pr值):

热门标签

分类

链接表

开发笔记第882页