开发笔记-Mikel-第812页

[Flex]Flex与.NET互操作(二)：基于WebService的数据访问(上)

2009-01-15mikel阅读(848)

Flex提供了<mx:WebService>、<mx:HTTPService>和<mx:RemoteObject>标签来直接访问远程数据，这用于与各种不同语言环境开发提供的远程服务端数据源（如WebService）进行数据交互通信显得更加容易.

本文以.NET平台下C#语言开发的WebService作为远程数据源,详细介绍Flex与.NET的WebService的数据通信知识点;包括连接WebService，远程调用WebService方法，给WebService方法传递参数等相关知识点。三个标签的使用方法基本上是一样，这里就以<mx:WebService>标签为例进行介绍。

首先看看如下代码块：

1     <mx:WebService id="dataService"
2         wsdl="http://localhost/FlashFlex/DataWebService.asmx?wsdl"
3         useProxy="false">
4         <mx:operation name="HelloWorld" result="onSuccess(event)" fault="onFault(event)"/>
5         <mx:operation name="GetBook" fault="onFault(event)" result="onObjectSuccess(event)"/>
6     </mx:WebService>

wsdl属性指定到要访问的WebService的wsdl地址既可，其中定义了两个操作标签 (<mx:operation>)，分别对应于WebService中定义的WebMethod方法。result属性标记访问 WebService方法成功后的处理函数；fault则相反，指定于访问失败的处理函数。以上两个<mx:operation>对应于 WebService的WebMethod方法如下：

1     /// <summary>
2     /// 返回字符串
3     /// </summary>
4     /// <returns></returns>
5     [WebMethod]
6     public string HelloWorld()
7     {
8         return "Hello World";
9     }
10
11     /// <summary>
12     /// 返回一个简单对象
13     /// </summary>
14     /// <returns></returns>
15     [WebMethod]
16     public Book GetBook()
17     {
18         return new Book
19         {
20             Id = 1,
21             Name = "三国演义",
22             Author = "罗贯中",
23             Price = 100
24         };
25     }

如上便是WebService方法定义和在Flex的客户端(mxml)通过<mx:WebService>标签来访问WebService的完整流程，下面我们来看看在Flex的客户端怎么去调用WebService所定义的方法：

1 <mx:Script>
2     <![CDATA[
3         import mx.controls.Alert;
4         import mx.rpc.events.FaultEvent;
5         import mx.rpc.events.ResultEvent;
6
7         /**
8          * 向WebService发起请求–调用HelloWorld方法，dataService为<mx:WebService>的id
9          * */
10         internal function onRequest():void
11         {
12             dataService.HelloWorld();
13         }
14
15         /**
16          * 请求成功处理返回结果
17          * */
18         internal function onSuccess(evt:ResultEvent):void
19         {
20             Alert.show(evt.result.toString());
21         }
22
23
24         /**
25          * 请求失败的处理函数
26          * */
27         internal function onFault(evt:FaultEvent):void
28         {
29             Alert.show("访问WebService失败!");
30         }
31     ]]>
32 </mx:Script>

通过上面的调用，就可以完成一个Flex和.NET WebService的交互。当然我们在Flash/Flex的客户端调用WebService也是可以传递参数的，如下WebService的WebMethod定义：

1     /// <summary>
2     /// 将传递进来的参数转化为大写字符返回
3     /// </summary>
4     /// <param name="value"></param>
5     /// <returns></returns>
6     [WebMethod]
7     public string ConvertToUpper(string value)
8     {
9         return value.ToUpper();
10     }

通过在<mx:WebService>标签下配置<mx:operation>执行该方法就可以访问了，如下：

1 <mx:operation name="ConvertToUpper" result="onSuccess(event)" fault="onFault(event)"/>

1     /**
2      * 向WebService发起请求
3      * */
4     internal function onRequest():void
5     {
6         //dataService.HelloWorld();
7         dataService.ConvertToUpper("abcdefg");
8     }

另外，我们还可以通过<mx:request>来传递参数，这里只需要知道<mx:request></mx:request>里的参数配置与WebService提供的WebMethod方法参数同名就OK。

回到前面看看WebService的方法定义，其中一个方法GetBook是返回的一个Book对象，如果是返回的对象我们在Flex的客户端怎么来获取这个对象的值呢？详细见如下代码示例：

1     internal function onObject():void
2     {
3         dataService.GetBook();
4     }
5
6     internal function onObjectSuccess(evt:ResultEvent):void
7     {
8         //直接通过事件的result属性得到返回值,然后直接访问属性便OK
9         Alert.show(evt.result.Name);
10     }
11
12     /**
13      * 请求失败的处理函数
14      * */
15     internal function onFault(evt:FaultEvent):void
16     {
17         Alert.show("访问WebService失败!");
18     }

如上便完成了服务端的WebService返回对象到客户端的调用。

版权说明

本文属原创文章，欢迎转载，其版权归作者和博客园共有。

作者：Beniao

文章出处：http://beniao.cnblogs.com/ 或 http://www.cnblogs.com/

[SEO]网站推广经验

2009-01-14mikel阅读(953)

作者：糖果盒
　
　推广经验1：不要做线下推广，网站的优势在于传播性强，结果为了做一个网站反而在传播性不强的线下媒体做宣传岂不是本末倒置。我们糖果盒网站在线上推广的时候注册用户量稳步增长，每天过百，只要哪天开始线下推广，那天注册人数就会少的可怜，设想一个在校园里闲逛的学生看到了我们网站的海报、宣传单，等他半小时后回到宿舍休息了一下，再过会儿打开电脑还记得我们网址的几率能有多少呢？
　　
　　
　　推广经验2：不要做线上ads广告，除非搜索引擎给你带来的每个流量会再创造出更多的价值，例如你是个做培训代理的网站或者是做鲜花买卖的网站，用户不会消费的话基本不会点进来，那可以做一些baidu ads或google ads，否则大部分流量都是搜索引擎检查人员带来的或者用户误点的，设想一下，你现在还会点击网页两侧框框里的广告吗？
　　
　　
　　推广经验3：要做好关系营销，推广一个网站给你的朋友很容易，如果我有50个朋友，每个人让他们注册只是一句话介绍+一个人情就搞定了，但让我营销第51个人，即使是专业的营销人员也很难说动一个陌生人注册您的网站并且注册好了之后还会经常回来看看，所以一定要做好关系营销，把可利用的关系都利用起来，我们tangguohe.com网站3周增加的过万用户几乎全是关系营销带来的。
　　
　　
　　推广经验4：要把钱花在已经是你客户的人身上，而不是把钱花在不是你潜在客户身上。理解了1、2、3点，就不能理解第4点，最近好几个朋友百万的资金砸在了线下广告上，结果都倒闭了，效果和投入比起来…我们小时候就几个台，十多个广告，背都能背出来，现在电视台内容多出了1万倍，广告效果也就稀释了1万倍，路边广告更是漫天飞，用户也到了反感期，把钱砸在这个市场上有意义吗？相反，对于已经是我们网站的会员，每个会员奖励个几块钱奖品并不难，而对客户来说感觉很好，他们会帮你邀请更多的朋友加入，如果再把这两个过程结合起来，用户邀请了朋友就根据朋友数和朋友质量给他奖励奖品那岂不是很好吗？
　　
　　
　　推广经验5：要利用好社区营销，目前社区的圈地已经结束，大公司频频发话，以后不可能有新网站诞生，SNS对用户的掌握确实是很强势的，有了用户，可以迅速开发出各类应用适应用户需求。但大公司毕竟也有其弱点，张小盒hezi.cc网站在各大社区如kaixin001.com xiaonei.com等都建立有很强大的群组，为社区的用户提供了有趣的内容，也为自己赢得了众多用户，岂不是双赢？

[SEO]网站SEO并非一定需要静态化

2009-01-14mikel阅读(772)

在国内，很多“SEO专家”给客户网站的第一诊断结果就是要页面静态化。这倒不是因为动态页面就做不了SEO，而是相对静态页面而言，动态页面的SEO更加难做，受“SEO专家”的技术能力所限而已。

　　对于搜索引擎而言，在主观上对静态页面和动态页面并没有特殊的好恶，只是很多动态页面的参数机制不利于搜索引擎收录，而静态页面更容易收录而已。此外，页面静态化在一定程度上也提高了页面访问速度和系统性能及稳定性——这使得在搜索引擎优化上面，为使得效果更加明显，问题简单快速解决，大家对站点的静态化趋之若骛。

　　然而对于一些大型网站，静态化带来的问题和后续成本也是不容忽视的：

　　由于生成的文件数量较多，存储需要考虑文件、文件夹的数量问题和磁盘空间容量的问题———需要大量的服务器设备；

　　程序将频繁地读写站点中较大区域内容，考虑磁盘损伤问题及其带来的事故防范与恢复——硬件损耗要更新、站点备份要到位；

　　页面维护的复杂性和大工作量，及带来的页面维护及时性问题——需要一整套站点更新制度和专业的站点维护人员；

　　站点静态化，增加了更新维护难度和网站管理人员工作强度，增加了硬件设备需求和损耗速度，增加了站点潜在的访问冲突和故障概率。对于一个大型网站而言，这都是必须考虑的问题。

　　对于SEO优化，我们不需要真正静态化，只需要假装就可以了。动态页面也一样能够做好SEO优化。

　　目前大多数搜索引擎基本都能收录动态页面，使用动态页面的站点数也远远大于静态页面的站点数。

　　许多大型网站虽然网址的后缀为。htm，但其实还是动态页面，只是用了URL Rewrite的方式“欺骗”搜索引擎，真正完全静态的没有发现几个。

　　目前对于一个动态网站，实施相对静态化的做法基本有如下几种：

　　1. 伪静态，URL Rewrite方式。

　　2. 类似蜘蛛的方法，动态站点也存在，只是通过一个程序去抓取整个站点并保存发布为需要访问的静态站点。

　　不论是真静态页面还是伪静态页面，在方便搜索引擎收录这一点上，效果都是一样的。既然如此，为什么不使用效率更高的“相对静态化”的方法，以避免真正静态化所产生的诸多问题呢？

　　在页面更新维护问题上，即使是伪静态，也带来了不少维护的复杂性和工作量。目前较为可取的更新方式有：

　　触发式更新：当维护人员在后台更改某些信息后，系统自动或提供手动更新相应显示页面。

　　独立、分片式更新：更新与维护分开，页面划分为不同的区，根据一定的规则对于区进行更新。区之间的整合与分离，有的是采用活动域，有的是采用SSI（Server Side Include）。

　　对于独立、分片式更新，应当是大型网站相对静态化后较为理想的更新维护模式：

　　1. 将各页面定义分区、编号，给定存储规则和更新规则，更新规则分为“依据数据变更更新”和“周期更新”。

　　2. 对于各区采用优先级的方式，并提供手工触发的即时更新，以保证部分信息的更新时间需要。

　　3. 静态页面替换动态页面，同时保留动态页面，并在静态页面未生成完毕时采用动态页面代替。

　　静态化对于网站SEO来说，应当只是一个信号，告诉搜索引擎我的站点很好收录，然后带领搜索引擎尽可能多的“浏览”站点内的内容。只要能够方便浏览和收录，不论是静态页面还是动态页面，搜索引擎都会一视同仁的去收录。

　　对于小网站而言，站点静态化或许是解决网站收录量的一个简便的办法，而对于大网站来说，则要认真考虑了，是不是真的有必要去做静态化，还是做一下“相对静态化”就够了。

[Javascript]改变世界的Web前端开发

2009-01-14mikel阅读(784)

乔布斯说：“活着就是为了改变世界，难道还有其它原因吗？” 2008年，在Web前端开发界，无论国外还是国内，都发生了不少事情，有哪些是改变世界或即将改变世界的大事件呢？

JavaScript游戏

2008年4月9日，Dion Almaer发现了一款非常经典的JavaScript游戏：Super Mario. 这款游戏由Jacob Seidelin开发，大小仅14k.
mario
(Super Mario JavaScript版本： http://jsmario.com.ar/)

不少Web开发者们大跌眼镜：这真的是用JavaScript开发出来的？答案是肯定的。这款游戏利用了Canvas元素（IE中用HTML模拟），图像存储在加密的字符串中，还用base64存储了MIDI背景音乐。除了这些技巧，其它代码就是我们熟悉的HTML、CSS和 JavaScript.

Super Mario JavaScript版本的横空出世（之前也出现过用JavaScript写的游戏，但没有像Super Mario一样引起大家的关注），激起了一股用JavaScript编写游戏的热潮：

许多经典的游戏都有了JavaScript版本：Pac-Man（经典的吃豆子游戏）， Space Invaders（太空入侵者），Spacius（百玩不厌的雷电）等等。

甚至还出现了一些比较复杂的角色扮演游戏：Andrew Wooldridge创造的Tombs of Asciiroth 和 CanvasQuest，Pierre Chassaing创造的ProtoRPG等。

伴随JavaScript游戏的热潮，还出现了不少专门用于游戏开发的JavaScript库。最突出的是GameJS（基于Canvas的一个2D游戏开发库）和 GameQuery（这是JQuery的一个插件）。

除了用Canvas构建2D游戏，用JavaScript还可以构建3D游戏，还出现了非常出色的Processing.js，以及JavaScript PlotTool绘图工具等等。

感慨：JavaScript游戏一段时间内将还只是开发者们的“玩物”，要真正转换为商业应用，可能还有一段漫长的路要走。但是，当Super Mario跳跃在Web网页上时，这昭示着JavaScript的时代已经到来了。JavaScript能做什么？2008年的答案是：JavaScript连游戏都能做！

大放异彩的JQuery

2008年，无论对于jQuery的作者John Resig还是jQuery库本身来说，都是非常棒的一年。jQuery首页上有一行很明显的加粗文字：

jQuery is designed to change the way that you write JavaScript.
jQuery设计成可以改变你书写JavaScript的方式。

jQuery用数据和事实证明了它的魅力。一定程度上，甚至可以毫不夸张地说：jQuery改变了Web前端开发界。下面是用Google Trends统计的常用JavaScript库在2008年的搜索量曲线图：
jslib_trend

2008年9月份，jQuery团队战绩斐然：Microsoft和Nokia正式将jQuery集成进他们的应用程序开发平台。此外，Google的部分应用里，也早就采纳了jQuery. 从jQuery的首页上还可以看出，DELL, Bank of America, Digg, Technorati, Mozzila等站点都在使用jQuery.

当然，除了jQuery，其它JavaScript在2008年也都有可圈可点的发展。YUI3的Preview版本，是我见过的最具有发展潜力的框架。ExtJS在国内的普及也非常迅猛，JavaEye社区里，ExtJS一定程度上成了Ajax的代名词，各种有关ExtJS的技术文章和书籍非常多（遗憾的是书籍的质量不高）。Prototype不温不火。Mootools则在低调中用其优雅的代码吸引了不少忠实用户。

感慨：上面提到的每个JavaScript库都是非常优秀的，掌握任何一个，对于我们的日常工作来说，都绰绰有余了。只是对于 2008年来说，jQuery的表现太突出了，连我这个天天工作用YUI的人，在2008年，都不得不为jQuery鼓掌，为John Resig喝彩！各种JavaScript库的争奇斗艳，这是JavaScript时代已经到来的另一个标志。

蹒跚起步的网页工业化

2008年，如果你是一名Web前端开发工程师，却没有听说过“栅格”两个字，那你一定是工作太忙太专心了。2008年10月份，在淘宝UED博客，出现了一篇“960的秘密”，揭开了网页栅格系统在国内的研究小热潮。
grid

伴随着栅格系统的争论，国内的前端技术博客里还出现不少对CSS框架和布局的探讨。这一切，所要解决的是以下两个问题：

网页的规范性。随着站点的成长，页面会以几何级数的速度增加。面对成千上万个网页，如何保持风格的一致性是一个不小的挑战。
网页的工业化产出。在遵守规范和保证质量的基础上，如何让页面制作容易，如何让运营人员能批量制造页面，这是目前许多大型站点面临的另一个问题。

国内站点中，淘宝、百度有啊、网易等站点的已逐步采用栅格系统。淘宝的首页和频道目前已经全部栅格化，同时尝试性开发了TMS（模板管理系统）来解决网页的工业化产出问题。

感慨：网页的高质量工业化产出，在国内很多公司才刚起步。2009年，我相信工业化将依旧是Web前端开发界的关键词。

这些也很出色

渐进增强。2008年10月份，Aaron Gustafson在ALA网站上发表了一系列有关渐进增强的文章，探讨的核心问题是：JavaScript应该做什么以及Web前端开发的技术流程。 JavaScript游戏让我们看到了JavaScript的魔力，Aaron提醒我们不能滥用JavaScript，我们要仔细考虑 JavaScript的使用场景。可用性，无侵入性，可访问性等等，这些理念是每一个前端开发工程师需要好好思考的。
D2（前端技术论坛）。 2008年，在北京和上海分别举办了两届D2，这是国内前端开发工程师们的两场盛会。前端工程师，这个新生的职位逐步被国内各大公司接受。D2的意义在于，我们聚集在一起，发出了自己的声音！
Google Chrome的诞生。 2008年，Chrome， JS V8引擎，Google迫使各大浏览器厂商开始比拼JavaScript引擎速度，这是JavaScript时代已经到来的另一个标志。Google和 Mozzila的努力，在年末的时候带来鼓舞人心的统计结果：IE的使用率跌破70%. 万恶的IE6，早点灭亡吧。2009年，Google的号角和淘宝网即将掀起的 NO IE6 活动，将加速IE6的灭亡。

最后，用两句话来结束本文：

2008年，我们努力改变世界！
2009年，我们继续改变世界，同时世界将开始为我们而改变！

[C#]网络蜘蛛C#开源示例

2009-01-14mikel阅读(919)

     C#开源示例
      http://www.codeproject.com/useritems/ZetaWebSpider.asp
      http://www.codeproject.com/aspnet/Spideroo.asp
      http://www.codeproject.com/cs/internet/Crawler.asp

[C#]用一个实例说说委托，匿名委托，Lamda表达式

2009-01-14mikel阅读(950)

C#到3.0中一直都在不断地提高，增加了很多特性，从2.0的匿名委托到现在的LAMDA表达式，为的就是让大家觉得语言越来越人性化。以下是我写的一个小DEMO，用来简单示例一下他们之间的关系。非常简单易懂。

Code
using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
namespace WebApplication1
{
    public partial class _delegate : System.Web.UI.Page
    {

        delegate string DelegateTest(string s);
        public static string getString(string t)
        { return t; }
        DelegateTest normalDelegate = new DelegateTest(getString);
        DelegateTest anonymousDelegate = delegate(string a) { return a; };
        DelegateTest lamada = s => { return s; };
        protected void Page_Load(object sender, EventArgs e)
        {
            Response.Write(normalDelegate("一般委托<br>"));
            Response.Write(anonymousDelegate("匿名方法<br>"));
            Response.Write(lamada("lamda表达式"));
        }

    }
}

[C#]多用户系统如何绑定国际域名

2009-01-14mikel阅读(1238)

多用户系统在网络上很常见，比如淘宝网或者携购网上的店铺就是最典型的多用户系统，每个店主都有一个自己二级域名的小店（如：http://shop88888888.xiegoo.com/），看上去大家都是各自独立的，但从技术曾面来看，其实每个店铺使用的都是同一套程序，唯一的差别就是店铺的界面和数据。

相信实现这样的二级域名指向不同店铺的功能，对大部分程序员来说不是件难事，因为shop后面的88888888里隐藏了店铺唯一的id，通过 shop88888888把这个店铺的界面和数据从数据库里筛选出来是很简单的，我在这里也不详细解释。但是我们经常在网上看到很多“多用户商城”或者“ 建站系统”，支持绑定国际域名，比如携购旗下的独立网店系统http://www.shopxg.com/，只要在线注册，在线绑定国际域名，就能访问自己的网店了。笔者曾经参与开发shopxg，把如何实现这样的功能，拿出来与大家分享，当然可能不是最好最有效的方法，但希望能帮到那些正在为解决这个问题发愁的技术朋友。

因为shopxg是用.NET开发的，所以下面我讲到的情况可能不适合其他语言的系统，但原理是相通的，希望能给您一点启示。

第一步：设计数据库的时候，在“店铺shop”这张表里，要设置一个字段，存放国际域名；

第二步：在shopxg的站点上做泛解析，就是让任何指向到shopxg网站所在服务器的国际域名，都会绑定到shopxg上，至于如何做泛解析，您可以到google查下；

第三步：拿前台的ShopLogin.aspx页面举例，当一个客户输入www.yifull.com/ShopLogin.aspx和www.tiaopidan.com/ShopLogin.aspx的时候，ShopLogin.aspx页面要马上获取到当前输入的域名，比如使用 Request.ServerVariables["SERVER_NAME"].ToString();当然shopxg使用的是URLRewrite 的重写技术来获取当前域名的,这样的方法有很多,您可以自己选择;

第四步：利用当前的域名,到数据库中精确匹配到某个店铺,然后把该店铺的数据取到前台显示;

当然上面的几步都是非常容易实现的,不是什么难题,但实现了一个多用户系统中每个店铺各自绑定国际域名之后,有很多小问题是不容忽视的:

1.每个页面频繁的获取当前域名,然后到数据库匹配,才知道是哪个店铺在请求数据,会导致系统效率低下,因此我们要让客户在第一次访问一个域名的时候,把获取回来的店铺编号放进本地cookies,当客户继续访问或者下次来访问的时候,直接从cookies里就能知道当前的域名对应的是哪个店铺了;

2.用户登陆问题:一般的网站都是使用cookies来存放我是否已经登陆某网站的信息的,对于多用户系统,如果用户登陆的时候,cookies没建好,很容易造成登陆一个网站,就相当于登陆该多用户系统上所有网站;假如可以随意登陆别人的网站后台,那后果将不堪设想;有时候甚至会造成我的定单里有别人的定单的情况,这都是cookies造成.因此我们在程序建cookies的时候,一定要区分域,在判断用户登陆的过程中,也要严格判断输入的域名和 cookies中的域是否对应;

3.客户在绑定国际域名的时候,一定要判断客户的域名已经存在,并且已经指向了正确的ip,不然一经绑定,客户的网站就无法访问了;

//////获取域名指向的IP

public string GetIPByDomain(string url)
  {
   if (url.Trim() == string.Empty)
    return "";
   try
   {
    System.Net.IPHostEntry host = System.Net.Dns.GetHostByName(url);
    return host.AddressList.GetValue(0).ToString();
   }
   catch (Exception e)
   {
    return "fail";
   }
  }

if(this.GetIPByDomain(this.tbDomian.Text)=="fail")
    {
     Response.Write("<script>alert('系统检测到您的域名不存在，绑定之后会导致您的网站无法访问！');history.go(-1);</script>");
     return;
    }
    if(this.GetIPByDomain(this.tbDomian.Text)!="202.91.243.151")
    {
     Response.Write("<script>alert('系统检测到您的域名还没有指向我们的服务器 202.91.243.151，绑定之后会导致您的网站无法访问！');history.go(-1);</script>");
     return;
    }

4.在程序中任何查询的数据库的操作,必须提供店铺的id才能查询,这样才能避免有人发起恶意操作,把其他网店的信息查询出来.

当然,在实现多用户系统绑定国际域名的时候,会碰到很多其他问题,欢迎大家交流.我的E-mail : cxl@xiegoo.com

[Flex]一周内学会Flex视频合集

2009-01-14mikel阅读(763)

感谢志愿者的辛勤翻译，"一周内学会Flex中文视频翻译"系列终于和众多网友见面了，以下是完整目录。

http://www.riavideo.net/ODT/list.html

第一天

第二天

第三天

第四天

第五天

了解Flash定时器的行为

更多视频请看：http://www.riavideo.net

[SQLServer]SQL Server2005中文全文搜索问题

2009-01-13mikel阅读(709)

在项目中使用了SQL的全文搜索用来搜索中文的企业名称，但效果一直不理想，比如要搜索“北京三一重工有限公司”，使用“三一”就搜索不到。因是第一次使用SQL的全文搜索，起初以为是SQL的中文分词功能弱的问题，就没有细究。

昨天又重新研究了一下，为了安全起见，我把服务器上的数据导入到开发的机器上做的测试，居然发现在测试的机器上表现相当好。看来不是SQL功能上的问题，是设置上的问题。在网上搜了一下，参考了“一起特殊中文全文检索问题的解决” 这篇文章终于发现了原因。原来是缺少noise.chs文件，补上之后工作正常。

也许这是一个常见的问题，但我想补充一下的就是，大部文章上反应的是少这个文件之后任何查询都会返回“查询子句只包含被忽略的词”，但我遇到的是不是任何查询都返回“查询子句只包含被忽略的词”，而只是查询功能效果不理想，这样我一直没有想到是noise.chs的问题。

[Lucene]利用Lucene打造站内搜索引擎的思路

2009-01-13mikel阅读(692)

１.为什么要用Lucene，而不用直接从数据库里搜索记录?
主要是考虑到几个因素:(1)性能问题，Lucene是基于文件索引的搜索机制，性能要比数据库里检索更快，特别是数据量大的时候两者区别比较明显。数据库用Select检索时，默认在执行SQL语句时，会对表锁定，直到查询完成;(2)目前很多网站，都已经将页面静态化，这种情况下，直接用生成的文件编制索引，再利用Lucene来检索，可以不用查询数据库，减轻了数据库的压力；(3)Lucene可以更方便的进行分词,支持多个关键字检查等操作,在实现上要比SQL方便;(4)直接基于文件系统的检索，不会有SQL注入风险
2.创建索引
基本上有二种思路，适用于不同的情况
(1)如果网站本身就是静态化的，可以直接读取静态Html文件，来创建索引。注意：如果要实现特定标签的搜索(比如要按产品价格，产品编号，产品摘要，发布时间等精确搜索产品信息)，在读取文件内容时，需要利用正则表达式对Html文件进行匹配分析，得到各个标签的值，再创建Field，加入 Document，最后调用IndexWriter的相应方法创建索引
(2)也可以直接从数据库里查询各标签的值，再按(1)的方法，生成Field–>Document–>加入IndexWriter
3.索引的维护
显然，不可能每次查询都全部将索引生成一次，这里的索引维护主要是索引更新和索引删除，也有两种思路:
(1)找个访问比较少的时段，比如每天晚上0点，做一个C/S程序放在服务器上，用定时器或计划任务全部重新生成索引
(2)更合理有效的方式，是当信息发生修改或删除时，索引维护程序能得到通知，仅更新特定信息的索引就可以了。这里建议用消息队列机制，网站上有信息发生增，删，改时，将唯一标识值，发送到消息队列，然后索引维护程序监听消息队列，一有消息了，马上根据唯一标识，到数据库里取出修改的信息(或读取修改过的 Html文件)，更新指定索引即可
4.分词问题
国内有一些公开的分词组件，可以直接利用，当然有一些是商业化的

上一页
1
···
809
810
811
812
813
814
815
...
下一页
共 882 页

开发笔记 第812页