每个搜索引擎都有自己一套绝密的排名算法,但是搜索引擎排名大致的原理可以分为以下四个步骤:
1、爬行和抓取
搜索引擎一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛(spider)或机器人(robot)。搜索引擎蜘蛛从数据库中已知的网页开始出发,就像正常用户一样访问这些网页并抓取内容。
并且搜索引擎蜘蛛会跟踪网上的链接,访问更多其网站,这个过程就叫爬行(crawl)。当通过链接发现有新的网址时,蜘蛛将新网址记录入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了。
搜索引擎蜘蛛抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。
2、索引
搜索引擎索引程序把蜘蛛抓取的网页文件分解、分析,并以巨大表格的形式存入数据库,这个过程就是索引。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加斜、斜体、链接属性等相关信息都有相应记录。
3、搜索词处理
用户在搜索引擎界面输入关键词,开始搜索,搜索引擎程序即对输入的搜索词进行处理,如中文特有的分词处理,对关键词词序的分别,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。
4、排序
用户索词进行处理后,搜索引擎排序程序开始工作,从索引数据库中找出所有包含搜索的网页,并且根据排名计算出哪些网页,然后按一定格式返回“搜索”页面。
排序过程然在一两秒钟之内就完成并返回用户所要的搜索结果,实际上这是一个非常复杂的过程。排名算法需要实时从索引数据库中找出所有相关页面,实时计算相关性,加入过滤算法,其复杂程度是外人无法想象的。搜索引擎是当今规模最大、是复杂的系统之一。
补:上述的说法摘自网络营销专业书籍,不过应老师认为,这个搜索过程有待榷商,我觉得,如下面的释解应该更为合理一些,蜘蛛访问网页后,对网页进行关键词分切,按照位置、链接、大小、颜色内部因素以及外链、转摘等外部因素确定该网页中相应关键词的权值,然后按网页与关健词的权值进行索引排序,用户搜索时,网页根据权值排序返回给用户,网页与相关关键词的排序定时更新,一天几次或者是几天一次!
愿与大家交流探讨QQ:188648494
|