现在的网站绝大多数是数据库驱动,页面由程序实时生成,而不是真的在服务器上有一个静态的HTML文件存在。当用户访问一个网址时,程序根据URL中的参数调用数据库数据,实时生成页面内容,因此动态页面相对应得URL原始状态也是动态的,包括问号、等号及参数,如下面这种典型的论坛的URL:
http://www.dnso123.com/wiewthread.php?tid=703&extra=pages=1
搜索引擎在发展初期(其实就是10年前到三四年前而已)一般不太愿意爬行和收录动态URL,主要原因是可能陷入无限循环或收录大量重复内容,造成资源的极大浪费。最典型的无限循环就是某些网站上出现的万年历,很多博客都按时间存档,一些宾馆、航班查询网站经常出现万年历形式。
搜索引擎蜘蛛碰到万年历,如果一直跟踪万年历的
链接,可以不停地点击下一月、下一年,无穷无尽陷入无限循环,每一个日期对应的页面内容也没有上面区别。其实用户一眼就能看出这是个日历。但搜索引擎蜘蛛面对的只是一串代码,不一定能判断出这是个万年历。
URL中参数顺序不同就是不同的网址,但调用参数一样,因此页面内容是一样的。如果CMS系统设计不周全,这些URL都可能出现在网站上。
更麻烦的是有时某些参数可以是任意值,服务器都能正常返回页面,虽然内容全是一样或者非常相似的。
所以以前的搜索引擎对动态URL敬而远之,要想网站页面被充分收录,站长需要把动态URL转化为静态URL。
网页题目:网站为什么要静态化?
文章源于:
http://cdxtjz.cn/article/escehh.html