关于搜索引擎的进化
在互联网的早期,网站的数量有限,所以人工整理这个方法是可行的,比如就有DMOZ这样的人工编辑的网站数据库,分门别类的去整理好各种类型都网址。
到了后面全球的网站数量爆炸性增长,假如人工整理的话这就显得非常不现实了,于是就有了网络爬虫(也叫蜘蛛)代替人工去访问抓取网站,这就是最原始的搜索引擎。
虽然说互联网是一个网状结构,但是抓取整个互联网上的所有网站还是有着一定的难度的,首先要解决的问题就是怎么去发现这些网站。
为了解决这些问题,搜索引擎都会有一个基础的网站数据库,从这里的网站开始爬取,希望能抓取整个互联网上的信息。而且依靠链接之间的引用关系和使用的链接文本来计算网页的权重,从
而能对搜索结果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的网站作为爬虫的抓取起点,而且我怀疑Google也使用DMOZ数据,因为10多年前做网站时,大家都希望自己的网站能被DMOZ收录,甚至贿赂DMOZ的
编辑人员。
老域名
什么叫“没有不良记录”?
域名没有做过黄、赌、毒、医疗等违法或灰色行业。
查看域名历史页面,请科学上网访问:http://archive.org/
多点击一些网页快照,看看年初的月份,再看看近期的快照。还有一点就是,查看快照时候,右键查看下页面源码,看底部的友情链接部分有没有违法网站,避免选择被黑过的网站。
而且如果一个域名长达一年多没有做过网站,可能也要放弃。
关于购买老域名,可以上聚名网或其他提供老域名抢注或交易的网站,平均价格大概在100-200之间。
基础的域名数据,比如百度权重,各个搜索引擎的收录情况,可以使用爱站SEO助手或自己写程序抓取。
以上技巧很实用,前段时间跟一个朋友学的。
主动提交法
百度不收录,那我们要主动投怀送抱。百度站长平台提供了四种方式来提交抓取请求。
1、主动推送:最为快速的提交方式。适用场景:把网站当天新产生的链接通过这种方式推给百度,保证新链接可以及时被百度收录。
在站长平台后台点击“网页抓取”->“链接提交”可以看到具体的使用说明,百度提供有curl、php和ruby等样例代码。
2、自动推送:最为方便的提交方式。
使用方法:将自动推送的JS代码加到网站每个页面里,当有用户访问这个页面时,页面链接就会自动推送给百度。可以配合主动推送使用。
代码自行百度站长工具获取
3、Sitemap:传统提交方式。
很多网站CMS都提供生成Sitemap的功能,如果没有的话,需要借助工具或自己写代码生成。通过Sitemap告诉百度蜘蛛哪些网页希望被抓取。
百度Sitemap支持3种格式:txt文本格式、xml格式、Sitemap索引格式。
假如是小网站,页面数量小于5万,可以使用txt或xml格式的sitemap文件放到网站根目录下就可以。
http://www.xxx.com/sitemap.txthttp://www.xxx.com/sitemap.xml
如果是网页数量超过5万,可以网址拆分成5万为一组的xml文件,然后放到Sitemap索引文件里面,通过站长平台提交给百度。
具体格式参考百度官方说明:Sitemap提交工具站长资讯百度站长平台
Sitemap提交方式收录速度慢于主动推送。