互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:
1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
2, 主体内容空短的网页
1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
3, 部分作弊网页:比如堆积关键词、对用户和搜索引擎展现不同内容的页面等等。
总结:想让网页建入百度索引库,少采集内容,要主体突出就要注意关键词密度和内容质量,一篇有人看,多人看的内容,我想百度一定会喜欢的吧。