找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 970|回复: 2

百度对各大博客和论坛动态页面的收录分析

[复制链接]
发表于 2011-6-15 22:29:21 | 显示全部楼层 |阅读模式
本帖最后由 神马 于 2011-6-15 22:33 编辑

最近发现好几个朋友说百度对阿里巴巴,慧聪,163等高权重的论坛和博客,在收录文章上有时会出现大量的重复收录。原因可能是由于百度对动态地址收录上的不成熟。在高权重的网站上,收录时会临时性的对同一内容页的不同动态地址进行收录,然后再进行对比删除。

阿里巴巴论坛还有一个奇怪的现象。比如,一个网址是指面一个页面,里面包括了1楼和下面所有的评论。但如果在那个网址上加上一个以下回复的人ID号,再进入那个页面,看到的就是楼主的主帖,回复里只显示那个加上ID的人回复。这个图我当时没截下来,现在已经没了。

说的似乎有点不好理解,上几张图。



这是一个一般的地址,进入页面后就是显示所有回复的帖子。这帖目前是有23楼。



我们选占了沙发的ID:ctgy168 来实验下,在原来网站上加上他的ID名。



回车进入页面,这时我们看到的只有楼主的帖子和这位ctgy168的回复。其它人的回复都没有显示。



从上图可以看到,只显示了一个回复。下面就是翻页符。

这个适用于每一个阿里论坛里的帖子,不知道是不是因为阿里论坛最近更新,导致百度对这种现象还不了解。从而产生了重复收录的情况。不过最近几天这个现象有所减少了。

下面发两张朋友发来的163和慧聪的图。






从图中可以看到。这张6月12号的163博客收录图应该是因为动态页面的原因。而这张6月10号慧聪论坛图的情况是只在一个版块发了一帖,结果 被收录了很多个。从网址里的英文单词(paper,laser,ceramic)来看,应该是指向的应该是慧聪各分版。但这些分版并没有使用这个三级域 名,而是使用伪静态页面。

当你百度搜索如http://bbs.ceramic.hc360.com时,百度有这个收录,点击进去,进 入的是论坛的首页。而这些之前被收录的那些以这些三级域名开头的网页全都打不开,全部进入404页面。现在还不知道,慧聪这个是不是一个站群,还是就是单 一服务器里的多个三级域名。今后是否还能达到这种,发一帖,被收录多次的情况,还需要时间观察。这些三级域名最新的百度快照是6月12号,说明这些域名应 该还在使用中。就看慧聪今后如果运用这些域名。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2011-6-16 19:59:30 | 显示全部楼层
这个以前没有遇到过,好像这几天百度有重复收录,然后在删除。确实这几天发现过这种想象。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|手机版|小黑屋|王牌互联

GMT+8, 2024-5-14 21:16 , Processed in 0.033360 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表