页面时间对于收录的重要性!

张小编 834
PS

细节决定成败!

一直以来,老张都以为,页面上自定义的文章发布时间,对于收录的重要性来说,可有可无,或者说没那么重要,然而又被打脸![aru_157]

 

页面时间对于收录的重要性!

对,就是这个时间,在我想象中,蜘蛛应该是智能的,它应该拥有自己的判断力,而不是创作者给它喂啥就吃啥,所以理论上这个自定义发布的时间,在页面上的权重应该很低才对。

直到前阵子,有个客户找我反馈,说帮他引了蜘蛛池子后,收录效果并不理想,问我看看怎么回事,我赶紧查看了一下池子状态,时间段和抓取曲线都正常,再看下其他人的收录,也正常!就唯独这个客户的出现了问题。

安抚一下客户后[aru_136],紧接着就是一顿折腾加排查,首先查看他发的蜘蛛web日志,看得出来,蜘蛛数量上也没啥问题,该来来,该抓抓,其次也顺手打开客户发表的文章页面,客户的网页内容质量在我看来,也还OK,即使不是高度原创,至少也是经过微整过的,不是那种狗屁不通的组合文。好像都没啥子问题,我纳闷中。。。

没有怀疑是域名的问题,接这个客户之前,就查过了客户的域名,中规中矩,企业备案,有一定的收录量,无不良建站历史,也没有入侵渗透过的痕迹。

接着我又去百度site一下,想看看他这几天新收录的那些页面,看看能不能找出点蛛丝马迹,别说,一查还真发现了端倪:我大概五天前给他引入的蜘蛛池,并且他的文章也都是新编辑,然后发布的,也就是说,在百度搜索结果中,显示的收录快照也必定是一周内收录的。然而事实并非如此,百度的快照居然显示的是一月内收录的。这就十分奇怪。接着我点开快照详情查看,发现了这个:

 

页面时间对于收录的重要性!

天了噜。五天前都已经是2020年了,快照时间为何还是2019?问了客户他也是一脸懵逼。

我一激灵,赶紧去看了一下客户发表的其他文章,好家伙!新发布的文章也都是显示2019年的。

这客户也是虎哈,自己发布文章的时间,也不看上一眼的吗

既然知道了问题节点在哪里,那就好解决了。

客户的web机器是CentOS7,让其date查了一下时间,果然是显示的2019年,我特么。

接下来就是常规操作,timedatectl配置好时区,服务器NTP网络时间同步,一步到位。重新date一下,对头。再看看新发布的文章,时间没差了。

后续:几天后客户再找我聊,问题已经解决,收录明显上去了,因此才确认是因为页面时间的问题,导致收录降低甚至不收录,因为客户的文章都是偏于新闻性的,所以有可能百度对网页的时效性权重看的高一些。

结论:事出反常必有妖,只要慢慢摸索,总能找到解决问题的方法。

另外插一句,百度难道真的对这个自定义的时间看得很重?我另外猜想百度抓取时,能否根据其他页面因素来判断页面生成的时间呢?页面是在服务器上生成,服务器时间不对,那么页面的出生属性,百度是否能够探测到?从HTTP原理来讲,应该不太可能。所以,百度还真的可能只有从这个自定义的时间,来判断页面文章的发布时间!不过我想,应该也不会有人故意把文章发布时间提前吧,这样做好像也没什么用。经此一役,也算是给自己提个醒,细节啊细节!

分享