搜索引擎爬虫抓取网页的更新策略-【零距离】

零距离SEO
零距离SEO
零距离SEO
6622
文章
2
评论
2020年3月20日11:42:27 评论 8
EO排名优化,多年上万网站SEO优化实战经验,零距离只为你提供安全、稳定、放心的整站优化,新站快速排名,SEM网络推广等SEO网站优化服务。

搜索引擎爬虫的更新,基本应用在像快照的更新,搜索引擎对已抓取页面的再抓取行为等。至于为什么要进行再抓取基本是因为互联网上万万亿的页面量。很多页面还是有一直变化的。这个变化的前置因子,导致了爬虫要不断的更新自己的数据,从而一定要对已经抓取的网页进行再抓取。那搜索引擎爬虫的三大更新策略都是什么呢?

搜索引擎爬虫的历史更新策略
所谓历史更新策略,就是针对已经抓取的网页有一个再抓取的时间限制。例如爬虫抓取我SEO博客的首页,从而搜索引擎通过一直以来的抓取得出我的博客首页平均每3天更新一次,那么爬虫的抓取策略就会调整为每3天访问一次我的博客首页。

这样的更新抓取策略告诉我们,网页变化频繁就会引来蜘蛛的频繁抓取。所以在这里如果你的网页全部是静态的。也就意味着不生成一遍对应页面是不会发生变化的。相对而言针对这种策略逻辑你就不是很站好。所以网址设置为伪静态的,在网站打开速度能够很好控制的前提下,把网页本身设置为动态页面是很不错的选择。

搜索引擎爬虫的用户体验更新策略
所谓用户体验的网页更新策略,是搜索引擎认为网页参与具有一定搜索量词的排名,且在前3页的,是经常会被用户访问到的页面。那么针对这类页面要更优先的进行抓取更新。

而3页之后的网页对于用户而言,访问的人占到了极少数,晚一些时间更新也未尝不可。因此采取的一种网页抓取更新策略。

这种策略让我们知道,一些核心关键词排名靠前的网页,被爬虫抓取的频次是更多的。那么值得思考的一个问题是网站也会有一些详情页,聚合页甚至文章页参与比错的词的排名。这是不是意味着这次页面抓取量也不错呢?针对这个问题,赵彦刚之前通过对访问日志的分析确定了这个答案,在80%的情况下,确实是这样的。但这种页面的频率远低于首页、频道页等距离首页更近,路径更短的页面抓取量。

不过,我们还是可以好好优化我们的详情页/文章页,在这类页面以展示最新内容,为最新内容的收录增加爬虫抓取的入口。

搜索引擎爬虫抓取网页的抽样聚类策略
谈到这个策略,我们先从字面意思来看“抽样,聚类”。抽样是指从网站中抽取一些样本出来进行观察,而聚类是根据这些样本的观察得出一定的结论后应用于这个类型上。

我们的网站都是有不同类型组成的,例如列表页、产品详情页、文章页、频道页、聚合页等,这些都是不同的类型。搜索引擎从这中间抽选出一些样本,进行观察后得出一个更新周期后,应用于整个类型的方式就是抽样聚类的网页抓取更新策略。

我们举个例子,搜索引擎从列表页抽样找到A列表页,通过分析观察发现A列表页每2天可以抓取一次。然后和A列表页同类型的还有B、C、D列表页,因为他们的模版一样、导航都有、首页下模块也特指这四个列表页。那么他们是一类的,所以B、C、D列表页和A列表页一样,都是2天一抓取。

好了今天的分享就到这里,希望对你有所帮助。

weinxin
零距离SEO
这是我的微信扫一扫
EO排名优化,多年上万网站SEO优化实战经验,零距离只为你提供安全、稳定、放心的整站优化,新站快速排名,SEM网络推广等SEO网站优化服务。
零距离SEO
汕尾seo培训-汕尾seo公司-零距离seo培训 seo工具

汕尾seo培训-汕尾seo公司-零距离seo培训

汕尾seo培训(www.0-juli.com)公司一直致力于网站运营、网络整合营销、互联网赢利模式、电子商务、搜索引擎优化(SEO)等方面研究工作,提供专业网络推广、seo优化、百度优化、网站优化、整...
北京seo培训-北京seo公司-零距离seo培训 seo工具

北京seo培训-北京seo公司-零距离seo培训

北京seo培训(www.0-juli.com)公司一直致力于网站运营、网络整合营销、互联网赢利模式、电子商务、搜索引擎优化(SEO)等方面研究工作,提供专业网络推广、seo优化、百度优化、网站优化、整...
襄阳seo培训-襄阳seo公司-零距离seo培训 seo工具

襄阳seo培训-襄阳seo公司-零距离seo培训

襄阳seo培训(www.0-juli.com)公司一直致力于网站运营、网络整合营销、互联网赢利模式、电子商务、搜索引擎优化(SEO)等方面研究工作,提供专业网络推广、seo优化、百度优化、网站优化、整...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: