>
导航首页 » 技术教程

如何改进网站的收集,如果网站页面太长,如何优化网站页面的收集

2024/11/03 21:46:35    懒猫导航网    已浏览3次



网站页面代码长度对收录的影响

此前,在百度站长平台的站长学院,百度的官方工程师分享了这样一个案例,其中一个网站主题内容是由js生成的,没有用户访问权限,但在搜索引擎爬虫上做了大量有针对性的工作,看起来很完美,但没有被百度收录。原因是网站直接将图像的二进制内容放入html中,导致页面长度过长,而百度并未将其包括在内。也许许多站长在阅读了这个案例后会感到疑惑。他们做了多年的网站,从未遇到过这样的案例。页面长度也是影响网站收集的重要因素吗。

要分析这个问题,首先我们需要了解网站页面长度。这里所谓的页面长度并不是在浏览网站页面时从直觉上看到的长度。页面代码长度。一般网站会将图像的链接或路径直接添加到html代码中,这对页面长度影响不大。然而,这个网站的案例并不多见。它直接将图像的二进制内容放入html代码中,也就是说,它直接使用base64编码,这导致网站不包含在内。

如何改进网站的收集,如果网站页面太长,如何优化网站页面的收集

百度站长平台给出的分析理由:

1.网站针对爬虫爬行进行了优化。图像的二进制内容直接放入html中,导致页面长度为164k;

2.站点优化后,主要内容放在最后,但图片放在前面;

3.爬虫抓取内容后,页面内容太长且被截断,捕获的部分无法识别主要内容,最终导致页面被视为空且短且不包含。

工程师建议:

1.不建议站点使用js来生成主要内容。例如,js呈现中的错误可能会导致页面内容读取错误,并且无法捕获页面

2.如果站点针对爬虫爬行进行了优化,建议页面长度在128k以内,不要太长

3.对于爬虫爬行的优化,请将主要内容放在前面,以避免截断导致不完整的内容爬行

事实上,一般网站不会出现这种问题,但很少有网站会采用这种不合理的页面优化方法。然而,这也提醒了大多数网站,页面长度也是衡量优化网站时是否可以包括页面质量的主要因素之一。

网站前端的页面是否过长,内容是否影响收藏?

在分析了不包含网站页面长度的原因后,有人可能会想问,为什么我的网站页面长度被控制在合理范围内,而不是js生成的主题内容。这个问题,我们需要考虑网站模板页面的设计,以及内容长度对集合的影响。在此,作者还提出了以下建议:

1.建议为文章设置摘要栏,不建议在文章开头使用图片。现在,将总结网站上的许多文章。一般摘要不容易太长,大约50-100字。这不仅提高了用户的阅读体验,而且对促进搜索引擎爬行也起到了很好的作用。例如,百度更喜欢具有合理抽象设置的文章。现在有许多网站在发布内容时喜欢使用图片。有图片和文字的文章确实有助于阅读,也受到搜索引擎的欢迎。但如果文本以图像开头,百度首先捕获图像,然后捕获内容。这样的文章实际上不利于捕获。因此,建议将图像和文本放在文章的中间,并设置摘要。这样的内容是搜索引擎最喜欢的风格。

2.建议为长文章设置分页。现在许多网站都喜欢发表长文。一些网站设置了页面,而一些网站则有较长的内容。不仅用户阅读不好,搜索引擎爬虫也不喜欢这样的文章。如果太长,用户将始终下拉滚动条。如果图片太多,加载速度也会受到影响。同样,搜索引擎爬虫在爬行方面也存在困难。随着时间的推移,它会降低网站的内容评价,并影响收藏。

3.频道栏目页上的文章数量不能太多。现在,频道栏目页面的图形摘要形式已经成为主流,从而增加了页面下拉的长度。如果设置太低