找回密码
 立即注册
查看: 242|回复: 0

如果不允许页面爬行 robots.txt 文件

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-12-18 18:58:53 | 显示全部楼层 |阅读模式
则将找不到有关索引或服务指令的任何信息,因此将被忽略。​ 需要对渲染页面内容所需的重要资源(例如,包括为提高页面速度而加载所需的资源)进行爬网。 如果必须遵循索引或服务指令,则不能禁止抓取包含这些指令的 URL。 Robots.txt 的 14 个常见问题 查找 robots.txt 错误的最佳方法是进行网站审核。这可以让您大规模发现技术 SEO 问题,以便解决它们。 以下是 robots.txt 的常见问题: #1.缺少机器人.txt 没有 robots.txt 文件、robots 元标记或 X-Robots-Tag HTTP 标头的网站通常会被正常抓取和索引。 这如何成为一个问题:




对于网站来说,拥有 robots.txt 文件是建议的最佳做法,可以对 Google 可以抓取和索 手机号码数据 引的内容和文件添加一定程度的控制。没有一个仅仅意味着谷歌将抓取所有内容并将其编入索引。 #2.添加禁止行以阻止私人内容 在 robots.txt 文件中添加禁止行也会带来安全风险,因为它会标识您的内部和私人内容的存储位置。 这如何成为一个问题: 使用服务器端身份验证来阻止对私人内容的访问。这对于个人身份信息 (PII) 尤其重要。 #3。添加 Disallow 以避免重复内容/与 Canonical 相对立使用 需要对网站进行爬网才能查看规范和近似索引。不要通过 robots.txt 文件阻止内容以尝试按规范进行处理。




这如何成为一个问题: 某些 CMS 和开发环境可能会使添加自定义规范变得困难。在这种情况下,开发人员可能会尝试其他方法作为解决方法。 #4。向第三方站点托管的代码添加禁止 如果您想从第三方网站删除内容,您需要联系网站管理员让他们删除内容。 这如何成为一个问题: 当很难解释源服务器的特定内容时,可能会出现错误。 #5。使用绝对 URL robots.txt 文件中的指令(“Sitemap:”除外)仅对相对路径有效。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阳朔网

GMT+8, 2024-11-28 18:35 , Processed in 0.021203 second(s), 18 queries .

Powered by Discuz! X3.5

Copyright © 2001-2023 Tencent Cloud.

快速回复 返回顶部 返回列表