AtlantisRagnarok

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 19|回復: 0

索引擎和在线爬虫有自己的用

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2023-12-28 16:14:18 | 顯示全部樓層 |閱讀模式
址的大部分。 星号 (*) 有助于总结规则中的 URL。例如,要阻止 PDF 中的所有页面扫描该地址,您需要添加星号。 美元符号 ($) 附加在 URL 的末尾。它通常用于防止扫描具有特定扩展名的文件或页面。 井号 (#) 有助于文件导航。它用于指示搜索工作忽略的评论。 对于初学者来说,在清楚 robotstxt 文件是什么之后,最好立即理解语法。您可以从指令开始学习,但语法也很重要。 只需要学习 4 个基本指令。您可以为所有用户代理创建相同的规则,而不必分别在每个用户代理上浪费额外的时间。但应该考虑到,每个蜘蛛抓取



页面的过程都是不同的。 41 用户代理 搜户代理。通过它们,服务器可以了解哪个机器人访问了该站点。然后您可以简单地监视日志文件中特定蜘蛛的行为。 用户代理在机器人中用于指示哪些规则适用于特定的蜘蛛。当每含所有重要页 电话号码清单 面的链接非常个人的模式都相同时,行中会使用星号。 文件中至少可以有 50 个与用户有关的指令,但最好制作 3-5 个单独的列表。请务必添加注释以便于





导航。那么就有机会在大量的数据中不被迷惑。 42 不允许 当禁用地址列表中的页面或部分进行扫描时,使用该指令。它通常用于重复项、服务 URL 和分页。 Disallow 必须与斜杠字符组合。如果地址的路径不固定,搜索蜘蛛将忽略该规则。因此最好确保语法正确。 应谨慎处理该指令,因为存在重要地址可能不包含在搜索结果中的风险。在保存对文件的更改之前,最好执行附加分析。 43 允许 robotstxt 的最佳实践之一是使用Allow 指令。它允许您扫描页面或整个部分。它与 Disallow 结合使用以创建最佳文件结构。 您还需要仔细使用“允许”,以便搜索结果不包含服务页面和其他模糊项目内链接注意力的 URL。在地址中正确使用斜杠可确保覆盖所需的页面

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|AtlantisRagnarok

GMT+8, 2025-1-10 21:08 , Processed in 0.031419 second(s), 18 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |