latix60748@egvo 發表於 前天 15:21

我们的索引中有两个页面



在高峰期,,每个页面有超过 16,000 个链接。这些可能是非常合法的页面,但由于语言障碍,很难分辨。然而,从 SEO 分析的角度来看,这些页面提供的链接权益非常少,因此对索引的贡献不大。



这并不是 .cn TLD 特有的问题。很多垃圾网站都会发生这种情况。但是 股东数据库 我们发现 .cn TLD 中存在大量按词典顺序彼此接近的网站,导致我们的处理集群出现热点。 我们的 DNS 中断持续了 12 个小时,但是没有人注意到。



DNS是互联网的支柱。他绝对不应该死。如果 DNS 出现故障,互联网或多或少就会崩溃,因为无法找到域名的 IP 地址。不幸的是,我们的爬虫程序遇到了 DNS 中断。 爬虫程序继续爬行,但将其爬行的所有页面标记为 DNS 故障。



通常,当我们发生 DNS 故障转移时,是因为域已“死亡”或已脱机。 (有趣的事实:域名的平均寿命为 40 天。)此信息被发送回调度程序,并且该域名被列入黑名单 30 天,然后再次尝试。



如果再次失败,我们将将其从调度程序中删除。 在 12 小时内,我们抓取了很多网站(约 500,000 个)。我们禁止许多网站在 30 天内被重新抓取,其中许多都是高价值域名。



頁: [1]
查看完整版本: 我们的索引中有两个页面

一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |