修复排序问题和初始入口问题

This commit is contained in:
2026-04-12 00:42:51 +08:00
parent a9fc6551ac
commit 7058da47da
6 changed files with 16 additions and 16 deletions
+2 -2
View File
@@ -58,14 +58,14 @@ index:
# 爬虫行为相关配置
crawler:
spider_name: "loli_spider" # HTTP 请求的 User-Agent 标识
spider_name: "Haibara_AI_spider" # HTTP 请求的 User-Agent 标识
cooldown: 3 # 同一主机相邻两次请求的最小间隔(秒),用于遵守 robots.txt 和避免被封
workers: 22 # 爬虫并发 goroutine 数量
crawl_focus: 0.7 # 域名集中度因子,越大越倾向在少量域名内深挖,越小越分散
max_keywords_per_page: 250 # 单个页面最多提取的关键词数量
max_epoch: 100 # BFS 爬取的最大轮次上限
expected_prosper_ratio: 0.6 # 队列中预期"繁荣"域名(高反向链接)的占比,用于调度决策
entry_url: "https://zh.wikipedia.org/" # BFS 爬取的起始入口 URL
entry_url: "https://haibara.ai/" # BFS 爬取的起始入口 URL
max_page_size: 5242880 # 单个页面最大抓取字节数(0=不限,默认 5MB)
recrawl_max_age: 2592000 # URL 过期时间(秒),超过此时间的 URL 允许被重爬,默认 30 天
recrawl_check_interval: 3600 # 运行期间检查过期 URL 的间隔(秒),默认 1 小时