fix 分词bug,添加重爬机制

This commit is contained in:
2026-04-10 00:18:07 +08:00
parent 7ab7db9b76
commit 530e2ebd9d
9 changed files with 208 additions and 34 deletions
+4
View File
@@ -66,6 +66,10 @@ crawler:
max_epoch: 100 # BFS 爬取的最大轮次上限
expected_prosper_ratio: 0.6 # 队列中预期"繁荣"域名(高反向链接)的占比,用于调度决策
entry_url: "https://zh.wikipedia.org/" # BFS 爬取的起始入口 URL
max_page_size: 5242880 # 单个页面最大抓取字节数(0=不限,默认 5MB)
recrawl_max_age: 2592000 # URL 过期时间(秒),超过此时间的 URL 允许被重爬,默认 30 天
recrawl_check_interval: 3600 # 运行期间检查过期 URL 的间隔(秒),默认 1 小时
recrawl_batch_size: 500 # 每次检查最多释放多少个过期 URL
# 搜索结果排序权重配置
search: