# 工作流程 ## 数据库存储结构 url->标签->单词 ## 爬虫端(新url爬虫) 1. 从数据库的将要爬取的ulr表获取一条url 2. 获取url的html,分析连接'标签'与'单词' 3. 获取url domin,分析新url与站内url 4. 对新url打分,如果是站内url就扣分,(抑制爬虫在同一站点的爬取欲望) 5. 将数据发送到后端 ## 后端(接收新url爬虫) 1. 接收数据,分离'标签'与'单词' 2. 首先查询'标签'是否在数据库中存在,如果存在说明'标签'对应的'单词'也是存在的,这样就不必再往数据库写入内容,同时说明有重复的内容,要扣内容分 3. 如果标签不存在,写入标签,写入对应的单词,单词有可能是重复的,所以要在本地建立一个表记录单词在数据库中的id,链接标签与单词时优先使用本地表 4. 统计标签重复率,按百分比给内容打分,比如重复率是%100就是0分,重复率0%就是100分,分数越低,搜索排名越靠后. ## 搜索数据 1. 将搜索内容分离成单词通过 单词->标签->url 的方式获取最终url并按照内容分排序 2. 如果url被点击,内容分加1 ## 爬虫端(优质内容更新) 1. 时间倒序内容分正序,获取一条url爬取 2. 将数据发送到后端 ## 后端(接收优质内容更新) 1. 对内容进行评分,重复的标签不扣分,如果标签相比之前少了就扣分,多了就加分