通过返回的页面信息判断重复

  • 完全重复 内容和布局格式上毫无差别
  • 内容重复 内容毫无差别
  • 布局重复 重要内容重复,布局相同
  • 部分重复 重要内容重复,格式不同

页面信息重复无法解决减少抓取流量的问题,但可以解决存储的结果中无重复的数据,减少存储的空间。