关键词采集文章(百度相关关键词查询defxgss) -足球即时指数
优采云采集器 发布时间: 2021-09-23 11:05百度相关搜索关键词爬行,阅读txt 关键词,导出txt 关键词
#百度相关搜索关键词爬行,读取txt 关键词,导出txt 关键词
# - * - 编码= utf-8 - * -
导入请求
导入re
导入时间
从multiprocessing.dummy导入池作为threadpool
#百度相关关键词查询
def xgss(url):
标题= {
“用户 - 代理”:“mozilla / 5. 0(windows nt 1 0. 0; win64; x6 @ applewebkit / 53 7. 36(khtml,喜欢壁虎)chrome / 6 8.8. 0. 344 0. 106 safari / 53 7. 36“
}
html = requests.get(url,标题=标题).text
#print(html)
ze = r'
相关搜索
xgss = re.findall(ze,html,re.s)
#print(xgss)
xgze = r'
(。 ?)'
sj = re.findall(xgze,str(xgss),re.s)
#print(sj)
gjc =''
在sj中为x:
打印(x [1])
gjc = gjc x [1] '\ n'
#导出关键词是txt text
与打开(“。\ gjcsj.txt”,'a',编码='utf-8')作为f:
f.write(gjc)
打印(“------------------------------”)
返回gjc
打印(“程序正在运行,导入关键词 list !!!”)
打印(“------------------------------”)
#导入关键词 txt列表
urls = []
data = []
在打开的行('\ gjc.txt',“r”,编码='utf-8'):
data.append(行)
打印(“导入关键词列成!”)
打印(“------------------------------”)
#关键词搜索链接
数据中的关键字:
url ='#39; 关键字
urls.append(url)
打印(“采集百分之相关搜关键词开!”)
打印(“.................”)
#多线程采集相关关键词
尝试:
#打开4个工作人员,默认值是没有参数的cpu的核心号
pool = threadpool()
结果= pool.map(xgss,urls)
pool.close()
pool.join()
print(“采集百度相关关键词 complety,已保存在gjcsj.txt中!”)
除:
打印(“错误:无法启动线程”)
打印(“8s后程序自动关闭!”)
time.sleep(8)
优采云采集器是一个根据用户提供的关键词,云端自动采集相关文章并发布到用户网站的网站采集器。它能够自动识别各种网页上的标题、正文等信息,不需要用户编写任何采集规则就可以实现全网采集。采集到内容后,会自动计算内容与所设定的关键词的相关度,只把相关的文章推送给用户。支持标题前缀、关键词自动加粗、插入固定链接、自动提取tag标签、自动内链、自动配图、自动伪原创、内容过滤和替换、电话号码和网址清理、定时采集、百度主动提交等一系列seo功能。用户只需设置好关键词和相关需求,就能实现全托管、零维护的网站内容更新。不限网站数量,不管是单个网站还是大批量站群,都可以非常方便的进行管理。