需要安装三个依赖
pip install bs4
pip install lxml
pip install retry
把改功能解压出来后,以单独文件存放形式,放项目根目录就行。
主要作用:根据自己整理的关键词或者长尾词,让程序通过爬虫提取标题和起始句。而不是提取原始语料的数据了。
如果速度过快,容易被屏蔽,然后就会停止了,建议加上代理。代理使用“隧道代理,最好每次请求更换IP”
如果使用代理的话,需要将代理开关打开,在代码的最下面,把False改成True。
True为使用代理,False为不使用代理。
声明:由于此工具并非AI项目配套必须品(我们项目有自带的提取标题和起始句的工具),此工具只为拓展协助你提取你自定义的数据,提升使用者的方便,所以本工具需另收费。本工具仅限用于我们AI-CPM批量生成功能。
暂定价格:168元(买断制)