当前位置：首页 > 百科知识

百科知识

中国商盾网商标查询(商标类别明细)

2023-12-25 14:01:54 来源：互联网

爬虫介绍

image这是一个采集程序，不需要登录，根据企业名称抓取企业页面数据。

注：这是一个比较简单的爬虫，基本上只使用代理，不使用其他反爬技术。但是由于爬取的数据量较大，适合刷解析技能的熟练程度，所以高手不要输入

代码已经上传到GitHub有用请给我一个star

python版本: python2.7

编码工具: pycharm

数据存储: MySQL

crawler结构:广度crawler

crawler idea:

iamge 先获取需要采集信息的公司： get from database get field:etid，etname get data from state table of The acquired data storage。并更新状态表拼接etname和初始url获取初始url 拼接初始URL：将初始url放在一个列表中，如何在获取HTML时出错，将错误的url放在另一个列表中，进行循环采集验证查询的公司是否正确(？)请求解析初始一级页面：将二级url放在一个列表中，获取HTML时如何出错，将错误的url放在另一个列表中，循环获取将二级url放在一个列表中，获取HTML时如何出错，将错误的url放在另一个列表中，循环获取获取待确定的信息请求解析二级页面：创建表将公司的信息存储到数据库中：创建表：创建表：

企业主信息：et_host_info

iamge 工商信息：et_busi_info分公司信息：et_branch_office软件版权信息：et_container_copyright_info网站记录信息：et _ convainer _ ICP _ info 外商投资信息：et_foreign_investment_info融资融资信息： et_rongzi_info股东信息： et_stareholder_info商标信息： et_trademark_info状态表： et_name_status

看一下部分的结果图：

iamge iamge iamge iamge

上一篇：凉凉！视觉中国版权事件或构成商业欺诈
下一篇：商标法案例分析100例(个体户被诉商标侵权)

百科知识

中国商盾网商标查询(商标类别明细)

爬虫介绍

crawler idea:

企业主信息：et_host_info

看一下部分的结果图：

其他文章

疑难问答

热门文章

随机文章