xpath爬虫-抓取全国行政区划和城乡区划数据-云社区-华为云

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

追风的大象 · 使用 JSONPath 解析 JSON内容 ...· 18 小时前 ·

慷慨大方的茴香 · xpath 和 jsonpath 解析 - ...· 1 月前 ·

爱跑步的沙滩裤 · 使用 Java 进行网页抓取：2023完整指南· 1 月前 ·

拉风的电池 · 在Electron中从另一个目录加载HTML ...· 1 月前 ·

八块腹肌的大葱 · 腾讯、飞书等在线表格自动化编辑--pytho ...· 1 月前 ·

爱喝酒的围巾 · oracle如何调用存储过程 - 云原生实践· 1 月前 ·

焦虑的春卷 · Comparison to ...· 5 月前 ·

骑白马的盒饭 · Jakarta Contexts and ...· 11 月前 ·

怕老婆的帽子 · poi根据模板导出多个excel文件并压缩成 ...· 1 年前 ·

追风的烤土司 · C++ - 非静态数据成员是在类的规范中声明的。· 1 年前 ·

header = { 'user-agent' : '你自己的浏览器信息' } try : response = requests . get ( url , headers = header ) # 判断网页是否正确返回 if response . status_code == 200 : return response . content . decode ( 'gbk' ) else : print ( "{0}网页请求状态码错误!{0}" . format ( "-" * 10 ) ) except Exception as e : print ( "{0}请求参数出现错误:{1}{0}" . format ( "-" * 10 , e ) ) def parse_url ( url , xpath_path ) : html = get_html ( url ) # 构建下一级跳转初始url部分 next_base_url = "/" . join ( url . split ( "/" ) [ : - 1 ] ) # 初始化 HTML = etree . HTML ( html ) # 获取区级名称和对应下一级链接 all_area = HTML . xpath ( f' { xpath_path } /text()' ) next_link = HTML . xpath ( f' { xpath_path } /@href' ) return [ ( i [ 0 ] , next_base_url + "/" + i [ 1 ] ) for i in list ( zip ( all_area , next_link ) ) ] def parse_url2 ( url , xpath_path ) : """最后一级，无跳转链接""" html = get_html ( url ) # 初始化 HTML = etree . HTML ( html ) villagetr = HTML . xpath ( f' { xpath_path } /text()' ) return villagetr result = [ ] xpath_path = '//tr[@class="countytr"]/td[2]/a' url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/34/3401.html" # 市 get ==》区：名字&链接 for i in parse_url ( url , xpath_path ) : area1 , url = i xpath_path = '//tr[@class="towntr"]/td[2]/a' # 区 get ==》镇：名字&链接 for j in parse_url ( url , xpath_path ) : area2 , url = j xpath_path = '//tr[@class ="villagetr"]/td[3]' # 镇 get ==》街道：名字 for k in parse_url2 ( url , xpath_path ) : result . append ( [ area1 , area2 , k ] ) df = pd . DataFrame ( result , columns = [ "区" , "镇/街道" , "居委会" ] ) df . to_excel ( "合肥市行政区域划分.xlsx" , index = False ) 【版权声明】本文为华为云社区用户原创内容，未经允许不得转载，如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： [email protected]

推荐文章

追风的大象 · 使用 JSONPath 解析 JSON内容详细_jsonpath.read-CSDN博客

18 小时前

慷慨大方的茴香 · xpath 和 jsonpath 解析 - 没有想象力 - 博客园

1 月前

爱跑步的沙滩裤 · 使用 Java 进行网页抓取：2023完整指南

1 月前

拉风的电池 · 在Electron中从另一个目录加载HTML_在atom Electron中从webview访问DOM_在Electron应用程序中动态加载角度组件 - 腾讯云开发者社区 - 腾讯云

1 月前

八块腹肌的大葱 · 腾讯、飞书等在线表格自动化编辑--python_自动化操作腾讯文档-CSDN博客

1 月前

爱喝酒的围巾 · oracle如何调用存储过程 - 云原生实践

1 月前

焦虑的春卷 · Comparison to System.Data.SQLite - Microsoft.Data.Sqlite | Microsoft Learn

5 月前

骑白马的盒饭 · Jakarta Contexts and Dependency Injection

11 月前

怕老婆的帽子 · poi根据模板导出多个excel文件并压缩成.zip格式_七月的风 - 致知学习-PC万里

1 年前

追风的烤土司 · C++ - 非静态数据成员是在类的规范中声明的。

1 年前