xpath进阶用法开发者社区

link管理

链接快照平台

xpath进阶用法

import requests
from lxml import etree
html = requests.get('http://quotes.toscrape.com/')
tree = etree.HTML(html.text)

'''提取页面中符合下列位置规则的所有keyword'''
tree.xpath("//meta[@class='keywords']/../a[@class='tag']/text()")

'''提取页面中符合下列位置规则的所有keyword'''
tree.xpath("//meta[@class='keywords']/parent::*/a[@class='tag']/text()")

'''提取href属性以/tag开头的a标签内容'''
tree.xpath("//a[starts-with(@href,'/tag')]/text()")

'''提取text()内容包含know的span标签对应的text()内容'''
tree.xpath("//span[contains(text(),'know')]/text()")

'''获取整个页面内所有href属性'''
tree.xpath("//@href")

'''同时取得多个定位规则下的内容'''
tree.xpath("//span[contains(text(),'know')]/text() | //span[contains(text(),'world')]/text()")

'''选取class为quote的div节点下所有span子节点的text()内容'''
tree.xpath("//div[@class='quote']/child::span/text()")

'''选取class为quote的div节点下所有子节点的text()内容'''
tree.xpath("//div[@class='quote']/child::*/text()")

'''选取class为quote的div标签下所有的属性值'''
tree.xpath("//div[@class='quote']/attribute::*")

'''选取class为tag的a标签下所有的href属性值'''
tree.xpath("//a[@class='tag']/attribute::href")

tree.xpath("//meta[@class='keywords']/ancestor::*/@class")

tree.xpath("//meta[@class='keywords']/ancestor-or-self::*/text()")

'''获取class为tags的标签下所有后代节点中a标签的href信息'''
tree.xpath("//div[@class='tags']/descendant::a/@href")

'''定位class为text且itemprop为text的span标签'''
tree.xpath("//span[@class='text' and @itemprop='text']/text()")

tree.xpath("//div[@class='quote' or @class='tags']/@class")

'''提取所有span标签class属性不为text的class属性值'''
tree.xpath("//span[not(@class='text')]/@class")

'''提取所有class为keywords的meta标签结束标签之后出现的标签a的text()内容'''
tree.xpath("//meta[@class='keywords']/following::a/text()")

'''选取body标签之前的所有标签的text()内容'''

推荐文章

追风的大象 · 使用 JSONPath 解析 JSON内容详细_jsonpath.read-CSDN博客

9 小时前

慷慨大方的茴香 · xpath 和 jsonpath 解析 - 没有想象力 - 博客园

1 月前

爱跑步的沙滩裤 · 使用 Java 进行网页抓取：2023完整指南

1 月前

1 月前

八块腹肌的大葱 · 腾讯、飞书等在线表格自动化编辑--python_自动化操作腾讯文档-CSDN博客

1 月前

知识渊博的高山 · 安卓手机_一加 Ace 3 Pro换“新装”，并首发6100mAh冰川电池—6月27日晚7点正式发布！-什么值得买

1 月前

挂过科的椰子 · 逻辑在中国哲学发展中的根基作用--理论-中国共产党新闻网

2 月前

犯傻的芹菜 · 建筑工程系应邀参加智能建造专业建设研讨会暨《智能建造概论》教材编审工作会议

3 月前

近视的针织衫 · 在使用 FNL 许可证时如何管理空闲会话 - 知识库

6 月前

豪情万千的单车 · Day 29 - Next.js 13 的快取機制 ( 二 ) - Full Route Cache & Router Cache - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

7 月前