掌握XPath，轻松玩转HTML文档解析与交互

XPath（XML Path Language）是一种在XML文档中查找信息的语言。虽然XPath最初是为XML设计的，但它也可以用于HTML文档的解析和交互。本篇文章将详细介绍XPath的基础知识，以及如何使用XPath在HTML文档中查找、修改和交互数据。

XPath简介

XPath提供了一种基于路径的方式来定位XML或HTML文档中的元素和属性。它使用类似于文件系统的路径语法，通过一系列的轴和表达式来定位文档中的节点。

轴（Axes）

轴是XPath定位节点的方法，它定义了从当前节点出发，可以沿哪个方向移动。以下是一些常用的轴：

/：根轴，指向文档的根节点。
child：子轴，指向当前节点的直接子节点。
descendant：后代轴，指向当前节点的所有后代节点（包括子节点、孙节点等）。
attribute：属性轴，指向当前节点的属性。
parent：父轴，指向当前节点的父节点。
following-sibling：后续同胞轴，指向当前节点之后的所有同胞节点。
preceding-sibling：前导同胞轴，指向当前节点之前的所有同胞节点。

表达式（Expressions）

表达式是XPath的核心，它用于定位节点。以下是一些常用的表达式：

element：用于匹配元素节点。
text：用于匹配文本节点。
comment：用于匹配注释节点。
namespace：用于匹配命名空间节点。

使用XPath解析HTML文档

虽然XPath主要用于XML文档，但也可以用于HTML文档的解析。以下是一个使用Python的lxml库解析HTML文档的例子：

from lxml import etree # 加载HTML文档 html = etree.HTML('<html><head><title>示例文档</title></head><body><p>这是一个段落。</p></body></html>') # 使用XPath查找标题 title = html.xpath('//title/text()')[0] print(title) # 输出：示例文档 # 使用XPath查找所有段落 paragraphs = html.xpath('//p') for paragraph in paragraphs: print(paragraph.text) # 输出：这是一个段落。

使用XPath修改HTML文档

XPath不仅可以用于查找节点，还可以用于修改节点。以下是一个使用lxml库修改HTML文档的例子：

# 使用XPath修改标题 new_title = '修改后的标题' for title in html.xpath('//title'): title.text = new_title # 使用XPath添加新的段落 new_paragraph = etree.Element('p') new_paragraph.text = '这是一个新段落。' html.xpath('//body')[0].append(new_paragraph) # 输出修改后的HTML文档 print(etree.tostring(html, pretty_print=True).decode())