解锁HTML文档搜索的利器：XPath高效搜索技巧全解析

XPath（XML Path Language）是一种在XML文档中查找信息的语言。虽然XPath最初是为XML设计的，但它同样适用于HTML文档的搜索和解析。对于前端开发者、数据科学家或任何需要从HTML中提取信息的人来说，掌握XPath是一个非常有用的技能。本文将详细介绍XPath高效搜索技巧，帮助你更好地利用这一工具。

一、XPath基础

1. 节点选择器

XPath使用节点选择器来定位XML或HTML文档中的元素。以下是一些常用的节点选择器：

元素选择器：例如 html、body、div。
属性选择器：例如 *[lang="en"]（选择所有具有lang属性且值为en的元素）。
类选择器：例如 .my-class（选择所有具有my-class类的元素）。
ID选择器：例如 #my-id（选择具有ID为my-id的元素）。

2. 基本路径

XPath使用路径表达式来定位节点。基本路径包括以下几种：

绝对路径：从根节点开始定位，例如 /html/body。
相对路径：从当前节点开始定位，例如 /..（父节点）、@lang（属性）。

二、XPath高级搜索技巧

1. 通用选择器

使用*可以匹配任何元素，例如 *|@lang 可以匹配所有元素和属性。

//html|body|div/*|@lang

2. 上下文节点

使用.和..可以分别代表当前节点和父节点。

//..//div

3. 位置表达式

XPath支持位置表达式，如position()和last()，用于指定节点的位置。

//div[position()=1]

4. 布尔运算符

可以使用布尔运算符and、or和not来组合条件。

//div[@class="my-class" and @id="my-id"]

5. 递归搜索

使用//可以递归搜索所有子节点。

//div//span

三、XPath在实际应用中的示例

假设我们有一个HTML文档：

<html> <head> <title>Example</title> </head> <body> <div id="container"> <div class="item"> <h1>Title</h1> <p>Paragraph 1</p> </div> <div class="item"> <h1>Title</h1> <p>Paragraph 2</p> </div> </div> </body> </html>

以下是一些XPath搜索示例：