XQuery处理XML数据实例从基础查询到高级应用全解析助您轻松掌握XML数据处理技巧提升开发效率

引言

XML（eXtensible Markup Language）作为一种重要的数据交换和存储格式，在Web服务、企业应用集成、文档管理等领域有着广泛的应用。随着XML数据的日益增长，如何高效地查询和处理这些数据成为开发者面临的重要挑战。XQuery作为一种专门用于查询XML数据的语言，提供了强大而灵活的功能，能够帮助开发者轻松地从XML文档中提取、转换和操作数据。

XQuery是W3C（World Wide Web Consortium）制定的标准查询语言，专门设计用于查询XML数据。它结合了XPath的导航能力和SQL的查询能力，使得开发者可以以一种直观、高效的方式处理XML数据。无论是简单的数据提取还是复杂的数据转换，XQuery都能够胜任。

本文将从XQuery的基础语法开始，逐步深入到高级应用，通过丰富的实例帮助读者全面掌握XQuery的使用技巧，提升XML数据处理的效率。无论您是XQuery的初学者还是有一定经验的开发者，本文都能为您提供有价值的参考和指导。

XQuery基础

XQuery简介

XQuery是一种用于查询XML数据的函数式编程语言，它于2007年成为W3C的推荐标准。XQuery的设计目标是提供一种灵活、强大且易于使用的语言，用于从XML文档中提取和操作数据。

XQuery具有以下特点：

强大的查询能力：可以查询XML文档中的任何数据
灵活性：支持复杂的查询条件和数据转换
标准化：作为W3C标准，得到了广泛的支持
与其他标准的兼容性：与XML、XPath、XSLT等标准紧密集成

XQuery基本语法

XQuery的基本语法类似于XML，同时融合了一些编程语言的特性。下面是一个简单的XQuery示例：

(: 这是一个简单的XQuery注释 :) for $book in /bookstore/book where $book/price > 30 return $book/title

这个查询的意思是：从bookstore根元素下的所有book元素中，选择价格大于30的书籍，并返回这些书籍的标题。

XQuery表达式和数据类型

XQuery支持多种表达式和数据类型，包括：

路径表达式：使用XPath语法导航XML文档

/bookstore/book/title (: 选择所有书籍的标题 :)

FLWOR表达式：XQuery的核心表达式，用于复杂的查询

for $x in doc("books.xml")/bookstore/book where $x/price > 30 order by $x/title return $x/title

条件表达式：使用if-then-else进行条件判断

if ($book/price > 50) then "Expensive" else "Affordable"

数据类型：XQuery支持XML Schema定义的数据类型，如字符串、整数、日期等

序列：XQuery中的基本数据结构，可以包含零个或多个项

("apple", "banana", "orange") (: 一个包含三个字符串的序列 :)

XQuery与XPath的关系

XPath是XQuery的一个重要组成部分，它提供了一种在XML文档中导航的语言。XQuery扩展了XPath的功能，增加了FLWOR表达式、条件表达式、排序等功能。可以说，XQuery是XPath的超集，它包含了XPath的所有功能，并添加了更多的特性。

基础查询

简单数据提取

最基本的XQuery操作是从XML文档中提取数据。假设我们有以下XML文档（books.xml）：

<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J.K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price> </book> <book category="WEB"> <title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book> </bookstore>

我们可以使用以下XQuery提取所有书籍的标题：

doc("books.xml")/bookstore/book/title

这将返回：

<title lang="en">Everyday Italian</title> <title lang="en">Harry Potter</title> <title lang="en">XQuery Kick Start</title> <title lang="en">Learning XML</title>

使用谓词进行过滤

谓词（Predicate）是XPath和XQuery中用于过滤节点的重要工具，它放在方括号[]中。例如，我们可以使用谓词选择价格大于30的书籍：

doc("books.xml")/bookstore/book[price > 30]

这将返回：

<book category="WEB"> <title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price> </book> <book category="WEB"> <title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book>

我们还可以使用多个谓词进行更复杂的过滤。例如，选择价格大于30且类别为”WEB”的书籍：

doc("books.xml")/bookstore/book[price > 30 and @category = "WEB"]

使用轴进行导航

XPath提供了多种轴（Axis）用于在XML文档中导航。常用的轴包括：

child：子节点（默认轴）
parent：父节点
ancestor：祖先节点
descendant：后代节点
attribute：属性节点
following-sibling：后续兄弟节点
preceding-sibling：前置兄弟节点

例如，我们可以使用ancestor轴获取某个节点的所有祖先：

doc("books.xml")/bookstore/book[1]/title/ancestor::*

这将返回：

<bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J.K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price> </book> <book category="WEB"> <title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book> </bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book>

使用函数处理数据

XQuery提供了丰富的内置函数，用于处理和转换数据。例如，我们可以使用string()函数获取节点的文本内容：

string(doc("books.xml")/bookstore/book[1]/title)

这将返回：

Everyday Italian

我们还可以使用count()函数计算节点的数量：

count(doc("books.xml")/bookstore/book)

这将返回：

其他常用的XQuery函数包括：

concat()：连接字符串
substring()：提取子字符串
upper-case()：转换为大写
lower-case()：转换为小写
number()：转换为数字
sum()：计算总和
avg()：计算平均值
max()：计算最大值
min()：计算最小值

例如，我们可以计算所有书籍的平均价格：

avg(doc("books.xml")/bookstore/book/price)

这将返回：

37.4825

高级查询

FLWOR表达式

FLWOR（For, Let, Where, Order by, Return）表达式是XQuery的核心，它提供了一种灵活的方式来查询和转换XML数据。FLWOR表达式类似于SQL中的SELECT-FROM-WHERE语句，但功能更加强大。

下面是一个简单的FLWOR表达式示例：

for $book in doc("books.xml")/bookstore/book where $book/price > 30 order by $book/price return $book/title

这个查询的意思是：

for $book in doc("books.xml")/bookstore/book：遍历bookstore中的所有book元素，并将每个元素绑定到变量$book
where $book/price > 30：过滤出价格大于30的书籍
order by $book/price：按照价格排序
return $book/title：返回符合条件的书籍标题

这将返回：

<title lang="en">Learning XML</title> <title lang="en">XQuery Kick Start</title>

For子句

for子句用于遍历序列中的每个项，并将每个项绑定到一个变量。我们可以使用多个for子句实现嵌套循环：

for $book in doc("books.xml")/bookstore/book for $author in $book/author return <author>{$author}</author>

这将返回：

<author>Giada De Laurentiis</author> <author>J.K. Rowling</author> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <author>Erik T. Ray</author>

Let子句

let子句用于将值绑定到变量，与for子句不同，let子句不会遍历序列，而是将整个序列绑定到变量：

let $books := doc("books.xml")/bookstore/book let $count := count($books) return <count>{$count}</count>

这将返回：

<count>4</count>

Where子句

where子句用于过滤结果，类似于SQL中的WHERE子句：

for $book in doc("books.xml")/bookstore/book where $book/price > 30 and $book/@category = "WEB" return $book/title

这将返回：

<title lang="en">XQuery Kick Start</title> <title lang="en">Learning XML</title>

Order by子句

order by子句用于对结果进行排序：

for $book in doc("books.xml")/bookstore/book order by $book/price descending return $book/title

这将返回：

<title lang="en">XQuery Kick Start</title> <title lang="en">Learning XML</title> <title lang="en">Everyday Italian</title> <title lang="en">Harry Potter</title>

Return子句

return子句用于指定要返回的结果，可以返回原始XML节点，也可以构造新的XML节点：

for $book in doc("books.xml")/bookstore/book return <bookTitle>{$book/title/text()}</bookTitle>

这将返回：

<bookTitle>Everyday Italian</bookTitle> <bookTitle>Harry Potter</bookTitle> <bookTitle>XQuery Kick Start</bookTitle> <bookTitle>Learning XML</bookTitle>

条件查询

XQuery支持使用if-then-else表达式进行条件判断：

for $book in doc("books.xml")/bookstore/book return if ($book/price > 40) then <expensiveBook>{$book/title}</expensiveBook> else <affordableBook>{$book/title}</affordableBook>

这将返回：

<affordableBook> <title lang="en">Everyday Italian</title> </affordableBook> <affordableBook> <title lang="en">Harry Potter</title> </affordableBook> <expensiveBook> <title lang="en">XQuery Kick Start</title> </expensiveBook> <affordableBook> <title lang="en">Learning XML</title> </affordableBook>

量化表达式

XQuery提供了两种量化表达式：some和every，用于检查序列中的项是否满足某个条件。

some表达式检查序列中是否至少有一个项满足条件：

some $book in doc("books.xml")/bookstore/book satisfies $book/price > 50

这将返回：

false

every表达式检查序列中的所有项是否都满足条件：

every $book in doc("books.xml")/bookstore/book satisfies $book/price > 20

这将返回：

true

序列操作

XQuery提供了丰富的序列操作功能，包括序列的构造、过滤、排序、组合等。

序列构造

可以使用逗号或to关键字构造序列：

(1, 2, 3, 4, 5) (: 使用逗号构造序列 :) 1 to 5 (: 使用to关键字构造序列 :)

序列过滤

可以使用谓词过滤序列：

(1 to 10)[. mod 2 = 0] (: 过滤出1到10中的偶数 :)

这将返回：

2, 4, 6, 8, 10

序列排序

可以使用order by子句对序列进行排序：

for $price in doc("books.xml")/bookstore/book/price order by $price descending return $price

这将返回：

49.99 39.95 30.00 29.99

序列组合

可以使用逗号操作符或union、intersect、except等操作符组合序列：

(: 使用逗号操作符合并序列 :) let $titles1 := doc("books.xml")/bookstore/book[position() <= 2]/title let $titles2 := doc("books.xml")/bookstore/book[position() > 2]/title return ($titles1, $titles2) (: 使用union操作符合并序列 :) let $titles1 := doc("books.xml")/bookstore/book[position() <= 2]/title let $titles2 := doc("books.xml")/bookstore/book[position() > 2]/title return $titles1 union $titles2

这两个查询都将返回所有书籍的标题。

XML构造

XQuery不仅可以查询XML数据，还可以构造新的XML数据。我们可以使用直接构造或计算构造来创建XML元素。

直接构造

直接构造使用XML语法直接创建元素：

<bookstore> { for $book in doc("books.xml")/bookstore/book where $book/price > 30 return <book> <title>{$book/title/text()}</title> <price>{$book/price/text()}</price> </book> } </bookstore>

这将返回：

<bookstore> <book> <title>XQuery Kick Start</title> <price>49.99</price> </book> <book> <title>Learning XML</title> <price>39.95</price> </book> </bookstore>

计算构造

计算构造使用element和attribute等构造器来创建元素和属性：

element bookstore { for $book in doc("books.xml")/bookstore/book where $book/price > 30 return element book { element title { $book/title/text() }, element price { $book/price/text() } } }

这将返回与直接构造相同的结果。

函数定义与调用

XQuery允许用户定义自己的函数，并在查询中调用这些函数。函数定义使用declare function关键字：

declare function local:discount($price as xs:decimal, $discountRate as xs:decimal) as xs:decimal { $price * (1 - $discountRate) }; for $book in doc("books.xml")/bookstore/book return <book> <title>{$book/title/text()}</title> <originalPrice>{$book/price/text()}</originalPrice> <discountedPrice>{local:discount($book/price, 0.1)}</discountedPrice> </book>

这将返回：

<book> <title>Everyday Italian</title> <originalPrice>30.00</originalPrice> <discountedPrice>27.00</discountedPrice> </book> <book> <title>Harry Potter</title> <originalPrice>29.99</originalPrice> <discountedPrice>26.991</discountedPrice> </book> <book> <title>XQuery Kick Start</title> <originalPrice>49.99</originalPrice> <discountedPrice>44.991</discountedPrice> </book> <book> <title>Learning XML</title> <originalPrice>39.95</originalPrice> <discountedPrice>35.955</discountedPrice> </book>

实际应用

数据转换

XQuery不仅可以查询XML数据，还可以将XML数据转换为其他格式，如HTML、JSON或其他XML结构。

转换为HTML

<html> <head> <title>Book List</title> </head> <body> <h1>Book List</h1> <table border="1"> <tr> <th>Title</th> <th>Author</th> <th>Price</th> </tr> { for $book in doc("books.xml")/bookstore/book order by $book/title return <tr> <td>{$book/title/text()}</td> <td>{$book/author/text()}</td> <td>{$book/price/text()}</td> </tr> } </table> </body> </html>

这将生成一个HTML表格，显示所有书籍的标题、作者和价格。

转换为JSON

虽然XQuery本身不直接支持JSON，但我们可以构造JSON格式的字符串：

"[" || string-join( for $book in doc("books.xml")/bookstore/book return '{' || '"title": "' || $book/title/text() || '", ' || '"author": "' || $book/author/text() || '", ' || '"price": ' || $book/price/text() || '}', ", " ) || "]"

这将返回一个JSON数组：

[ {"title": "Everyday Italian", "author": "Giada De Laurentiis", "price": 30.00}, {"title": "Harry Potter", "author": "J.K. Rowling", "price": 29.99}, {"title": "XQuery Kick Start", "author": "James McGovern", "price": 49.99}, {"title": "Learning XML", "author": "Erik T. Ray", "price": 39.95} ]

数据聚合

XQuery提供了强大的数据聚合功能，可以计算总和、平均值、最大值、最小值等。

计算总价格

let $total := sum(doc("books.xml")/bookstore/book/price) return <totalPrice>{$total}</totalPrice>

这将返回：

<totalPrice>149.93</totalPrice>

按类别分组统计

let $books := doc("books.xml")/bookstore/book let $categories := distinct-values($books/@category) return <statistics> { for $category in $categories let $categoryBooks := $books[@category = $category] return <category name="{$category}"> <count>{count($categoryBooks)}</count> <avgPrice>{avg($categoryBooks/price)}</avgPrice> <totalPrice>{sum($categoryBooks/price)}</totalPrice> </category> } </statistics>

这将返回：

<statistics> <category name="COOKING"> <count>1</count> <avgPrice>30.00</avgPrice> <totalPrice>30.00</totalPrice> </category> <category name="CHILDREN"> <count>1</count> <avgPrice>29.99</avgPrice> <totalPrice>29.99</totalPrice> </category> <category name="WEB"> <count>2</count> <avgPrice>44.97</avgPrice> <totalPrice>89.94</totalPrice> </category> </statistics>

数据连接

XQuery可以连接多个XML文档，类似于SQL中的JOIN操作。

假设我们有另一个XML文档（authors.xml）：

<?xml version="1.0" encoding="UTF-8"?> <authors> <author> <name>Giada De Laurentiis</name> <country>Italy</country> </author> <author> <name>J.K. Rowling</name> <country>UK</country> </author> <author> <name>James McGovern</name> <country>USA</country> </author> <author> <name>Per Bothner</name> <country>USA</country> </author> <author> <name>Kurt Cagle</name> <country>USA</country> </author> <author> <name>James Linn</name> <country>USA</country> </author> <author> <name>Vaidyanathan Nagarajan</name> <country>India</country> </author> <author> <name>Erik T. Ray</name> <country>USA</country> </author> </authors>

我们可以连接这两个文档，获取每本书及其作者的国籍：

for $book in doc("books.xml")/bookstore/book for $author in doc("authors.xml")/authors/author where $book/author = $author/name return <book> <title>{$book/title/text()}</title> <author>{$book/author/text()}</author> <country>{$author/country/text()}</country> </book>

这将返回：

<book> <title>Everyday Italian</title> <author>Giada De Laurentiis</author> <country>Italy</country> </book> <book> <title>Harry Potter</title> <author>J.K. Rowling</author> <country>UK</country> </book> <book> <title>XQuery Kick Start</title> <author>James McGovern</author> <country>USA</country> </book> <book> <title>XQuery Kick Start</title> <author>Per Bothner</author> <country>USA</country> </book> <book> <title>XQuery Kick Start</title> <author>Kurt Cagle</author> <country>USA</country> </book> <book> <title>XQuery Kick Start</title> <author>James Linn</author> <country>USA</country> </book> <book> <title>XQuery Kick Start</title> <author>Vaidyanathan Nagarajan</author> <country>India</country> </book> <book> <title>Learning XML</title> <author>Erik T. Ray</author> <country>USA</country> </book>

数据更新

XQuery Update Facility是XQuery的一个扩展，提供了更新XML数据的功能。需要注意的是，不是所有的XQuery实现都支持Update Facility。

插入元素

insert node <publisher>W3Schools</publisher> as last into doc("books.xml")/bookstore/book[1]

这将在第一本书中插入一个publisher元素。

删除元素

delete node doc("books.xml")/bookstore/book[1]/publisher

这将删除第一本书中的publisher元素。

替换元素

replace node doc("books.xml")/bookstore/book[1]/price with <price currency="USD">35.00</price>

这将替换第一本书中的price元素。

重命名元素

rename node doc("books.xml")/bookstore/book[1]/price as "cost"

这将把第一本书中的price元素重命名为cost。

性能优化

使用索引

在处理大型XML文档时，使用索引可以显著提高查询性能。大多数XQuery实现都支持索引，可以通过以下方式创建索引：

(: 创建价格索引 :) create index price_index on collection("books")/bookstore/book/price

避免全文档扫描

尽量避免使用//操作符，因为它会导致全文档扫描。应该使用更具体的路径表达式：

(: 不推荐 - 全文档扫描 :) doc("books.xml")//title (: 推荐 - 使用具体路径 :) doc("books.xml")/bookstore/book/title

使用变量缓存结果

在复杂查询中，可以使用变量缓存中间结果，避免重复计算：

(: 不推荐 - 重复计算 :) for $book in doc("books.xml")/bookstore/book where doc("books.xml")/bookstore/book[price > 30] return $book/title (: 推荐 - 使用变量缓存 :) let $expensiveBooks := doc("books.xml")/bookstore/book[price > 30] for $book in $expensiveBooks return $book/title

使用谓词优化

在可能的情况下，尽量使用位置谓词而不是计算谓词：

(: 不推荐 - 使用计算谓词 :) doc("books.xml")/bookstore/book[position() = last()] (: 推荐 - 使用位置谓词 :) doc("books.xml")/bookstore/book[last()]

避免不必要的排序

排序是一个昂贵的操作，应该尽量避免不必要的排序：

(: 不推荐 - 不必要的排序 :) for $book in doc("books.xml")/bookstore/book order by $book/title return $book/title (: 推荐 - 避免不必要的排序 :) doc("books.xml")/bookstore/book/title

最佳实践

使用模块化设计

将复杂的XQuery代码分解为多个模块，每个模块负责特定的功能。这可以提高代码的可读性和可维护性：

(: 导入模块 :) import module namespace book-utils = "http://example.com/book-utils" at "book-utils.xqy"; (: 使用模块中的函数 :) for $book in doc("books.xml")/bookstore/book return book-utils:format-book($book)

使用注释

在XQuery代码中使用注释，解释代码的目的和功能：

(: 计算书籍的平均价格 :) let $avgPrice := avg(doc("books.xml")/bookstore/book/price) return <averagePrice>{$avgPrice}</averagePrice>

使用类型声明

在函数定义和变量声明中使用类型声明，可以提高代码的可读性和性能：

(: 使用类型声明 :) declare function local:calculate-discount( $price as xs:decimal, $discountRate as xs:decimal ) as xs:decimal { $price * (1 - $discountRate) }; (: 不使用类型声明 - 不推荐 :) declare function local:calculate-discount($price, $discountRate) { $price * (1 - $discountRate) }

错误处理

使用try-catch表达式处理可能的错误：

try { doc("nonexistent.xml")/bookstore/book } catch * { <error>Error loading document: {$err:description}</error> }

使用命名空间

在处理多个XML文档时，使用命名空间可以避免名称冲突：

(: 声明命名空间 :) declare namespace book = "http://example.com/books"; declare namespace author = "http://example.com/authors"; (: 使用命名空间 :) for $book in doc("books.xml")/book:bookstore/book:book for $author in doc("authors.xml")/author:authors/author:author where $book/book:author = $author/author:name return <book> <title>{$book/book:title/text()}</title> <author>{$book/book:author/text()}</author> <country>{$author/author:country/text()}</country> </book>