当前位置：首页 > Python > 正文

PyQuery库是什么？Python中的jQuery式HTML解析利器

XiaoChuanZhi
Python
2025-08-11
1691

PyQuery库：Python中的jQuery式HTML解析利器

什么是PyQuery？

PyQuery是一个基于lxml的Python库，它实现了类似jQuery的语法，用于解析和处理HTML/XML文档。通过熟悉的CSS选择器和链式操作，开发者可以高效地从网页中提取数据。

核心优势

jQuery式语法 - 对前端开发者友好
支持CSS3选择器
完整的DOM操作API
比BeautifulSoup更快的解析速度
自动处理编码问题

安装PyQuery

pip install pyquery

基础使用示例

解析HTML并提取数据：

from pyquery import PyQuery as pq

# 从URL加载
doc = pq(url='https://example.com')

# 从字符串加载
html = '''<div class="container">
    <h1>标题</h1>
    <p class="content">正文内容</p>
</div>'''
doc = pq(html)

# 元素选择
title = doc('h1').text()
print(f"标题: {title}")

# 属性获取
div_class = doc('.container').attr('class')
print(f"DIV类名: {div_class}")

# 遍历元素
doc('p').each(lambda i, e: print(pq(e).text()))

常用操作

1. CSS选择器

# 选择所有链接
links = doc('a')

# 嵌套选择
items = doc('ul.menu > li')

2. 属性操作

# 获取属性
img_src = doc('img').attr('src')

# 设置属性
doc('a').attr('target', '_blank')

3. 内容操作

# 获取HTML内容
html_content = doc('.article').html()

# 获取文本内容
text_content = doc('p.intro').text()

# 修改内容
doc('h1').html('<em>新标题</em>')

实际应用场景

网页数据抓取

def scrape_products(url):
    doc = pq(url=url)
    products = []
    
    for item in doc('.product-item').items():
        products.append({
            'name': item.find('h3').text(),
            'price': item.find('.price').text(),
            'link': item.find('a').attr('href')
        })
    
    return products

与BeautifulSoup对比

特性	PyQuery	BeautifulSoup
语法风格	jQuery式链式调用	面向对象方式
解析速度	较快（基于lxml）	取决于解析器
CSS选择器	完整支持	支持（需配合SoupSieve）