Beautiful Soup解析文档特定部分

文章目录

　　BeautifulSoup 是一个 Python 模块，用于从抓取的网站中查找特定的网站内容/标签，这些内容/标签可以被任何模块（如 requests 或 scrapy）抓取。请记住，BeautifulSoup 不会抓取网站，而是以可读的形式处理和显示其他模块抓取的内容。因此，要了解我们如何抓取网站上的数据，我们将通过示例来理解。

　　在多种情况下，您希望使用 Beautifulsoup4 提取特定类型的信息（仅标签）。Beautifulsoup 中的 SoupStrainer 类允许您仅解析传入文档的特定部分。一种方法是创建一个 SoupStrainer 并将其作为 parse_only 参数传递给 Beautifulsoup4 构造函数。本文晓得博客为你介绍Beautiful Soup解析文档特定部分。

需要的安装的模块

　　首先，我们需要在我们的计算机上安装所有这些模块。

BeautifulSoup：我们的主要模块包含一个通过 HTTP 访问网页的方法。

pip install bs4

lxml：用 Python 语言处理网页的助手库。

pip install lxml

Requests：使发送 HTTP 请求的过程完美无缺。函数的输出

pip install requests

　　让我们从抓取示例网站开始，看看如何只抓取页面的一部分。

SoupStrainer

　　创建一个 SoupStrainer 并将其作为 parse_only 参数传递给 Beautifulsoup4 构造函数。

　　SoupStrainer 告诉 BeautifulSoup 提取了哪些部分，解析树只包含这些元素。如果您将所需信息缩小到 HTML 的特定部分，这将加快您的搜索结果。

product = SoupStrainer('div',{'id': 'products_list'})
soup = BeautifulSoup(html,parse_only=product)

　　上面的代码行将仅解析来自产品站点的标题，这些标题可能位于标签字段内。

　　类似地，像上面一样，我们可以使用其他 soupStrainer 对象来解析来自 HTML 标签的特定信息。以下是提取 百度热搜 的标题示例 –

from bs4 import BeautifulSoup,SoupStrainer
import requests


URL = "https://www.baidu.com/"

HEADERS = ({'User-Agent':
		'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 \
		(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',
			'Accept-Language': 'en-US, en;q=0.5'})

webpage = requests.get(URL, headers= HEADERS)

soup = BeautifulSoup(webpage.content, "lxml",
					parse_only = SoupStrainer(
					'span', class_= 'title-content-title'))

print(soup.prettify())

导入beautifulsoup模块和请求。声明了Header并添加了一个用户代理。
使用SoupStrainer来过滤掉我们需要的网站部分，根据需求删选
SoupStrainer类告诉我们提取哪一部分，只需要将 SoupStrainer 对象作为parse_only参数传递给 BeautifulSoup 构造函数

　　结果如图显示：

总结

　　以上是晓得博客为你介绍的Beautiful Soup解析文档特定部分的全部内容，如有问题，欢迎留言讨论。

　　推荐：Beautiful Soup 使用教程

Python
使用PyScript在Web上运行Python可视化
发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58
使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…
Read More 使用PyScript在Web上运行Python可视化
ChatGPT教程|Python
Caktus AI怎么使用
发布2024年1月23日上午11:152024年1月22日下午3:11
Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…
Read More Caktus AI怎么使用
Matplotlib教程|Python
Matplotlib与Seaborn的区别
发布2024年1月22日上午11:422024年1月14日下午12:25
Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…
Read More Matplotlib与Seaborn的区别
Beautiful Soup教程|Python
如何用Python下载网页上图像
发布2024年1月21日上午8:482024年1月14日上午8:56
如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…
Read More 如何用Python下载网页上图像
Jupyter Notebook教程|Python
10个Jupyter Notebook提示和技巧
发布2024年1月20日下午5:002026年3月21日下午8:31更新2026年3月21日下午8:31
10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…
Read More 10个Jupyter Notebook提示和技巧
NumPy教程|Python
NumPy二元运算符
发布2024年1月19日下午3:532026年3月21日下午8:35更新2026年3月21日下午8:35
NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…
Read More NumPy二元运算符

Beautiful Soup解析文档特定部分

需要的安装的模块

SoupStrainer

总结

相关文章