使用BeautifulSoup解析表和XML

文章目录

　　Python编程中的解析意味着将一团文本分解成更小且有意义的部分。这种分解取决于特定解析器定义的某些规则和因素。这些解析器的范围可以从逐行解析的本机字符串方法到诸如 html5lib，它可以解析 HTML 文档的几乎所有元素，将其分解为不同的标签和片段，可以针对各种用例过滤掉这些元素。

　　抓取是每个人都应该学习的一项非常重要的技能，它可以帮助我们从网站或文件中抓取数据，本文我们晓得博客为你介绍使用BeautifulSoup解析表和XML的全部内容，在深入研究之前对这两个库进行概述。

　　推荐：如何使用BeautifulSoup抓取网页

Python中解析器

　　Html5lib 和 lxml 是一个 Python 库，可以轻松处理 XML 和 HTML 文件，也可用于网页抓取。有很多现成的 XML 解析器，但为了获得更好的结果，开发人员有时更喜欢编写自己的 XML 和 HTML 解析器。由于 html5lib是一个纯 python 库，它具有外部 Python 依赖关系，而 lxml某些 C 库的绑定具有外部 C 依赖关系。

　　lxml： C库的成熟的 Pythonic 绑定 libxml2和 libxslt. 它的独特之处在于它将这些库的速度和 XML 功能完整性与原生 Python API 的简单性相结合，大部分兼容但优于众所周知的 ElementTree火。

　　lxml 安装：

pip install lxml

　　bs4： Beautiful Soup 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。可以使用以下命令安装它：

pip install bs4

　　request： Requests 允许您非常轻松地发送 HTTP/1.1 请求。可以使用以下命令安装它：

pip install requests

　　推荐：零基础如何开始学习Python

BeautifulSoup解析表的方法

　　第 1 步： 首先，我们需要导入模块，然后分配 URL。

# import required modules
import bs4 as bs
import requests

# assign URL
URL = 'https://www.geeksforgeeks.org/python-list/'

　　第 2 步： 创建一个 BeautifulSoap 对象进行解析。

# parsing
url_link = requests.get(URL)
file = bs.BeautifulSoup(url_link.text, "lxml")

　　第 3 步： 然后找到表及其行。

# find all tables
find_table = file.find('table', class_='numpy-table')
rows = find_table.find_all('tr')

　　第 4 步： 现在创建一个循环来查找表中的所有 td 标签，然后打印所有表数据标签。

# display tables
for i in rows:
	table_data = i.find_all('td')
	data = [j.text for j in table_data]
	print(data)

　　使用BeautifulSoup解析表和XML方法的完整程序：


import bs4 as bs
import requests

# assign URL
URL = 'https://www.geeksforgeeks.org/python-list/'

# parsing
url_link = requests.get(URL)
file = bs.BeautifulSoup(url_link.text, "lxml")

# find all tables
find_table = file.find('table', class_='numpy-table')
rows = find_table.find_all('tr')

# display tables
for i in rows:
	table_data = i.find_all('td')
	data = [j.text for j in table_data]
	print(data)

　　输出：

BeautifulSoup解析XML文件的方法

　　第 1 步： 在继续之前，您可以创建自己的“xml 文件”，也可以复制并粘贴以下代码，并将其命名为 test.xml 文件。

<?xml version="1.0" ?>
<books>
  <book>
    <title>Introduction of Beautifulsoup</title>
    <author>Beautifulsoup tutorial</author>
    <price>6.99</price>
  </book>
  <book>
    <title>Introduction of NumPy</title>
    <author>NumPy tutorial</author>
    <price>8.99</price>
  </book>
  <book>
    <title>Introduction of Pycharm</title>
    <author>Pycharm tutorial</author>
    <price>9.35</price>
  </book>
</books>

　　第 2 步： 创建一个 python 文件并导入模块。

# import required modules
from bs4 import BeautifulSoup

　　第 3 步： 读取 XML 的内容。

# reading content
file = open("test.xml", "r")
contents = file.read()

　　第 4 步： 解析 XML 的内容。

# parsing
soup = BeautifulSoup(contents, 'xml')
titles = soup.find_all('title')

　　步骤 5： 显示 XML 文件的内容。

# parsing
soup = BeautifulSoup(contents, 'xml')
titles = soup.find_all('title')

　　使用BeautifulSoup解析表和XML方法的完整程序：

# import required modules
from bs4 import BeautifulSoup

# reading content
file = open("test.xml", "r")
contents = file.read()

# parsing
soup = BeautifulSoup(contents, 'xml')
titles = soup.find_all('title')

# display content
for data in titles:
	print(data.get_text())

　　输出：

总结

　　以上是晓得博客为你介绍的使用BeautifulSoup解析表和XML的全部内容，可以很容易观察两个库在文档的解析方面的差异。

　　推荐：BeautifulSoup使用教程

Python
使用PyScript在Web上运行Python可视化
发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58
使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…
Read More 使用PyScript在Web上运行Python可视化
ChatGPT教程|Python
Caktus AI怎么使用
发布2024年1月23日上午11:152024年1月22日下午3:11
Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…
Read More Caktus AI怎么使用
Matplotlib教程|Python
Matplotlib与Seaborn的区别
发布2024年1月22日上午11:422024年1月14日下午12:25
Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…
Read More Matplotlib与Seaborn的区别
Beautiful Soup教程|Python
如何用Python下载网页上图像
发布2024年1月21日上午8:482024年1月14日上午8:56
如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…
Read More 如何用Python下载网页上图像
Jupyter Notebook教程|Python
10个Jupyter Notebook提示和技巧
发布2024年1月20日下午5:002026年3月21日下午8:31更新2026年3月21日下午8:31
10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…
Read More 10个Jupyter Notebook提示和技巧
NumPy教程|Python
NumPy二元运算符
发布2024年1月19日下午3:532026年3月21日下午8:35更新2026年3月21日下午8:35
NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…
Read More NumPy二元运算符

使用BeautifulSoup解析表和XML

Python中解析器

BeautifulSoup解析表的方法

BeautifulSoup解析XML文件的方法

总结

相关文章