Beautiful Soup输出

　　pretty() 请求库是 Python编程的 HTTP 请求到指定的 URL 的组成部分。无论是 REST API 还是 Web Scrapping，都必须学习请求才能进一步使用这些技术。当一个人向一个 URI 发出请求时，它会返回一个响应。Python 请求提供了用于管理请求和响应的内置功能。

　　上篇文章我们为你介绍 Beautiful Soup搜索文档树，在本章中，我们晓得博客将为你介绍Beautiful Soup输出。

格式化输出

　　prettify() 方法将Beautiful Soup的文档树格式化后以 Unicode编码输出，每个 XML/HTML 标签都独占一行

import lxml
from bs4 import BeautifulSoup

markup = '<a href="https://www.pythonthree.com/what-is-cms/" target="_blank">内容管理系统</a>（CMS）。' \
         '<br>　　WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，'

soup = BeautifulSoup(markup, "lxml")

soup.prettify()

print(soup.prettify())

　　输出：

<html>
 <body>
  <a href="https://www.pythonthree.com/what-is-cms/" target="_blank">
   内容管理系统
  </a>
  （CMS）。
  <br/>
  WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，
 </body>
</html>

　　BeautifulSoup 对象和它的 tag节点都可以调用 prettify() 方法:

print(soup.a.prettify())



<a href="https://www.pythonthree.com/what-is-cms/" target="_blank">
 内容管理系统
</a>

压缩输出

　　如果只想得到结果字符串，不重视格式,那么可以对一个 BeautifulSoup 对象或 Tag对象使用Python的 unicode() 或 str() 方法:

str(soup)
# '<html><body><a href="https://www.pythonthree.com/what-is-cms/" target="_blank">内容管理系统</a>（CMS）。<br/>　　WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，</body></html>'

unicode(soup.a)
# <a href="https://www.pythonthree.com/what-is-cms/" target="_blank">内容管理系统</a>

　　str() 方法返回 UTF-8编码的字符串,可以指定编码的设置。还可以调用 encode() 方法获得字节码或调用 decode() 方法获得Unicode.

(soup.a).decode()

#<a href="https://www.pythonthree.com/what-is-cms/" target="_blank">内容管理系统</a>

输出格式

　　Beautiful Soup输出是会将 HTML 中的特殊字符转换成 Unicode，比如“ &lquot; ”:

soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.")
unicode(soup)
# u'<html><head></head><body>\u201cDammit!\u201d he said.</body></html>'

　　如果将文档转换成字符串，Unicode编码会被编码成 UTF-8，这样就无法正确显示 HTML 特殊字符了:

str(soup)
# '<html><head></head><body>\xe2\x80\x9cDammit!\xe2\x80\x9d he said.</body></html>'

　　推荐：使用BeautifulSoup查询关键词谷歌搜索结果排名

get_text()

　　如果只想得到 tag 中包含的文本内容,那么可以用 get_text() 方法，这个方法获取到 tag 中包含的所有文版内容包括子孙tag 中的内容，并将结果作为Unicode字符串返回:

markup = '<a href="https://www.pythonthree.com/what-is-cms/" target="_blank">内容管理系统</a>（CMS）。' \
         '<br>　　WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，'
soup = BeautifulSoup(markup, "lxml")

soup.get_text()


内容管理系统（CMS）。　　WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，

　　可以通过参数指定 tag 的文本内容的分隔符:

# soup.get_text("|")

内容管理系统丨（CMS）。丨　　WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，

　　还可以去除获得文本内容的前后空白:

# soup.get_text("|", strip=True)

内容管理系统|（CMS）。|WordPress 适用于各种网站的平台，从个人博客到电子商务网站到商业网站，

　　或者使用 .stripped_strings 生成器,获得文本列表后手动处理列表:

总结

　　以上是晓得博客为你介绍的Beautiful Soup输出的全部内容，希望对你的 BeautifulSoup学习有所帮助，欢迎留言讨论。更多内容可参考官方文档。

使用PyScript在Web上运行Python可视化

发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58

使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…

ChatGPT教程|Python

Caktus AI怎么使用

发布2024年1月23日上午11:152024年1月22日下午3:11

Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…

Matplotlib教程|Python

Matplotlib与Seaborn的区别

发布2024年1月22日上午11:422024年1月14日下午12:25

Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…

Beautiful Soup教程|Python

如何用Python下载网页上图像

发布2024年1月21日上午8:482024年1月14日上午8:56

如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…

Jupyter Notebook教程|Python

10个Jupyter Notebook提示和技巧

发布2024年1月20日下午5:002024年1月12日下午5:02

10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…

NumPy教程|Python

NumPy二元运算符

发布2024年1月19日下午3:532024年1月8日下午4:24

NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…

Beautiful Soup输出

Beautiful Soup输出

格式化输出

压缩输出

输出格式

get_text()

总结

使用PyScript在Web上运行Python可视化

Caktus AI怎么使用

Matplotlib与Seaborn的区别

如何用Python下载网页上图像

10个Jupyter Notebook提示和技巧

NumPy二元运算符

菜单

推荐文章

关于

Beautiful Soup输出

格式化输出

压缩输出

输出格式

get_text()

总结

相关文章

菜单

推荐文章

关于