Beautiful Soup使用

文章目录

　　之前我们已经介绍了Beautiful Soup安装，本文我们将为你介绍Beautiful Soup如何使用。

Beautiful Soup示例

　　在前面的代码示例中，我们使用字符串方法通过漂亮的构造函数解析文档。另一种方法是通过打开的文件句柄传递文档。将一段文档完整的美丽的构造方法，得到一个文档的对象，可以得到一段字符串或一个文件句柄。

from bs4 import BeautifulSoup
with open("xiaodeboke_demo.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")

　　首先将文档转换为Unicode，然后将HTML实体转换为Unicode字符，代码使用的是lxml解析器，当然你也可以使用HTML解析器。

import bs4
html = '''<b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

　　输出：

<html><body><b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i></body></html>

　　注意：Beautiful Soup 选择最合适的解析器来解析这些文档，如果手动指定解析器，Beautiful Soup 会选择指定的解析器来解析文档

HTML树结构

　　在研究HTML页面的不同组件之前，让我们首先了解 HTML 树结构。

　　文档树中的根元素是 html，它可以有父元素、子元素和兄弟元素，这取决于它在树结构中的位置。要在 HTML 元素、属性和文本之间移动，您必须在树结构中的节点之间移动。

　　让我们假设网页如下所示 –

　　转换为 html 文档如下 –

<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>晓得博客</title>
</head>
<body>
<h1>晓得博客 Pycharm教程</h1><p<<b>It's all Free</b></p>
</body>
</html>