Beautiful Soup使用
之前我们已经介绍了Beautiful Soup安装,本文我们将为你介绍Beautiful Soup如何使用。
Beautiful Soup示例
在前面的代码示例中,我们使用字符串方法通过漂亮的构造函数解析文档。另一种方法是通过打开的文件句柄传递文档。将一段文档完整的美丽的构造方法,得到一个文档的对象,可以得到一段字符串或一个文件句柄。
from bs4 import BeautifulSoup
with open("xiaodeboke_demo.html") as fp:
soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")
首先将文档转换为Unicode,然后将HTML实体转换为Unicode字符,代码使用的是lxml解析器,当然你也可以使用HTML解析器。
import bs4
html = '''<b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)
输出:
<html><body><b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i></body></html>
注意:Beautiful Soup 选择最合适的解析器来解析这些文档,如果手动指定解析器,Beautiful Soup 会选择指定的解析器来解析文档
HTML树结构
在研究HTML页面的不同组件之前,让我们首先了解 HTML 树结构。
文档树中的根元素是 html,它可以有父元素、子元素和兄弟元素,这取决于它在树结构中的位置。要在 HTML 元素、属性和文本之间移动,您必须在树结构中的节点之间移动。
让我们假设网页如下所示 –
转换为 html 文档如下 –
<html lang="en">
<head>
<meta charset="UTF-8">
<title>晓得博客</title>
</head>
<body>
<h1>晓得博客 Pycharm教程</h1><p<<b>It's all Free</b></p>
</body>
</html>
总结
以上是晓得博客为你介绍的Beautiful Soup使用的全部内容,对于新手来说,安装调试使用过程往往是痛苦的,Beautifulsoup 常见任务是提取网页中的所有 URL,我们只需要添加简单的两行代码,就可以用 beautiful soup 4 提取有用的信息。希望本文对你有所帮助。