Beautiful Soup使用

Beautiful Soup使用

Beautiful Soup使用

Beautiful Soup使用

  之前我们已经介绍了Beautiful Soup安装,本文我们将为你介绍Beautiful Soup如何使用。

Beautiful Soup示例

  在前面的代码示例中,我们使用字符串方法通过漂亮的构造函数解析文档。另一种方法是通过打开的文件句柄传递文档。将一段文档完整的美丽的构造方法,得到一个文档的对象,可以得到一段字符串或一个文件句柄。

from bs4 import BeautifulSoup
with open("xiaodeboke_demo.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")

  首先将文档转换为Unicode,然后将HTML实体转换为Unicode字符,代码使用的是lxml解析器,当然你也可以使用HTML解析器。

import bs4
html = '''<b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

  输出:

<html><body><b>www.pythonthree.com是一个介绍WordPress建站及技巧的网站</b>, <i>&Pycharm教程 &Beautiful Soup教程;</i></body></html>

  注意:Beautiful Soup 选择最合适的解析器来解析这些文档,如果手动指定解析器,Beautiful Soup 会选择指定的解析器来解析文档

HTML树结构

  在研究HTML页面的不同组件之前,让我们首先了解 HTML 树结构。

  文档树中的根元素是 html,它可以有父元素、子元素和兄弟元素,这取决于它在树结构中的位置。要在 HTML 元素、属性和文本之间移动,您必须在树结构中的节点之间移动。

HTML树结构

  让我们假设网页如下所示 –

Pycharm-HTML网页效果

  转换为 html 文档如下 –

<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>晓得博客</title>
</head>
<body>
<h1>晓得博客 Pycharm教程</h1><p<<b>It's all Free</b></p>
</body>
</html>

总结

  以上是晓得博客为你介绍的Beautiful Soup使用的全部内容,对于新手来说,安装调试使用过程往往是痛苦的,Beautifulsoup 常见任务是提取网页中的所有 URL,我们只需要添加简单的两行代码,就可以用 beautiful soup 4 提取有用的信息。希望本文对你有所帮助。

  推荐:Beautiful Soup教程


晓得博客,版权所有丨如未注明,均为原创
晓得博客 » Beautiful Soup使用

转载请保留链接:https://www.pythonthree.com/how-to-use-beautiful-soup/

滚动至顶部