Beautiful Soup安装

Beautiful Soup安装

Beautiful Soup安装

Beautiful Soup安装

  由于 BeautifulSoup不是标准的 Python 库,我们需要时Beautiful Soup时,得先安装。我们将安装最新的 BeautifulSoup 4 库(也称为 BS4)。为了使得我们的工作环境以免干扰现有设置,让我们首先创建一个虚拟环境。本文我们将为你介绍Beautiful Soup安装以及需要注意的点。

创建虚拟环境(可选)

  虚拟环境允许我们为特定项目创建独立的 Python 工作副本,而不会影响外部设置。

  安装任何 python 包机器的最佳方法是使用 pip,但是,如果 pip 尚未安装(您可以在命令或 shell 提示符中使用 –“pip –version”检查它),您可以通过以下命令进行安装 -

Linux环境
$sudo apt-get install python-pip
Windows环境

  要在 Windows 中安装 pip,需要从https://bootstrap.pypa.io/get-pip.py 或 从github下载 get-pip.py到您的计算机。打开命令提示符并导航到包含 get-pip.py 文件的文件夹。

>python get-pip.py

  就是这样,pip 现在安装在你的 Windows 机器上。您可以通过运行以下命令来验证您的 pip 安装 -

>pip --version
查询电脑PIP版本

安装虚拟环境

   为了使得我们的工作环境以免干扰现有设置,有时候需要给电脑安装虚拟环境,在命令提示符中运行以下命令 -

>pip install virtualenv

  运行安装完成后,就需要创建自己的虚拟环境,下面的命令将在您的当前目录中创建一个虚拟环境(“myEnv”)

>virtualenv myEnv
创建myenv虚拟环境

  看到如上图所示,就说明虚拟环境以及建立好了,接下来就是要激活您的虚拟环境,请运行以下命令 -

>myEnv\Scripts\activate
Beautiful Soup安装

  在上面的截图中,你可以看到我们有“myEnv”作为前缀,它告诉我们我们在虚拟环境“myEnv”下。要退出虚拟环境,请运行deactivate。

安装 BeautifulSoup

  随着我们的虚拟环境准备就绪,现在让我们安装 beautifulsoup。由于 BeautifulSoup 不是标准库,我们需要安装它。我们将使用 BeautifulSoup 4 包(称为 bs4)。

Linux系统

  要使用系统包管理器在 Debian 或 Ubuntu linux 上安装 bs4,请运行以下命令 -

$sudo apt-get install python-bs4 (for python 2.x)

$sudo apt-get install python3-bs4 (for python 3.x)

  您可以使用 easy_install 或 pip 安装 bs4(以防您在使用系统打包器安装时发现问题)。

$easy_install beautifulsoup4

$pip install beautifulsoup4

  (如果您使用的是 python3,您可能需要分别使用 easy_install3 或 pip3)

Windows系统
虚拟环境安装beautifulsoup4库

  在windows中安装beautifulsoup4非常简单,特别是如果你已经安装了pip。

>pip install beautifulsoup4

  所以现在beautifulsoup4安装在我们的机器上。说一下安装后遇到的一些问题。

  (如果您使用的是 python3,可能需要使用 或 pip3)

安装解析器

  默认情况下,Beautiful Soup 支持 Python 标准库中包含的 HTML 解析器,但它也支持许多外部第三方Python 解析器,如 lxml 解析器或 html5lib 解析器。要安装 lxml 或 html5lib 解析器,请使用命令 -

  Linux系统

$apt-get install python-lxml
$apt-get insall python-html5lib

  Windows系统

$pip install lxml
$pip install html5lib

  通常,用户使用 lxml 来提高速度,如果您使用的是旧版本的 python 2(2.7.3 之前的版本)或 python 3(3.2.2 之前的版本),建议使用 lxml 或 html5lib 解析器,因为 python 的内置 HTML 解析器是不太擅长处理旧版本。

Beautifulsoup示例

  是时候在其中一个 html 页面中测试我们的 Beautiful Soup 包了(获取网页 – https://www.pythonthree.com/ ,您可以选择您想要的任何其他网页)并从中提取一些信息它。

  在下面的代码中,我们试图从网页中提取标题 -

from bs4 import BeautifulSoup
import requests
url = "https://www.pythonthree.com/"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print(soup.title)

  输出

<title>晓得博客 - 分享python、WordPress主题、wordpress插件、WordPress插件教程、WordPress外贸建站与网络营销的实战经验</title>

  Beautifulsoup使用种常见任务是提取网页中的所有 URL,我们只需要添加简单的两行代码,就可以使用beautifulsoup4提取有用的信息。

总结

  以上是晓得博客为你介绍的Beautiful Soup安装的全部内容,对于新手来说,安装调试过程往往是痛苦的,希望本文对你有所帮助。

  推荐:Beautiful Soup教程

5/5 - (1 vote)

晓得博客,版权所有丨如未注明,均为原创
晓得博客 » Beautiful Soup安装

转载请保留链接:https://www.pythonthree.com/install-beautifulsoup/

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注


Scroll to Top