使用Python从网页中提取所有URL - 晓得博客 - Beautiful Soup教程

0%

使用Python从网页中提取所有URL

文章目录

使用Python从网页中提取所有URL

　　抓取是每个人从任何网站获取数据的一项非常重要的技能。在本文中，我们将编写 Python 脚本来从网站中提取所有 URL，或者您可以将其保存为 CSV 文件。

使用Python从网页中提取所有URL — 使用Python从网页中提取所有URL 5

所需模块：

bs4 : Beautiful Soup(bs4) 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。这个模块不是 Python 内置的。要安装此类型，请在终端中输入以下命令。

pip install bs4

requests : Requests 允许您非常轻松地发送 HTTP/1.1 请求。这个模块也没有内置在 Python 中。要安装此类型，请在终端中输入以下命令。

pip install requests

　　推荐：11个流行的Python存储库

Python从网页中提取所有URL方法

导入模块
制作请求实例并传递到 URL
将请求传递给 Beautifulsoup() 函数
使用 ‘a’ 标签找到所有标签（’a href’）

　　示例 1：

import requests
from bs4 import BeautifulSoup


url = 'https://www.geeksforgeeks.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'html.parser')

urls = []
for link in soup.find_all('a'):
	print(link.get('href'))

　　输出：

Python从网页中提取所有URL方法 — 使用Python从网页中提取所有URL 6

　　示例 2：

　　提取 URL 并保存为 CSV 文件。

import requests
from bs4 import BeautifulSoup

urls = 'https://www.pythonthree.com'
grab = requests.get(urls)
soup = BeautifulSoup(grab.text, 'html.parser')

# opening a file in write mode
f = open("test1.txt", "w")
# traverse paragraphs from soup
for link in soup.find_all("a"):
    data = link.get('href')
    f.write(data)
    f.write("\n")

f.close()

　　输出：

Python从网页中提取所有URL方法 — 使用Python从网页中提取所有URL 7

总结

　　以上是晓得博客为你介绍的使用Python从网页中提取所有URL的全部内容，希望对你的Python学习有帮助。

　　推荐：BeautifulSoup教程

晓得博客，版权所有丨如未注明，均为原创
晓得博客 » 使用Python从网页中提取所有URL
转载请保留链接：https://www.pythonthree.com/extract-all-the-urls-from-webpage-use-python/

Claude、Netflix、Midjourney、ChatGPT Plus、PS、Disney、Youtube、Office 365、多邻国Plus账号购买，ChatGPT API购买，优惠码XDBK，用户购买的时候输入优惠码可以打95折

MetShop为您提供可靠、独立、安全的账号合租服务，便捷订阅Netflix高级会员，油管家庭组会员，Spotify会员等多种国际流媒体会员账号。

使用pyscript在web上运行python可视化

使用PyScript在Web上运行Python可视化

发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58

使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…

Caktus AI怎么使用

ChatGPT教程|Python

Caktus AI怎么使用

发布2024年1月23日上午11:152024年1月22日下午3:11

Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…

Matplotlib与Seaborn的区别

Matplotlib教程|Python

Matplotlib与Seaborn的区别

发布2024年1月22日上午11:422024年1月14日下午12:25

Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…

如何用Python下载网页上图像

Beautiful Soup教程|Python

如何用Python下载网页上图像

发布2024年1月21日上午8:482024年1月14日上午8:56

如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…

10个Jupyter Notebook提示和技巧

Jupyter Notebook教程|Python

10个Jupyter Notebook提示和技巧

发布2024年1月20日下午5:002024年1月12日下午5:02

10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…

NumPy二元运算符

NumPy教程|Python

NumPy二元运算符

发布2024年1月19日下午3:532024年1月8日下午4:24

NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…

友情链接：WordPress外贸建站卓越笔记陈沩亮博客 INFOXIAO