使用Python从网页中提取所有URL

使用Python从网页中提取所有URL

使用Python从网页中提取所有URL

  抓取 是每个人从任何网站获取数据的一项非常重要的技能。 在本文中,我们将编写 Python 脚本来从网站中提取所有 URL,或者您可以将其保存为 CSV 文件。

使用Python从网页中提取所有URL
使用Python从网页中提取所有URL

所需模块:

  • bs4 : Beautiful Soup(bs4) 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。 这个模块不是 Python 内置的。 要安装此类型,请在终端中输入以下命令。
pip install bs4
  • requests : Requests 允许您非常轻松地发送 HTTP/1.1 请求。 这个模块也没有内置在 Python 中。 要安装此类型,请在终端中输入以下命令。
pip install requests

  推荐:11个流行的Python存储库

Python从网页中提取所有URL方法

  • 导入模块
  • 制作请求实例并传递到 URL
  • 将请求传递给 Beautifulsoup() 函数
  • 使用 ‘a’ 标签找到所有标签(’a href’)

  示例 1:

import requests
from bs4 import BeautifulSoup


url = 'https://www.geeksforgeeks.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'html.parser')

urls = []
for link in soup.find_all('a'):
	print(link.get('href'))

  输出:

Python从网页中提取所有URL方法
使用Python从网页中提取所有URL

  示例 2:

  提取 URL 并保存为 CSV 文件。

import requests
from bs4 import BeautifulSoup

urls = 'https://www.pythonthree.com'
grab = requests.get(urls)
soup = BeautifulSoup(grab.text, 'html.parser')

# opening a file in write mode
f = open("test1.txt", "w")
# traverse paragraphs from soup
for link in soup.find_all("a"):
    data = link.get('href')
    f.write(data)
    f.write("\n")

f.close()

  输出:

Python从网页中提取所有URL方法
使用Python从网页中提取所有URL

总结

  以上是晓得博客为你介绍的使用Python从网页中提取所有URL的全部内容,希望对你的Python学习有帮助。

  推荐:BeautifulSoup教程

给文章评分

晓得博客,版权所有丨如未注明,均为原创
晓得博客 » 使用Python从网页中提取所有URL

转载请保留链接:https://www.pythonthree.com/extract-all-the-urls-from-webpage-use-python/

Claude、Netflix、Midjourney、Chatgpt Plus账号购买,ChatGPT API购买,优惠码XDBK,用户购买的时候输入优惠码可以打95折

Chatgpt-Plus注册购买共享账号
Kinsta-free-hosting主机
Kinsta-free-hosting主机
Elementor可视化创建WordPress网站
Elementor可视化创建WordPress网站
滚动至顶部