使用Python进行网络爬虫：通过Requests从API抓取数据

该话题包含 0个回复，1 人参与，最后由Q QPY课程团队更新于 10月前。

正在查看 1 个帖子：1-1 (共 1 个帖子)

作者

帖子
2025-05-06 10:58 #15436
Q QPY课程团队
管理员
API（应用程序编程接口）是一种高效且可靠地从网站访问结构化数据的好方法。与传统的网页抓取不同，后者涉及解析HTML，从API抓取数据则允许您直接访问以JSON或XML等格式呈现的原始数据。在本文中，我们将探讨如何使用Python的requests库从API抓取数据以及如何处理响应。

第一步：安装所需库

我们将使用requests，这是Python最流行的HTTP库，用于向API发送请求并接收响应。

要安装requests，请运行：

pip install requests

第二步：了解API端点

在从API抓取数据之前，您需要了解API端点及其提供的数据类型。API通常提供多种端点，以不同格式返回数据。您通常可以在API文档中找到这些信息。

以下是来自OpenWeatherMap API的一个示例API端点，它提供天气数据：
```
https://api.openweathermap.org/data/2.5/weather?q=London&appid=your_api_key
```
该API端点以JSON格式提供伦敦的当前天气。

第3步：发起API请求

现在我们已经有了API端点，可以使用requests库发送HTTP GET请求以检索数据。

以下是一个向OpenWeatherMap API发送请求的示例脚本：
```
import requests

# 定义API端点和您的API密钥
url = "https://api.openweathermap.org/data/2.5/weather?q=London&appid=your_api_key"

# 向API发送GET请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("API请求成功！")
    data = response.json()  # 解析JSON响应
else:
    print(f"数据检索失败。状态码：{response.status_code}")
```
在这个示例中，我们向天气API发送了一个GET请求，然后将响应解析为JSON。如果请求成功（状态码为200），我们可以继续处理数据。

第4步：从API响应中提取数据

一旦我们获得了API的响应，就可以提取我们感兴趣的特定数据。在天气API的情况下，我们可能想要提取温度、天气描述和湿度。

以下是提取这些数据的示例：
```
if response.status_code == 200:
    # 解析JSON响应
    data = response.json()
    
    # 提取天气详情
    main_data = data["main"]
    weather_data = data["weather"][0]
    
    # 提取特定信息
    temperature = main_data["temp"]
    description = weather_data["description"]
    humidity = main_data["humidity"]
    
    print(f"温度: {temperature}K")
    print(f"描述: {description}")
    print(f"湿度: {humidity}%")
else:
    print(f"数据获取失败。状态码: {response.status_code}")
```
这段代码从JSON响应中提取温度、天气描述和湿度，并将其打印出来。

第5步：处理API速率限制

许多API施加速率限制，限制在给定时间内可以发出的请求数量（例如，每日1000个请求）。如果超过速率限制，API将返回429 请求过多的响应。

为了处理速率限制，您应该检查API的响应头以获取任何速率限制信息，并在需要时在请求之间实现延迟。

以下是检查速率限制的示例：
```
# 检查响应中是否包含速率限制头
rate_limit = response.headers.get("X-RateLimit-Remaining")

if rate_limit and int(rate_limit) == 0:
    print("超出速率限制，请稍后再试。")
else:
    # 继续抓取过程
    data = response.json()
```
您可以使用 X-RateLimit-Remaining 头来确定您还剩多少请求。如果您接近限制，请考虑暂停请求或使用更复杂的速率限制策略。

第6步：保存数据

在提取相关数据后，您可能希望将其保存以便后续分析。存储数据的一种常见方式是使用CSV文件。

以下是如何将提取的天气数据保存到CSV文件中的方法：
```
import csv

# 要保存的数据
weather_info = [["温度", "描述", "湿度"],
                [temperature, description, humidity]]

# 保存到CSV
with open("weather_data.csv", mode="w", newline="") as file:
    writer = csv.writer(file)
    writer.writerows(weather_info)

print("数据已保存到 weather_data.csv")
```
此脚本将天气数据保存到CSV文件中，每行包含温度、描述和湿度。
✅ 从API抓取数据的优点
- 🧠 结构化数据：API通常以JSON等结构化格式提供数据，使其更易于处理。
- ⚡ 更快且更可靠：从API抓取数据比抓取HTML内容更快且更可靠，因为您是直接访问数据。
- 🚀 无需解析HTML：使用API时，您无需担心HTML结构或抓取诸如分页或动态内容等挑战。
⚠️ 从API抓取数据的缺点
- 🐢 速率限制：许多API限制您在特定时间内可以发出的请求数量，这可能会减慢您的抓取速度。
- ❌ API限制：一些API需要身份验证，有使用限制，或限制对某些数据的访问，这可能会限制您的抓取能力。
- 🌐 可用性：API可能会下线或更改其端点，导致您的抓取程序失败。
总结

从API抓取数据是一种高效且可靠的访问结构化数据的方法。通过使用Python的requests库，您可以发送HTTP请求，解析JSON或XML响应，并轻松提取所需的数据。当处理动态数据或避免抓取HTML内容的复杂性时，API尤其有用。无论您是在收集天气数据、股票价格还是用户评论，抓取API都可以显著简化这一过程。
作者

帖子

正在查看 1 个帖子：1-1 (共 1 个帖子)

哎呀，回复话题必需登录。

使用Python进行网络爬虫：通过Requests从API抓取数据

第一步：安装所需库

第二步：了解API端点

第3步：发起API请求

第4步：从API响应中提取数据

第5步：处理API速率限制

第6步：保存数据

✅ 从API抓取数据的优点

⚠️ 从API抓取数据的缺点

总结