生成式AI Python库Pandas AI
Python Pandas是一个开源工具包,它使用 Python 编程语言为数据科学家和分析师提供数据操作和分析功能。Pandas 库在机器学习和深度学习的预处理阶段非常流行。但现在你可以用它做更多……
引入了一个新的数据科学库——Pandas AI。一个将生成人工智能功能集成到 Pandas 中的 Python 库,使数据框架成为对话式的。本文晓得博客为你介绍怎么使用生成式AI Python库Pandas AI。
推荐:在Jupyter Notebook中使用ChatGPT API
什么是Pandas AI
Pandas AI 是使用 OpenAI 的生成 AI 模型对 pandas 库的扩展。它允许您仅使用文本提示从数据框中生成见解。可以向 PandasAI 提出这些查询,它会以 Pandas DataFrames 的形式提供响应,从而节省您手动浏览和响应有关数据集的查询的时间,你可以用你的数据集说话。作为数据科学家或分析师,您将不再需要盯着数据集,无休止地浏览行和列。Pandas AI 并没有取代 Pandas,只是给了它一个很大的推动!
数据科学家和分析师花费大量时间在分析阶段清理数据。他们现在能够将数据分析提升到一个新的水平。数据专业人员研究他们可以使用的不同方法和流程,以最大程度地减少花在数据准备上的时间,现在可以使用 Pandas AI。
PandasAI 将与 Pandas 一起使用,它不能替代 Pandas。您不必自己浏览并回答有关数据集的问题,您可以向 PandasAI 询问这些问题,它会以 Pandas DataFrames 的形式返回答案。在OpenAI API的帮助下,Pandas AI 旨在实现与机器进行虚拟对话以输出您想要的结果的目标,而不必自己编写任务。机器将以他们的语言输出结果——机器可解释的代码(DataFrame)。
如何使用 Pandas AI
使用 pip 安装 Pandas AI
pip install pandasai
使用 OpenAI 导入 PandasAI
为了使用新的 Pandas AI 库,您需要一个 OpenAI 密钥。开始使用笔记本后,您需要导入以下内容:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token=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)
如果您没有唯一的 OpenAI API 密钥,您可以在OpenAI 平台上创建一个帐户并在此处创建一个 API 密钥。您将获得 5 美元的信用额度,可用于探索和试验 API。完成所有设置后,您就可以开始使用 Pandas AI 了。
在 Dataframe 上运行模型
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Sample DataFrame
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
llm = OpenAI(api_token="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")
pandas_ai = PandasAI(llm, conversational=False)
pandas_ai(df, prompt='Which are the 5 happiest countries?')
输出:
6 Canada
7 Australia
1 United Kingdom
3 Germany
0 United States
Name: country, dtype: object
尽管 Pandas AI 不会取代 Pandas,但它是一个可以提升工作流程的好工具。尽管您可以向 Pandas AI 询问有关您的数据集的问题,但您仍然需要精通编程,以便在库出错时纠正和指导库。