当前位置:首页 > 行业动态 > 正文

Pandas 数据库操作

Pandas 是一个用于数据处理和分析的 Python 库,它提供了丰富的数据结构和函数,可以方便地对数据进行操作,在 Pandas 中,我们可以使用 DataFrame 对象来表示数据库中的表,通过读取和写入文件的方式实现数据库的查询和更新操作。

Pandas 数据库操作  第1张

以下是一些常用的 Pandas 数据库操作:

1、读取数据库文件

使用 Pandas 的 read_csv、read_excel、read_sql 等函数,可以读取不同类型的数据库文件,读取一个 CSV 文件:

“`python

import pandas as pd

df = pd.read_csv(‘data.csv’)

“`

2、查询数据

使用 Pandas 的 query 函数,可以根据条件筛选数据,查询年龄大于 30 的数据:

“`python

df_result = df.query(‘age > 30’)

“`

3、排序数据

使用 Pandas 的 sort_values 函数,可以对数据进行排序,按照年龄升序排列:

“`python

df_sorted = df.sort_values(by=’age’)

“`

4、分组数据

使用 Pandas 的 groupby 函数,可以对数据进行分组,按照性别分组统计人数:

“`python

df_grouped = df.groupby(‘gender’).size()

“`

5、合并数据

使用 Pandas 的 merge、concat、join 等函数,可以对多个数据集进行合并,将两个数据集按照 ID 列进行合并:

“`python

df1 = pd.read_csv(‘data1.csv’)

df2 = pd.read_csv(‘data2.csv’)

df_merged = pd.merge(df1, df2, on=’id’)

“`

6、保存数据到数据库文件

使用 Pandas 的 to_csv、to_excel、to_sql 等函数,可以将处理后的数据保存到数据库文件中,将结果保存为 CSV 文件:

“`python

df_result.to_csv(‘result.csv’, index=False)

“`

7、更新数据库数据

使用 Pandas 的 update、append、drop、replace 等函数,可以对数据库数据进行更新,将年龄大于 30 的数据的年龄加 1:

“`python

df[‘age’] = df[‘age’].apply(lambda x: x + 1 if x > 30 else x)

“`

0