当前位置:首页 > 行业动态 > 正文

python中dataframe函数用法

在Python中,pandas库是一个非常强大的数据处理工具,它提供了DataFrame这个数据结构,用于处理和分析表格数据。DataFrame是一个二维的、大小可变的、潜在的异质的表格数据结构,它是Python编程语言中pandas库的一部分。DataFrame是Python编程语言中pandas库的一部分,它是Python编程语言中pandas库的一部分。

创建DataFrame

1、从字典创建

可以使用字典来创建一个DataFrame,其中字典的键将成为列名,而字典的值将成为列中的数据。

import pandas as pd
data = {
    'name': ['Alice', 'Bob', 'Cathy'],
    'age': [25, 30, 35],
    'city': ['New York', 'San Francisco', 'Los Angeles']
}
df = pd.DataFrame(data)

2、从列表创建

可以使用列表来创建一个DataFrame,其中每个子列表将成为一行。

data = [['Alice', 25, 'New York'],
        ['Bob', 30, 'San Francisco'],
        ['Cathy', 35, 'Los Angeles']]
df = pd.DataFrame(data, columns=['name', 'age', 'city'])

3、从其他DataFrame创建

可以使用现有的DataFrame来创建一个新的DataFrame,可以选择性地指定行和列的范围。

df_new = df[['name', 'age']]

4、从文件创建

可以使用read_csv、read_excel等函数从文件中读取数据并创建DataFrame。

df = pd.read_csv('data.csv')

常用操作

1、选择行和列

可以使用列名或索引值来选择行和列。

选择列
df['name']
选择行
df.loc[0]

2、筛选数据

可以使用布尔表达式来筛选数据。

筛选年龄大于30的人
df[df['age'] > 30]

3、排序数据

可以使用sort_values函数对数据进行排序。

按年龄升序排序
df.sort_values(by='age')

4、分组和聚合数据

可以使用groupby函数对数据进行分组,然后使用聚合函数(如sum、mean等)对分组后的数据进行聚合。

按城市分组,计算每个城市的平均年龄
df.groupby('city')['age'].mean()

5、合并和连接数据

可以使用merge、concat等函数将多个DataFrame合并成一个。

合并两个DataFrame,按名字列进行连接
pd.merge(df1, df2, on='name')

常用函数

1、描述性统计

可以使用describe函数获取数据的描述性统计信息,如计数、平均值、标准差等。

df.describe()

2、缺失值处理

可以使用dropna、fillna等函数对缺失值进行处理。

删除包含缺失值的行
df.dropna()
用平均值填充缺失值
df.fillna(df.mean())

3、字符串操作

可以使用str属性对字符串列进行操作,如替换、分割等。

将名字中的空格替换为下划线
df['name'] = df['name'].str.replace(' ', '_')

pandas库中的DataFrame是一个非常实用的数据结构,可以帮助我们轻松地处理和分析表格数据,通过掌握上述常用操作和函数,我们可以更高效地处理数据,从而更好地支持数据分析和建模工作。

0