当前位置:首页 > 行业动态 > 正文

pandas mean, std, skew

在Python的数据分析库pandas中,mean(平均值)、std(标准差)和skew(偏度)是常用的统计量,这些统计量可以帮助我们更好地理解数据的特性和分布情况。

pandas mean, std, skew  第1张

1、mean(平均值):mean函数用于计算数据集的平均值,它返回的是数据集所有元素的平均值,如果数据集为空,mean函数将返回NaN。

我们有一个包含数字1, 2, 3, 4, 5的数据集:

import pandas as pd
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data, columns=['numbers'])
print(df)

输出:

   numbers
0        1
1        2
2        3
3        4
4        5

我们可以使用mean函数来计算这个数据集的平均值:

print(df['numbers'].mean())

输出:

3、0

2、std(标准差):std函数用于计算数据集的标准差,标准差是衡量数据集中数值偏离其平均值的程度,标准差越大,说明数据的离散程度越大;标准差越小,说明数据的离散程度越小,如果数据集为空,std函数将返回NaN。

我们有一个包含数字1, 2, 3, 4, 5的数据集:

import pandas as pd
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data, columns=['numbers'])
print(df)

我们可以使用std函数来计算这个数据集的标准差:

print(df['numbers'].std())

输出:

1、4142135623730951

3、skew(偏度):skew函数用于计算数据集的偏度,偏度是衡量数据分布的不对称性,正偏度表示数据右偏,即数据分布的尾部在右侧;负偏度表示数据左偏,即数据分布的尾部在左侧,如果数据集为空,skew函数将返回NaN。

我们有一个包含数字1, 2, 3, 4, 5的数据集:

import pandas as pd
from scipy.stats import skew
import numpy as np
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data, columns=['numbers'])
print(df)

我们可以使用skew函数来计算这个数据集的偏度:

print(skew(df['numbers']))

输出:

0、0000000000000000

这是因为我们的数据集是一个完全对称的数据集,所以偏度为0,如果我们改变数据集,例如添加一些大于5的数字,我们可以看到偏度的变化。

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]
df = pd.DataFrame(data, columns=['numbers'])
print(df)
print(skew(df['numbers']))

输出:

    numbers
0       1.000000e+00
1       2.000000e+00
2       3.000000e+00
3       4.000000e+00
4       5.000000e+00
5       6.000000e+01
6       7.000000e+01
7       8.000000e+
0