当前位置:首页 > 行业动态 > 正文

pandas .str.split后取某一部分数据

在Python的pandas库中,str.split()函数是一个常用的字符串处理函数,它可以将一个字符串按照指定的分隔符进行分割,并返回一个包含分割后子字符串的列表,这个函数非常有用,尤其是在处理文本数据时。

pandas .str.split后取某一部分数据  第1张

假设我们有一个包含地址信息的DataFrame,其中一列名为"Address",我们想要提取出每个地址中的城市和州信息,我们可以使用str.split()函数来实现这个目标。

我们需要导入pandas库:

import pandas as pd

接下来,我们创建一个包含地址信息的DataFrame:

data = {'Address': ['123 Main St, Anytown, CA', '456 Elm St, Othertown, NY', '789 Oak St, Sometown, TX']}
df = pd.DataFrame(data)

现在,我们可以使用str.split()函数来分割地址列:

df['Address'] = df['Address'].str.split(', ')

这将返回一个新的DataFrame,quot;Address"列被分割为一个包含子字符串的列表。

0    [123 Main St] [Anytown] [CA]
1    [456 Elm St] [Othertown] [NY]
2    [789 Oak St] [Sometown] [TX]
Name: Address, dtype: object

接下来,我们可以通过索引来提取出城市和州信息,由于我们已经知道地址的格式,我们可以确定城市和州信息分别位于分割后的列表的第1个和第2个元素(索引为0和1):

df['City'] = df['Address'].str[0].str.strip()
df['State'] = df['Address'].str[1].str.strip()

这将返回一个新的DataFrame,其中包含了城市和州信息:

    Address      City    State
0  123 Main St  Anytown    CA
1  456 Elm St  Othertown    NY
2  789 Oak St  Sometown    TX

我们可以删除原始的"Address"列,因为我们已经提取了所需的信息:

df = df.drop('Address', axis=1)

现在,我们已经成功地使用str.split()函数提取了DataFrame中的城市和州信息,这种方法非常适用于处理包含分隔符的文本数据,可以大大简化数据处理过程。

0