当前位置：首页 > 行业动态 > 正文

如何高效在DataFrame中追加数据？

admin
行业动态
2025-04-22
1

在Pandas中向DataFrame追加数据，常用 concat()合并新行或 loc[]按索引添加，需确保列结构一致，避免覆盖原数据，可通过循环或批量插入实现，建议忽略索引或重置索引以保证数据完整性，适用于动态数据更新或批量导入场景。

在数据处理与分析领域,DataFrame作为Pandas库的核心数据结构，其灵活性和高效性深受开发者喜爱，本文将通过代码示例和场景解析，系统讲解如何为DataFrame追加数据，涵盖单行插入、多行合并及性能优化等实用技巧，帮助读者精准实现数据操作需求。

基础方法：逐行追加数据

使用`append()`方法（兼容旧版本）

import pandas as pd
# 创建示例DataFrame
df = pd.DataFrame({'姓名': ['张三', '李四'], '年龄': [25, 30]})
# 追加单行数据（需转为字典格式）
new_row = {'姓名': '王五', '年龄': 28}
df = df.append(new_row, ignore_index=True)
# 追加多行数据（通过列表实现）
new_rows = [{'姓名': '赵六', '年龄': 32}, {'姓名': '陈七', '年龄': 26}]
df = df.append(new_rows, ignore_index=True)

注意：Pandas 2.0+版本已弃用append()，建议优先使用pd.concat()

推荐方法：`pd.concat()`合并

# 创建新DataFrame
new_data = pd.DataFrame({'姓名': ['周八'], '年龄': [29]})
# 沿行方向(axis=0)合并
df = pd.concat([df, new_data], axis=0, ignore_index=True)

合并多个DataFrame

纵向合并（相同列结构）

df1 = pd.DataFrame({'A': [1,2], 'B': [3,4]})
df2 = pd.DataFrame({'A': [5,6], 'B': [7,8]})
combined_df = pd.concat([df1, df2], ignore_index=True)

横向合并（相同行索引）

df3 = pd.DataFrame({'C': ['x', 'y'], 'D': [9,10]})
combined_h = pd.concat([df1, df3], axis=1)

灵活操作技巧

通过索引精准插入

# 在指定位置插入单行
df.loc[2.5] = ['孙九', 33]  # 插入到索引2和3之间
df = df.sort_index().reset_index(drop=True)

条件筛选后追加

# 筛选满足条件的数据
filtered_data = df[df['年龄'] > 30].copy()
filtered_data['年龄段'] = '中年'
# 合并回原DataFrame
df = pd.concat([df, filtered_data], axis=0)

大数据场景优化

当处理10万+级数据时，建议采用：

列表预存储：先用Python列表收集数据，最后转换为DataFrame

分块处理：通过chunksize参数分批读取和合并

data_list = []
for chunk in pd.read_csv('large_data.csv', chunksize=10000):
 processed_chunk = chunk[chunk['value'] > 50]
 data_list.append(processed_chunk)

final_df = pd.concat(data_list)

---
### 注意事项
1. **索引重置**：合并后及时使用`reset_index(drop=True)`避免索引重复
2. **内存管理**：及时用`del`删除不再使用的DataFrame释放内存
3. **数据类型**：合并前确保列名和数据类型一致
---
### 应用场景实例
```python
# 实时数据流处理模拟
import random
temperature_data = pd.DataFrame(columns=['时间戳', '温度'])
for _ in range(5):
    new_record = pd.DataFrame({
        '时间戳': [pd.Timestamp.now()],
        '温度': [random.uniform(20.0, 30.0)]
    })
    temperature_data = pd.concat([temperature_data, new_record], ignore_index=True)