DataFrame 是 Pandas 库中最为核心的数据结构,它类似于 R 中的数据框,是进行数据分析的强大工具。本文将深入探讨 Pandas DataFrame 的使用,包括其创建、操作、分析和可视化等实用技巧。

创建 DataFrame

1. 基本创建

DataFrame 可以通过多种方式创建,包括使用列表、字典、NumPy 数组等。

import pandas as pd # 使用列表创建 data = {'Name': ['Tom', 'Nick', 'John', 'Alice'], 'Age': [20, 21, 19, 18], 'City': ['New York', 'London', 'Toronto', 'Sydney']} df = pd.DataFrame(data) # 打印 DataFrame print(df) 

2. 使用字典创建

使用字典创建 DataFrame 时,字典的键将成为列名,值将成为对应列的数据。

data = {'Name': ['Tom', 'Nick', 'John', 'Alice'], 'Age': [20, 21, 19, 18], 'City': ['New York', 'London', 'Toronto', 'Sydney']} df = pd.DataFrame(data) print(df) 

操作 DataFrame

1. 选择列

可以使用列名或列号来选择 DataFrame 中的列。

# 选择一列 print(df['Name']) # 选择多列 print(df[['Name', 'Age']]) 

2. 选择行

使用 .loc.iloc 可以选择 DataFrame 中的行。

# 使用 .loc print(df.loc[0:2]) # 使用 .iloc print(df.iloc[0:2]) 

3. 添加列

使用 .loc.at 可以向 DataFrame 中添加列。

df['Profession'] = ['Engineer', 'Doctor', 'Artist', 'Teacher'] print(df) 

4. 删除列

使用 drop 方法可以删除列。

df.drop('Profession', axis=1, inplace=True) print(df) 

分析 DataFrame

1. 基本统计

使用 describe 方法可以查看 DataFrame 的基本统计信息。

print(df.describe()) 

2. 透视表

透视表可以将数据重新排列成行和列的格式。

pivot_table = df.pivot_table(values='Age', index='City', aggfunc='mean') print(pivot_table) 

可视化 DataFrame

Pandas 可以与 Matplotlib 和 Seaborn 等库结合使用进行数据可视化。

import matplotlib.pyplot as plt df.plot(x='Name', y='Age', kind='bar') plt.show() 

总结

Pandas DataFrame 是进行数据处理和分析的强大工具。通过本文的介绍,你应当已经掌握了创建、操作、分析和可视化 DataFrame 的基本技巧。希望这些技巧能够帮助你更高效地进行数据处理和分析。