揭秘Pandas DataFrame:高效数据处理与分析的实用技巧
DataFrame 是 Pandas 库中最为核心的数据结构,它类似于 R 中的数据框,是进行数据分析的强大工具。本文将深入探讨 Pandas DataFrame 的使用,包括其创建、操作、分析和可视化等实用技巧。
创建 DataFrame
1. 基本创建
DataFrame 可以通过多种方式创建,包括使用列表、字典、NumPy 数组等。
import pandas as pd # 使用列表创建 data = {'Name': ['Tom', 'Nick', 'John', 'Alice'], 'Age': [20, 21, 19, 18], 'City': ['New York', 'London', 'Toronto', 'Sydney']} df = pd.DataFrame(data) # 打印 DataFrame print(df) 2. 使用字典创建
使用字典创建 DataFrame 时,字典的键将成为列名,值将成为对应列的数据。
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'], 'Age': [20, 21, 19, 18], 'City': ['New York', 'London', 'Toronto', 'Sydney']} df = pd.DataFrame(data) print(df) 操作 DataFrame
1. 选择列
可以使用列名或列号来选择 DataFrame 中的列。
# 选择一列 print(df['Name']) # 选择多列 print(df[['Name', 'Age']]) 2. 选择行
使用 .loc 或 .iloc 可以选择 DataFrame 中的行。
# 使用 .loc print(df.loc[0:2]) # 使用 .iloc print(df.iloc[0:2]) 3. 添加列
使用 .loc 或 .at 可以向 DataFrame 中添加列。
df['Profession'] = ['Engineer', 'Doctor', 'Artist', 'Teacher'] print(df) 4. 删除列
使用 drop 方法可以删除列。
df.drop('Profession', axis=1, inplace=True) print(df) 分析 DataFrame
1. 基本统计
使用 describe 方法可以查看 DataFrame 的基本统计信息。
print(df.describe()) 2. 透视表
透视表可以将数据重新排列成行和列的格式。
pivot_table = df.pivot_table(values='Age', index='City', aggfunc='mean') print(pivot_table) 可视化 DataFrame
Pandas 可以与 Matplotlib 和 Seaborn 等库结合使用进行数据可视化。
import matplotlib.pyplot as plt df.plot(x='Name', y='Age', kind='bar') plt.show() 总结
Pandas DataFrame 是进行数据处理和分析的强大工具。通过本文的介绍,你应当已经掌握了创建、操作、分析和可视化 DataFrame 的基本技巧。希望这些技巧能够帮助你更高效地进行数据处理和分析。
支付宝扫一扫
微信扫一扫