Python 数据分析入门
+
为什么选择 Python 做数据分析
Python 拥有丰富的数据分析生态系统:
- Pandas:数据处理与分析
- NumPy:数值计算
- Matplotlib / Seaborn:数据可视化
- Scikit-learn:机器学习
Pandas 基础
创建 DataFrame
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['Beijing', 'Shanghai', 'Shenzhen']
}
df = pd.DataFrame(data)
print(df)
数据清洗
# 处理缺失值
df.dropna() # 删除缺失行
df.fillna(0) # 填充缺失值
# 数据类型转换
df['age'] = df['age'].astype(float)
# 去重
df.drop_duplicates()
数据筛选
# 条件筛选
adults = df[df['age'] >= 30]
# 多条件筛选
result = df[(df['age'] > 25) & (df['city'] == 'Beijing')]
数据可视化
import matplotlib.pyplot as plt
df['age'].plot(kind='bar')
plt.title('Age Distribution')
plt.xlabel('Name')
plt.ylabel('Age')
plt.show()
总结
Python 数据分析的核心流程:数据获取 → 清洗 → 分析 → 可视化 → 建模。