Python 数据分析入门

+

为什么选择 Python 做数据分析

Python 拥有丰富的数据分析生态系统:

  • Pandas:数据处理与分析
  • NumPy:数值计算
  • Matplotlib / Seaborn:数据可视化
  • Scikit-learn:机器学习

Pandas 基础

创建 DataFrame

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['Beijing', 'Shanghai', 'Shenzhen']
}

df = pd.DataFrame(data)
print(df)

数据清洗

# 处理缺失值
df.dropna()          # 删除缺失行
df.fillna(0)         # 填充缺失值

# 数据类型转换
df['age'] = df['age'].astype(float)

# 去重
df.drop_duplicates()

数据筛选

# 条件筛选
adults = df[df['age'] >= 30]

# 多条件筛选
result = df[(df['age'] > 25) & (df['city'] == 'Beijing')]

数据可视化

import matplotlib.pyplot as plt

df['age'].plot(kind='bar')
plt.title('Age Distribution')
plt.xlabel('Name')
plt.ylabel('Age')
plt.show()

总结

Python 数据分析的核心流程:数据获取 → 清洗 → 分析 → 可视化 → 建模