scikit-learn案例教程数据集：从零开始掌握机器学习核心算法与实战技巧

引言：为什么选择scikit-learn？

scikit-learn是Python生态中最受欢迎的机器学习库之一，它提供了简单、高效且易于使用的工具，适合从初学者到专家的各个层次。无论你是想快速原型开发，还是深入研究算法细节，scikit-learn都能满足需求。本教程将从基础概念入手，通过实际案例和代码示例，帮助你逐步掌握核心算法和实战技巧。我们将使用scikit-learn内置的数据集作为起点，避免数据下载的麻烦，让你专注于学习。

scikit-learn的核心优势包括：

统一的API设计：所有模型都遵循fit（训练）、predict（预测）和score（评估）的模式。
丰富的算法库：覆盖监督学习（如分类、回归）、无监督学习（如聚类、降维）等。
强大的生态系统：与NumPy、Pandas和Matplotlib无缝集成。

在本教程中，我们将使用Python 3.x和scikit-learn 1.x版本。确保你已安装必要的库：

pip install scikit-learn numpy pandas matplotlib seaborn

现在，让我们从零开始，一步步构建你的机器学习技能。

第一部分：机器学习基础概念

什么是机器学习？

机器学习（Machine Learning, ML）是人工智能的一个分支，它让计算机从数据中自动学习模式，而无需显式编程。简单来说，ML模型通过分析历史数据来预测未来结果。

机器学习主要分为三类：

监督学习（Supervised Learning）：数据有标签（如分类任务：预测鸢尾花种类）。
无监督学习（Unsupervised Learning）：数据无标签（如聚类：将客户分组）。
强化学习（Reinforcement Learning）：通过试错学习（本教程暂不深入）。

scikit-learn的工作流程

一个典型的ML项目包括以下步骤：

数据准备：加载数据、清洗、预处理。
模型选择：根据问题选择算法。
训练模型：使用fit()方法。
评估模型：使用指标如准确率、均方误差。
调优：通过网格搜索优化超参数。

我们将通过内置数据集（如Iris、Digits、Wine）来演示这些步骤。这些数据集小巧且经典，适合学习。

第二部分：数据集介绍与加载

scikit-learn内置了多个经典数据集，通过sklearn.datasets模块加载。这些数据集无需下载，直接使用。

常用内置数据集

Iris（鸢尾花数据集）：分类任务。包含3类鸢尾花（Setosa、Versicolor、Virginica），每类50个样本，每个样本4个特征（花萼长度/宽度、花瓣长度/宽度）。总样本数：150。
Digits（手写数字数据集）：分类任务。包含0-9的手写数字图像（8x8像素），总样本数：1797。
Wine（葡萄酒数据集）：多分类任务。包含3类葡萄酒的13个化学特征，总样本数：178。
Breast Cancer（乳腺癌数据集）：二分类任务。包含569个样本，30个特征。

如何加载数据集

使用load_*函数加载数据。每个数据集返回一个Bunch对象（类似字典），包含：

data：特征矩阵（NumPy数组）。
target：标签向量。
feature_names：特征名称。
target_names：标签名称。

示例代码：加载Iris数据集

from sklearn.datasets import load_iris import pandas as pd # 加载数据集 iris = load_iris() # 查看数据结构 print("特征矩阵形状:", iris.data.shape) # 输出: (150, 4) print("标签向量形状:", iris.target.shape) # 输出: (150,) print("特征名称:", iris.feature_names) # 输出: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] print("标签名称:", iris.target_names) # 输出: ['setosa', 'versicolor', 'virginica'] # 转换为Pandas DataFrame以便分析 df = pd.DataFrame(iris.data, columns=iris.feature_names) df['target'] = iris.target df['target_name'] = [iris.target_names[i] for i in iris.target] print(df.head()) # 显示前5行

输出示例：

 sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target target_name 0 5.1 3.5 1.4 0.2 0 setosa 1 4.9 3.0 1.4 0.2 0 setosa 2 4.7 3.2 1.3 0.2 0 setosa 3 4.6 3.1 1.5 0.2 0 setosa 4 5.0 3.6 1.4 0.2 0 setosa

解释：

这个代码加载Iris数据集，并将其转换为DataFrame，便于可视化和探索。
特征是数值型的，适合直接用于模型训练。
在实际项目中，你可以用df.describe()查看统计摘要，或用df.info()检查缺失值（Iris数据集无缺失值）。

数据探索技巧

在训练前，总是先探索数据。使用Seaborn绘制散点图矩阵：

import seaborn as sns import matplotlib.pyplot as plt sns.pairplot(df, hue='target_name', diag_kind='kde') plt.show()

这将显示特征间的分布和关系，帮助你理解数据模式（如Setosa的花瓣特征明显分离）。

第三部分：监督学习——分类算法

监督学习从这里开始。我们聚焦分类任务：预测离散类别。

3.1 K-最近邻（K-Nearest Neighbors, KNN）

KNN是一种简单算法：对于新样本，找到最近的K个训练样本，取多数类别作为预测。优点：无需训练时间；缺点：对高维数据慢。

示例代码：使用Iris数据集训练KNN

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report # 加载数据 iris = load_iris() X = iris.data # 特征 y = iris.target # 标签 # 划分训练集和测试集（80%训练，20%测试） X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建KNN模型，K=3 knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.fit(X_train, y_train) # 预测 y_pred = knn.predict(X_test) # 评估 accuracy = accuracy_score(y_test, y_pred) print(f"准确率: {accuracy:.2f}") print("n分类报告:") print(classification_report(y_test, y_pred, target_names=iris.target_names))

输出示例：

准确率: 1.00 分类报告: precision recall f1-score support setosa 1.00 1.00 1.00 10 versicolor 1.00 1.00 1.00 9 virginica 1.00 1.00 1.00 11 accuracy 1.00 30 macro avg 1.00 1.00 1.00 30 weighted avg 1.00 1.00 1.00 30

详细解释：

train_test_split：随机划分数据，确保模型在未见数据上测试。random_state=42保证结果可复现。
n_neighbors=3：K值是超参数，可通过交叉验证优化（见后续调优部分）。
评估：准确率100%表示完美预测。分类报告提供精确率（precision）、召回率（recall）和F1分数，按类别细粒度评估。
实战技巧：如果数据不平衡，使用class_weight='balanced'或SMOTE过采样。

3.2 决策树（Decision Tree）

决策树通过一系列“是/否”问题构建树状模型。优点：可解释性强；缺点：易过拟合。

示例代码：决策树分类

from sklearn.tree import DecisionTreeClassifier, plot_tree from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import matplotlib.pyplot as plt # 加载数据并划分（同上） iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) # 创建决策树模型，限制深度以防过拟合 tree = DecisionTreeClassifier(max_depth=3, random_state=42) # 训练 tree.fit(X_train, y_train) # 预测与评估 y_pred = tree.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}") # 可视化树 plt.figure(figsize=(12, 8)) plot_tree(tree, feature_names=iris.feature_names, class_names=iris.target_names, filled=True) plt.show()

输出：准确率约0.97（取决于随机划分）。可视化树显示决策路径，如“如果花瓣长度<=2.45，则为Setosa”。

解释：

max_depth=3：限制树深度，防止过拟合（模型记住噪声）。
可视化：帮助理解模型逻辑，适合向非技术人员解释。
实战技巧：使用GridSearchCV搜索最佳深度（见调优部分）。

3.3 随机森林（Random Forest）

随机森林是决策树的集成版，通过多棵树投票预测。优点：鲁棒、准确；缺点：计算密集。

示例代码：随机森林

from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) rf = RandomForestClassifier(n_estimators=100, random_state=42) # 100棵树 rf.fit(X_train, y_train) y_pred = rf.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}") # 特征重要性 importances = rf.feature_importances_ for name, imp in zip(iris.feature_names, importances): print(f"{name}: {imp:.3f}")

输出示例：

准确率: 1.00 sepal length (cm): 0.097 sepal width (cm): 0.015 petal length (cm): 0.442 petal width (cm): 0.446

解释：

n_estimators=100：树的数量，越多越准但越慢。
特征重要性：显示哪些特征贡献最大（这里花瓣特征最重要），指导特征工程。
实战技巧：随机森林常用于特征选择或作为基线模型。

3.4 支持向量机（SVM）

SVM寻找最佳超平面分隔类别。适合小数据集，但对参数敏感。

示例代码：SVM分类

from sklearn.svm import SVC from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) # SVM对尺度敏感，先标准化 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) svm = SVC(kernel='rbf', C=1.0, gamma='scale') # RBF核 svm.fit(X_train_scaled, y_train) y_pred = svm.predict(X_test_scaled) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

输出：准确率约1.00。

解释：

StandardScaler：标准化特征（均值0，方差1），SVM对尺度敏感。
kernel='rbf'：径向基函数核，适合非线性数据。
实战技巧：使用GridSearchCV调优C（正则化）和gamma（核宽度）。

第四部分：监督学习——回归算法

回归预测连续值，如房价。

4.1 线性回归（Linear Regression）

简单模型，假设特征与目标线性相关。

示例代码：波士顿房价数据集（注意：scikit-learn 1.2+移除了它，使用`fetch_california_housing`替代）

from sklearn.datasets import fetch_california_housing from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score # 加载数据 housing = fetch_california_housing() X = housing.data y = housing.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) lr = LinearRegression() lr.fit(X_train, y_train) y_pred = lr.predict(X_test) print(f"均方误差 (MSE): {mean_squared_error(y_test, y_pred):.2f}") print(f"R²分数: {r2_score(y_test, y_pred):.2f}")

输出示例：

均方误差 (MSE): 0.53 R²分数: 0.60

解释：

MSE：越小越好，表示预测与实际的平均平方差。
R²：0-1，越高越好（1表示完美拟合）。
实战技巧：检查残差图（plt.scatter(y_test, y_pred - y_test)）诊断模型。

4.2 决策树回归与随机森林回归

类似分类，但预测连续值。

示例代码：随机森林回归

from sklearn.ensemble import RandomForestRegressor from sklearn.datasets import fetch_california_housing from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error housing = fetch_california_housing() X_train, X_test, y_train, y_test = train_test_split(housing.data, housing.target, test_size=0.2, random_state=42) rf_reg = RandomForestRegressor(n_estimators=100, random_state=42) rf_reg.fit(X_train, y_train) y_pred = rf_reg.predict(X_test) print(f"MSE: {mean_squared_error(y_test, y_pred):.2f}")

输出：MSE约0.30（优于线性回归）。

解释：随机森林处理非线性关系更好，适合房价预测中的复杂交互。

第五部分：无监督学习——聚类与降维

无监督学习发现数据结构，无需标签。

5.1 K-Means聚类

将数据分为K组，最小化组内距离。

示例代码：Iris聚类

from sklearn.cluster import KMeans from sklearn.datasets import load_iris from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt iris = load_iris() X = iris.data # 假设K=3（已知类别数） kmeans = KMeans(n_clusters=3, random_state=42, n_init=10) clusters = kmeans.fit_predict(X) # 评估（Silhouette分数，-1到1，越高越好） score = silhouette_score(X, clusters) print(f"Silhouette分数: {score:.2f}") # 可视化（用前两个特征） plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='viridis') plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', marker='X') plt.xlabel(iris.feature_names[0]) plt.ylabel(iris.feature_names[1]) plt.show()

输出：Silhouette分数约0.55。散点图显示聚类中心和分配。

解释：

n_clusters=3：K值选择可通过肘部法则（Elbow Method）确定：绘制不同K的惯性（inertia_）。
实战技巧：预处理数据（标准化）以避免尺度影响。

5.2 主成分分析（PCA）降维

PCA将高维数据投影到低维，保留最大方差。

示例代码：PCA

from sklearn.decomposition import PCA from sklearn.datasets import load_iris import matplotlib.pyplot as plt iris = load_iris() X = iris.data pca = PCA(n_components=2) # 降到2维 X_pca = pca.fit_transform(X) print(f"解释方差比: {pca.explained_variance_ratio_}") # 前两维的方差贡献 # 可视化 plt.scatter(X_pca[:, 0], X_pca[:, 1], c=iris.target, cmap='viridis') plt.xlabel('PC1') plt.ylabel('PC2') plt.show()

输出：解释方差比约[0.92, 0.05]，表示PC1捕获92%信息。

解释：PCA用于可视化高维数据或减少特征（加速训练）。

第六部分：模型评估与调优

6.1 交叉验证

避免单次划分的偏差，使用K折交叉验证。

示例代码：交叉验证

from sklearn.model_selection import cross_val_score from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier iris = load_iris() rf = RandomForestClassifier(random_state=42) scores = cross_val_score(rf, iris.data, iris.target, cv=5) # 5折 print(f"交叉验证准确率: {scores.mean():.2f} (+/- {scores.std() * 2:.2f})")

输出：约0.96 (+/- 0.05)。

解释：cv=5表示数据分成5份，轮流训练/测试。平均分数更可靠。

6.2 网格搜索调优超参数

系统搜索最佳参数组合。

示例代码：GridSearchCV

from sklearn.model_selection import GridSearchCV from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier iris = load_iris() rf = RandomForestClassifier(random_state=42) param_grid = { 'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20] } grid = GridSearchCV(rf, param_grid, cv=5, scoring='accuracy') grid.fit(iris.data, iris.target) print(f"最佳参数: {grid.best_params_}") print(f"最佳分数: {grid.best_score_:.2f}")

输出：最佳参数如{'max_depth': None, 'n_estimators': 100}，分数约0.97。

解释：scoring='accuracy'指定评估指标。GridSearchCV自动使用交叉验证，避免过拟合。

6.3 常见评估指标

分类：准确率、精确率、召回率、F1、ROC-AUC（使用roc_auc_score）。
回归：MSE、MAE、R²。
聚类：Silhouette、Adjusted Rand Index（需真实标签）。

示例：ROC-AUC（二分类）

from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_auc_score, roc_curve import matplotlib.pyplot as plt cancer = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=42) lr = LogisticRegression(max_iter=200) lr.fit(X_train, y_train) y_proba = lr.predict_proba(X_test)[:, 1] auc = roc_auc_score(y_test, y_proba) print(f"AUC: {auc:.2f}") fpr, tpr, _ = roc_curve(y_test, y_proba) plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}') plt.plot([0, 1], [0, 1], 'k--') plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.legend() plt.show()

输出：AUC约0.95，曲线接近左上角。

解释：AUC衡量模型区分正负类的能力，适合不平衡数据。

第七部分：实战技巧与最佳实践

7.1 数据预处理

缺失值：使用SimpleImputer填充。
编码：OneHotEncoder处理类别特征。
标准化：StandardScaler或MinMaxScaler。

示例：完整预处理管道

from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.datasets import fetch_openml # 使用MNIST数据集（手写数字） mnist = fetch_openml('mnist_784', version=1, as_frame=False) X, y = mnist.data[:10000], mnist.target[:10000].astype(int) # 子集加速 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 假设有数值和类别特征（MNIST全数值，但示例管道） numeric_features = list(range(X.shape[1])) # 所有特征 numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()) ]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features) ]) # 完整管道 pipeline = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', RandomForestClassifier(n_estimators=50, random_state=42)) ]) pipeline.fit(X_train, y_train) print(f"管道准确率: {pipeline.score(X_test, y_test):.2f}")

解释：Pipeline确保预处理和训练无缝集成，避免数据泄漏。

7.2 处理不平衡数据

使用SMOTE（需imbalanced-learn库）或类权重。

示例：类权重

from sklearn.svm import SVC from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=42) svm = SVC(class_weight='balanced', probability=True) svm.fit(X_train, y_train) print(f"准确率: {svm.score(X_test, y_test):.2f}")