揭秘Scikit-learn实战：轻松上手机器学习项目案例深度解析

引言

Scikit-learn 是一个强大的 Python 库，用于数据挖掘和数据分析。它提供了大量的机器学习算法，使得机器学习项目变得简单易懂。本文将深入解析 Scikit-learn 的实战案例，帮助读者轻松上手机器学习项目。

Scikit-learn 简介

Scikit-learn 包含了分类、回归、聚类、降维等多个机器学习算法。它易于使用，并且与 Python 的其他科学计算库（如 NumPy、SciPy 和 Matplotlib）兼容。

安装 Scikit-learn

首先，确保你的 Python 环境已经安装了 Scikit-learn。可以使用以下命令进行安装：

pip install -U scikit-learn

导入 Scikit-learn

在 Python 中，使用以下代码导入 Scikit-learn：

from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier

实战案例：鸢尾花分类

数据集介绍

鸢尾花数据集是 Scikit-learn 提供的一个经典数据集，包含 150 个样本，每个样本有 4 个特征，分为 3 个类别。

数据预处理

# 加载数据集 iris = datasets.load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 特征缩放 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

模型训练

# 创建 KNN 分类器 knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.fit(X_train, y_train)

模型评估

# 预测测试集 y_pred = knn.predict(X_test) # 计算准确率 accuracy = knn.score(X_test, y_test) print(f"模型准确率: {accuracy:.2f}")

实战案例：葡萄酒质量预测

数据集介绍

葡萄酒质量数据集包含 12 个特征和 1 个质量评分（1-10 分），共有 1599 个样本。

数据预处理

# 加载数据集 wine = datasets.load_wine() X = wine.data y = wine.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 特征缩放 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

模型训练

# 创建逻辑回归模型 from sklearn.linear_model import LogisticRegression logistic = LogisticRegression() # 训练模型 logistic.fit(X_train, y_train)

模型评估

# 预测测试集 y_pred = logistic.predict(X_test) # 计算准确率 accuracy = logistic.score(X_test, y_test) print(f"模型准确率: {accuracy:.2f}")

总结

通过以上案例，我们可以看到 Scikit-learn 的强大功能和易用性。Scikit-learn 提供了丰富的算法和工具，可以帮助我们快速搭建机器学习项目。在实际应用中，可以根据具体问题选择合适的算法和参数，以达到最佳效果。