掌握Scikit-learn：Python库中的机器学习实战案例解析

Scikit-learn 是一个强大的 Python 库，它提供了简单的接口来使用各种机器学习算法。无论是分类、回归、聚类还是降维，Scikit-learn 都能够提供丰富的工具。本文将通过几个实战案例，详细解析如何使用 Scikit-learn 进行机器学习。

1. 引言

在开始之前，我们需要了解 Scikit-learn 的基本结构。它主要由以下几个部分组成：

数据预处理：包括数据清洗、转换和格式化。
模型选择：提供多种机器学习算法的实现。
模型训练：使用训练数据来训练模型。
模型评估：使用测试数据来评估模型的性能。
模型预测：使用训练好的模型对新数据进行预测。

2. 数据预处理

在开始训练模型之前，数据预处理是必不可少的步骤。以下是一个使用 Scikit-learn 进行数据预处理的例子：

from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加载数据集 iris = datasets.load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # 数据标准化 sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test)

3. 模型选择

Scikit-learn 提供了多种机器学习算法，以下是一些常见的算法：

线性回归：用于回归问题。
逻辑回归：用于分类问题。
决策树：用于分类和回归问题。
随机森林：基于决策树的集成学习方法。

以下是一个使用逻辑回归进行分类的例子：

from sklearn.linear_model import LogisticRegression # 创建逻辑回归模型 logisticRegr = LogisticRegression() # 训练模型 logisticRegr.fit(X_train, y_train) # 预测测试集 y_pred = logisticRegr.predict(X_test)

4. 模型评估

模型评估是确保模型性能的重要步骤。以下是一些常用的评估指标：

准确率：预测正确的样本数占总样本数的比例。
召回率：预测正确的正样本数占所有正样本的比例。
F1 分数：准确率和召回率的调和平均数。

以下是一个使用准确率进行模型评估的例子：

from sklearn.metrics import accuracy_score # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print("Accuracy: {:.2f}%".format(accuracy * 100))

5. 模型预测

一旦模型训练完成并经过评估，我们就可以使用它来对新数据进行预测。以下是一个使用训练好的模型进行预测的例子：

# 新数据 new_data = [[5.1, 3.5, 1.4, 0.2]] # 数据标准化 new_data = sc.transform(new_data) # 预测 new_prediction = logisticRegr.predict(new_data) print("Predicted class: {}".format(new_prediction))