3. 机器学习基本步骤

利用工具进行机器学习一般需要遵循固定流程,对于sklearn而言,基本流程如下:

  • 选择模型类: 选择需要的模型
  • 选择模型超参数:对模型进行简单配置
  • 用模型拟合训练数据:训练模型
  • 用模型预测新数据的标签:预测结果
  • 对模型进行评估-改进,循环到达到目标

3.1. 实例演示

我们用鸢尾花数据集对上面流程进行一个简单演示:


from sklearn.datasets import load_iris

# 加载数据
iris = load_iris()

X = iris.data
y = iris.target

#使用k临近分类器
#选择k临近模型
#这样的模型还有很多......也是我们学习的主要任务
from sklearn.neighbors import KNeighborsClassifier

#配置超参数n_neighbors=1
model  = KNeighborsClassifier(n_neighbors=1)

#训练模型
model.fit(X, y)

#利用训练好的模型预测结果
y_model = model.predict(X)

#计算模型准确率
from sklearn.metrics import accuracy_score
rst = accuracy_score(y, y_model)

print("模型准确率:{}%".format(rst * 100))
模型准确率:100.0%

以上案例获取数据集,选择模型,进行训练并最终对结果进行了评估,当然最终结果是验证100%准确, 这虽然是个好数字,但对于我们的验证模型来说,一般不会也不应该出现完全正确的情况,可以这样理解,每次 考试都考100分的孩子,不正常呀!!!