【Scikit-learn】アイリスデータセットの読み込み・可視化

Scikit-learn

2016.12.032024.06.30

この記事では、Pythonと機械学習ライブラリ「scikit-learn」でアイリスデータを描画する方法について紹介します。

## アイリスデータセットとは

Iris（アイリス）は統計分野で有名なデータセットです。
データセットの内容は、あやめという花の三品種 (Setosa, Versicolor, Virginica) の特徴量です。
含まれる特徴量は、Sepal (がく片) と Petal (花びら) の長さと幅となっています。
scikit-learnには、標準でこのデータセットが組み込まれています。
今回はscikit-learnの動作確認として、このデータセットをMatplotlibで表示してみます。

## ソースコード

サンプルプログラムのソースコードです。

from matplotlib import pyplot as plt
from sklearn import datasets # データ・セット

def main():
    # Iris のデータを呼び出す
    iris = datasets.load_iris()
    X = iris.data[:, :2]  # 最初の二次元のみの特徴量を抽出
    Y = iris.target       # 目標値（正解データ）
    # グラフの軸幅
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    # 可視化のベースを作成
    plt.figure(2, figsize=(8, 6))
    plt.clf()
    # 実際にプロット
    plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired)
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)
    plt.grid()
    plt.show()

if __name__ == "__main__":
    main()

## 実行結果

プログラムの実行結果です。

yoika より:

2017年9月7日 8:28 AM

大変参考になりました。それで、細かいことですが、コードに誤りがあるようです。以下。

cmap=pl.cm.Paired
　　　　↓
cmap=plt.cm.Paired

返信
- 管理人より:
  
  2017年9月7日 5:28 PM
  
  ※yoika 様
  コメントありがとうございます。
  ご指摘いただいた通り、誤りがあったのでコードを修正しました。
  本当に助かりました。ご丁寧にありがとうございます。
  
  今後ともよろしくお願いします。
  
  返信