この記事では、Pythonと機械学習ライブラリ「scikit-learn」でアイリスデータを描画する方法について紹介します。
## アイリスデータセットとは
Iris(アイリス)は統計分野で有名なデータセットです。
データセットの内容は、あやめという花の三品種 (Setosa, Versicolor, Virginica) の特徴量です。
含まれる特徴量は、Sepal (がく片) と Petal (花びら) の長さと幅となっています。
scikit-learnには、標準でこのデータセットが組み込まれています。
今回はscikit-learnの動作確認として、このデータセットをMatplotlibで表示してみます。
## ソースコード
サンプルプログラムのソースコードです。
from matplotlib import pyplot as plt from sklearn import datasets # データ・セット def main(): # Iris のデータを呼び出す iris = datasets.load_iris() X = iris.data[:, :2] # 最初の二次元のみの特徴量を抽出 Y = iris.target # 目標値(正解データ) # グラフの軸幅 x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5 y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5 # 可視化のベースを作成 plt.figure(2, figsize=(8, 6)) plt.clf() # 実際にプロット plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired) plt.xlabel('Sepal length') plt.ylabel('Sepal width') plt.xlim(x_min, x_max) plt.ylim(y_min, y_max) plt.grid() plt.show() if __name__ == "__main__": main()
## 実行結果
プログラムの実行結果です。
【おすすめ記事】
Scikit-learnをインストールする方法
Scikit-learn入門・使い方
機械学習のアルゴリズム入門
コメント
大変参考になりました。それで、細かいことですが、コードに誤りがあるようです。以下。
cmap=pl.cm.Paired
↓
cmap=plt.cm.Paired
※yoika 様
コメントありがとうございます。
ご指摘いただいた通り、誤りがあったのでコードを修正しました。
本当に助かりました。ご丁寧にありがとうございます。
今後ともよろしくお願いします。