【Scikit-learn超入門】使い方をサンプルコード付きで解説

2024.06.302025.12.12

Pythonライブラリ「Scikit-learn」で機械学習を行う方法を入門者向けに解説します。

目次

Scikit-learnとは
必要な予備知識と環境構築
回帰分析
サポートベクターマシン（SVM）
決定木分析
クラスタ分析
ニューラルネットワーク
応用例
参考文献
関連ページ

Scikit-learnとは

Scikit-learn（読み：サイキットラーン）は、Pythonで機械学習を行うための代表的なライブラリです。シンプルで使いやすく、学習から実務まで幅広く活用されています。主な特徴は以下のとおり。

特徴	説明
幅広いアルゴリズムに対応	線形回帰、SVM、ランダムフォレスト、k-NN、クラスタリング（k-means など）といった多様なアルゴリズムを利用できる
データ構造が扱いやすい	NumPy 配列や Pandas データフレームに対応しており、他ライブラリとのデータ受け渡しが容易
学習コストが低い	「学習 → 予測 → 評価」の一貫した API で直感的に使える。日本語情報も豊富で、公式ドキュメントや解説書も充実
商用利用可能	BSD ライセンスのため、条件を満たせば商用利用が可能

本シリーズの方向性

「Scikit-learn」は学習コストが低いため、機械学習の数理的な理解がなくてもプログラムを動かすことは可能です。ただし、それは「とりあえず使える」にすぎず、「数理を理解して使える」こととは大きな差があります。最初は難しく感じるかもしれませんが、数理的な理解が深まると「多様な問題を解決するための最適な使い方」ができるようになり、応用力が身につきます。

本シリーズでは「Scikit-learn」の使い方に加えて、各手法のコアとなる数理についても解説します。数理的理解の重要性については以下ページで詳細に解説していますので、ご参考ください。

【Scikit-learn】AI時代に数理的な理解を深める学習が重要な理由

Pythonライブラリ「Scikit-learn」で機械学習について学ぶ際、数理的な学習を併せて行うことがおすすめな理由について解説します。

動画で見る

本ページの内容は以下動画で解説しています。

必要な予備知識と環境構築

必要な予備知識

以下ページでは、「機械学習」について1から学ぶ方向けに、「機械学習」や「AI」の意味について解説しています。

AIと機械学習の違いとは？モデルを構築するまでの基本的な流れを解説

AIと機械学習の違いとは?基本用語から種類・活用事例まで幅広く解説します。

「Scikit-learn」を使うには、「NumPy」「Pandas」「Matplotlib」といった定番ライブラリの基礎を理解している必要があります。以下は、「これらのライブラリを初めて使う人」や「基本操作に不安がある人」向けの解説ページです。

環境構築

以下ページに従ってScikit-learnの環境構築を行いましょう。

Scikit-learnの環境構築

回帰分析

回帰分析では、「結果(目的変数)」と「結果に影響を及ぼすデータ(説明変数)」の関係性を統計的に求める手法です。2つのデータの関係性がわかれば、将来どのような結果となるかの予測を行うことができます。説明変数が1つの場合が「単回帰分析」、複数の場合は「重回帰分析」といいます。

サポートベクターマシン（SVM）

【特徴】予測対象：分類, 学習タイプ：教師あり, 可読性：○, 並列処理：✕
【概要】マージン最大化のアイデアにより、汎化性能が高い2分類を行います。計算コストは高めです。

サポートベクターマシン

決定木分析

【特徴】モデル：木構造（非線形）, 学習タイプ：教師あり, 予測対象：分類, 可読性：○, 並列処理：✕
【概要】枝先で１つの説明変数と閾値のセットでにデータを２つに分けるのを繰り返します。説明変数の選択と閾値は、ジニ不純度やエントロピー等で決定されます。

*決定木分析

クラスタ分析

特徴が類似するデータ同士をまとめて、データ構造を発見します。分類 (Classification)データとラベルを学習し、データに対するラベルを予測します。

階層型クラスタ分析

【特徴】予測対象：分類, 学習タイプ：教師なし, 可読性：○, 並列処理：✕
【概要】代表例はユークリッド距離＊ウォード法。あらかじめ定義した距離を用いてデータをグループ化。クラスタ数(分類数)は、計算後に変更可能。

非階層型クラスタ分析

【特徴】予測対象：分類, 学習タイプ：教師なし, 可読性：✕, 並列処理：○
【概要】代表例はk平均法。クラスタ数(分類数)を事前に指定する必要がある（後から変更不可）。階層型クラスタリングで高速化もできる。初期値によって結果が異なる等の問題あり。

k平均法(k-means)

ニューラルネットワーク

【特徴】モデル：神経回路, 学習タイプ：教師あり予測対象：連続値・分類, 可読性：✕, 並列処理：○
【概要】古典的な多層構造（入力・隠れ層・出力）のニューラルネットワーク。学習にはバックプロパゲーションを用いることが多い。複雑なモデルを構築できる反面、過学習も多い。

多層ニューラルネットワーク（MLP）

応用例

時系列データの異常検知

時系列データの類似度

参考文献

関連ページ

【Python超入門】基礎から応用例まで幅広く解説

PythonについてPythonは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されているプログラミング言語です。他のプログラミング言語と比較して「コードが短くて読みやすい、書きやすい」「ライブラリが豊...