【Scikit-learn】CSVファイルを読み込んで学習する方法とサンプルコード

Pythonライブラリ「Scikit-learn」でCSVファイルを読み込んで学習する方法をサンプルコード付きで解説します。

訓練データに対する適合性評価

以下は、CSVファイルを読み込み、訓練データとして単回帰モデルを作成するコードです。

■dataset01.csv（読み込むデータ）
※リンクを右クリックするとダウンロードできます。

import pandas as pd

dataset = pd.read_csv(
    "C:/github/sample/python/scikit-learn/tutorial/LinearRegression/single/dataset01.csv",
    sep=",",
)

x = dataset.loc[:, ["チャンネル登録者数"]].to_numpy()
y = dataset["視聴者数"].to_numpy()

dataset.loc[:, ["チャンネル登録者数"]]：全行（:）から「チャンネル登録者数」列だけを抽出。scikit-learn の LinearRegression().fit(x, y) は、xにDataFrame（2次元）を与える必要がある。
.to_numpy() によって pandas の Series/DataFrame を NumPy 配列に変換。
x: 特徴量（チャンネル登録者数）を2次元配列としてDataFrameから抽出（抽出データは、DataFrame（2次元）形式）。
y: ターゲット変数（視聴者数）を1次元配列としてDataFrameから抽出（抽出データは、Series（1次元）形式）。