Pythonライブラリ「Scikit-learn」でCSVファイルを読み込んで学習する方法をサンプルコード付きで解説します。
訓練データに対する適合性評価
以下は、CSVファイルを読み込み、訓練データとして単回帰モデルを作成するコードです。
■dataset01.csv(読み込むデータ)
※リンクを右クリックするとダウンロードできます。
コード解説
import pandas as pd
pandas
: データフレーム操作ライブラリをインポートします。CSVの読み込みや列抽出に使用します。
dataset = pd.read_csv(
"C:/github/sample/python/scikit-learn/tutorial/LinearRegression/single/dataset01.csv",
sep=",",
)
- CSVファイルを読み込み、
dataset
という名前でPandasのDataFrame に格納しています。 sep=","
はCSVファイルの区切り文字にカンマを指定しています。
x = dataset.loc[:, ["チャンネル登録者数"]].to_numpy()
y = dataset["視聴者数"].to_numpy()
dataset.loc[:, ["チャンネル登録者数"]]
:全行(:)から「チャンネル登録者数」列だけを抽出。scikit-learn の LinearRegression().fit(x, y) は、xにDataFrame(2次元)を与える必要がある。.to_numpy()
によって pandas の Series/DataFrame を NumPy 配列に変換。x
: 特徴量(チャンネル登録者数)を2次元配列としてDataFrameから抽出(抽出データは、DataFrame(2次元)形式)。y
: ターゲット変数(視聴者数)を1次元配列としてDataFrameから抽出(抽出データは、Series(1次元)形式)。
関連ページ
以下ページでは、Pythonライブラリ「scikit-learn」の使い方を数理的な背景も含めて解説していますので、是非ご一読ください。

【Scikit-learn超入門】使い方をサンプルコード付きで解説
Pythonライブラリ「Scikit-learn」で機械学習を行う方法を入門者向けに解説します。
コメント