【Scikit-learn】CSVファイルを読み込んで学習する方法とサンプルコード

Pythonライブラリ「Scikit-learn」でCSVファイルを読み込んで学習する方法をサンプルコード付きで解説します。

訓練データに対する適合性評価

以下は、CSVファイルを読み込み、訓練データとして単回帰モデルを作成するコードです。


dataset01.csv(読み込むデータ)
※リンクを右クリックするとダウンロードできます。


コード解説

import pandas as pd
  • pandas: データフレーム操作ライブラリをインポートします。CSVの読み込みや列抽出に使用します。
dataset = pd.read_csv(
    "C:/github/sample/python/scikit-learn/tutorial/LinearRegression/single/dataset01.csv",
    sep=",",
)
  • CSVファイルを読み込み、dataset という名前でPandasのDataFrame に格納しています。
  • sep="," はCSVファイルの区切り文字にカンマを指定しています。
x = dataset.loc[:, ["チャンネル登録者数"]].to_numpy()
y = dataset["視聴者数"].to_numpy()
  • dataset.loc[:, ["チャンネル登録者数"]]:全行(:)から「チャンネル登録者数」列だけを抽出。scikit-learn の LinearRegression().fit(x, y) は、xにDataFrame(2次元)を与える必要がある。
  • .to_numpy() によって pandas の Series/DataFrame を NumPy 配列に変換。
  • x: 特徴量(チャンネル登録者数)を2次元配列としてDataFrameから抽出(抽出データは、DataFrame(2次元)形式)。
  • y: ターゲット変数(視聴者数)を1次元配列としてDataFrameから抽出(抽出データは、Series(1次元)形式)。

関連ページ

以下ページでは、Pythonライブラリ「scikit-learn」の使い方を数理的な背景も含めて解説していますので、是非ご一読ください。

【Scikit-learn超入門】使い方をサンプルコード付きで解説
Pythonライブラリ「Scikit-learn」で機械学習を行う方法を入門者向けに解説します。
この記事を書いた人
西住技研

プログラミング言語「Python」を研究、仕事、趣味でデータ分析や作業自動化などに活用してきたノウハウを情報発信しています。
筆者の詳しいプロフィールやお問合せはこちらのページまで。
YoutubeX(旧Twitter)でも情報発信中です!

西住技研をフォローする
Scikit-learn

コメント