내용

글번호 1243
작성자 허진경 (나자바바)
작성일 2023-10-15 18:40:16
제목 사이킷런(scikit-learn)의 load_boston()
내용 boston 집값 데이터셋은 scikit-learn 버전 1.2부터 제거되었습니다. 이 코드를 대신하려면 다음처럼 직접 보스턴 데이터셋을 불러오거나... import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) X = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2] ]) y = raw_df.values[1::2, 2] 캘리포니아 집값 데이터셋을 사용할 수 있습니다. from sklearn.datasets import fetch_california_housing housing = fetch_california_housing() X, y = housing.data, housing.target 또는 다음처럼 statsmodels 패키지를 이용해서 불러올 수 있습니다. import statsmodels.api as sm Boston = sm.datasets.get_rdataset("Boston", package="MASS") X = Boston.data.iloc[:, :-1] y = Boston.data.iloc[:, -1] from sklearn.model_selection import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3)