Search
Duplicate
⚙️

H2O AutoML 사용법

설치 방법

pip로 설치 가능하다.
$ pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
Bash
복사

Quickstart

import h2o from h2o.automl import H2OAutoML # h2o cluster의 초기화가 필요하다. # 사용하는 코어 수를 제한하고 싶다면 h2o.init(nthreads=72)와 같이 사용. h2o.init() # 데이터는 우선 pandas 데이터프레임으로 불러오는 편이 다루기 더 쉬울 듯? train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') model = H2OAutoML( max_models=10, seed=42, max_runtime_secs=360, sort_metric='RMSE', ) # x: training에 사용되는 컬럼의 이름 (optional) # y: target 컬럼 이름 # training_frame: 학습 데이터프레임 (H2OFrame 의 형태여야 한다!) # h2o.H2OFrame(train)로 변환 가능하다. model.train(x=x, y=y, training_frame=train) # 학습된 모델로 예측 수행은 model.predict로 해도 되고, preds = model.predict(test) # 직접적으로 성능이 가장 좋은 모델인 model.leader에서 predict를 call해도 된다. # 결과는 같을 듯? 확인해 보자. preds = model.leader.predict(test) # 참고로, preds 변수는 sklearn과 같이 예측 값들의 array가 아니다. # 예측 값들만 얻고 싶으면 다음과 같이 변환해준다. preds_df = pd.DataFrame(preds.as_data_frame()) pred_values = preds_df['predict'].values # 추가적으로, 모델들의 성능을 비교할 수 있는 leaderboard를 제공한다. lb = h2o.automl.get_leaderboard(model, extra_columns='ALL')
Python
복사
아래와 같이 학습 progress를 보여준다.

필수 파라미터

H2OAutoML 필수 stopping 파라미터

max_runtime_secs: AutoML process가 돌아가는 최대 시간. 0이면 1시간으로 보면 된다.
max_models: 스태킹 앙상블 모델을 제외하고 만들 모델의 개수 제한

H2OAutoML.train 필수 데이터 파라미터

y: Target column의 이름
training_frame: training set