본문 바로가기

전체 글114

9. 회귀(Regression) - 선형회귀 Index● Linear Regression 개요회귀(Regression)모델의 가장 큰 구분은 ①독립변수의 개수에 따라 단일회귀/다중회귀  ② "회귀계수"의 종류에 따라 선형회귀/비선형회귀로 구분된다. (비선형 회귀와 다항회귀를 혼동하면 안된다). 선형회귀는 피쳐와 라벨간에 선형적인 관계가 있다고 가정하고 최적의 선형함수를 탐색한다. (실제는 선형적 관계가 아닐수 있음에도) 회귀모델은 오류(=Cost=Loss function ; residual, RSS, MAE, MSE 등으로 측정)를 최소화하는 회귀계수 혹은 회귀선을 찾는것을 목적으로 한다. 최적의 회귀계수를 찾는 대표적인 방법론 : Gradient Descent (경사하강법). Gradient는 Cost를 parameter(회귀계수)에 대해 편미분.. 2023. 5. 31.
8. 베이지안 최적화(Bayesian Optimization) Index● 베이지안 최적화 개요GridSearch 와 같은 방식의 파라미터 튜닝은, 모든 조합의 수를 다해보기 때문에 computational cost가 매우 크다. 따라서 데이터 사이즈가 크거나, XGB, LightGBM 과 같이 느린 모델에는 베이지안 최적화기법이 선호된다. 베이지안 최적화란 ? "목적함수의 식을 모를 때 최대/최소 y값(f(x))을 반환하는 x를 찾는 기법" 이다. 베이지안 최적화의 중요한 두가지 요소는 대체모델(Surrogate Model)과 획득함수(Acquisition Function)이다.  대체모델(Surrogate Model)은 미지의 목적함수를 확률적으로 추정하는 모델로, 획득함수가 계산한 입력값(하이퍼 파라미터)기반으로 모델(최적함수)를 개선해 나간다. 아래 그림에서.. 2023. 5. 30.
지니계수 지니계수 계산법 2023. 5. 28.
7. 앙상블(Ensemble) - 부스팅(Boosting) Index 1. Boosting 앙상블 개요 이번 포스팅에 다룰 내용은 "부스팅(Boosting)" 앙상블이다. 부스팅은 이전에 정리한 Voting, Bagging 앙상블과는 다르게 순서를 가진다. 부스팅 모델은 여러개의 약한모델(weak learner)을 순차적으로 학습하면서, 잘못 예측한 데이터에 가중치를 부여해 오류를 개선해나가는 모델이다. 부스팅 모델에 가장 대표적인 방식이 ADA Boost (Adaptive Boosting), GBM (Gradient Boosting Method)인데 이번 포스팅에는 GBM 부류의 모델들에 대해 정리하겠다. (ADA 는 틀린 데이터셋에 대해 가중치를 줘가며 오답을 줄이려는 방향이고, GBM 은 모델의 전체 손실함수를 최소화 하는 방향으로 GBM 이 좀더 유연하다.. 2023. 5. 28.