분류, Classification
반응변수는 크게 양적 반응변수와 질적 반응변수(categorical)로 나눌 수 있다.
질적 반응변수는 동물(개, 고양이, 치타)처럼 분류할 수 있는 반응변수를 말한다. (범주형, categorical)
반응변수가 질적인 경우 선형회귀는 적합하지 않다.
분류 클래스 수가 3 이상인 경우 선형회귀?
범주에 따라 Y값을 1, 2, 3으로 나눌 수는 있는데, 1과 2, 2와 3의 차이가 비슷한 경우에만 해볼만하다. 분류 케이스가 3 이상인 경우 질적 반응변수를 선형 회귀를 위해 양적 반응변수로 바꾸는 자연스러운 방법은 없다.
그래서 후술할 LDA 분류기를 사용한다.
분류 클래스 수가 2인 경우 선형회귀?
이런 경우 f가 직선이라 Y값이 음수로 나오거나 1보다 커져 확률로 해석하기가 어렵다는 문제점이 있다.
그래서 케이스가 2개인 질적 반응변수에 잘 맞는 분류 방법으로 나온 것이 무엇이냐~하면 로지스틱 회귀다.
로지스틱 회귀(Logistic Regression) - 이진 분류
\\[log(\frac{p(X)}{1 - p(X)}) = \beta_0 + \beta_1 X\\]
아래의 좌변을 logit 또는 로그 공산(log-odds)이라 부른다. 저기서 로그를 없애면 공산(odds)이다.
모델 적합(fitting)은 최대 가능도(maximum likelihood)라는 방법을 사용하며, 아래의 가능도 함수(likelihood function)을 최대화하는 \\(\beta\\)를 선택하는 방식이다.
\\[\ell(\beta_0, \beta_1) = \prod_{i:y_i=1} p(x_i) \prod_{i':y_{i'}=0} (1 - p(x_{i'})) \\]
\\(\Pi\\)는 곱기호다. 시그마처럼 다 더하듯 그냥 다 곱하면 된다.
2-클래스 로지스틱 회귀도 다중클래스 모델로 확장할 수 있지만, 일반적으로 다중 클래스에는 LDA 분류기가 사용된다.
LDA 분류기 (선형판별분석, Linear Discriminant Analysis) - 다중 클래스 분류
분류를 위한 베이즈 정리
2018/04/21 - [Math/Probability and Statistics] - 조건부 확률과 베이즈 정리 (Bayes' theorem)
설명 변수가 하나인 경우(p=1)
\\(\pi_k = Pr(Y)\\)는 랜덤하게 선택된 관측치가 k번째 클래스에서 나올 전체 확률(사전확률)
\\(f_k(X) = Pr(X = x | Y = k)\\)는 k번째 클래스에 속하는 관측치에 대한 X의 밀도함수(정규분포 곡선 형태를 생각하면 된다.)
사전확률 \\(Pr(Y)\\)를 알 때 \\(Pr(Y|X)\\)를 구하는게 베이즈 정리이니까,
\\[Pr(Y = k | X = x) = p_k(x) = \frac{\pi_k f_k(x)}{\Sigma_{l=1}^K \pi_l f_l(x)} \quad (4.10) \\]
* 분모는 전확률
\\(f_k(x)\\)를 추정하려면 그 형태를 가정해야 한다. 정규분포라고 가정한다. 왜냐면, f_k(x)는 어떤 클래스 k를 가지는 x값들의 분포이므로.
이 때 평균은 k마다 다르고\\(u_k\\) 분산은 어떤 클래스든지 같다고 해보자\\(\sigma^2\\)
\\(f_k(x)\\)를 (4.10) 식에다 넣고 양변 로그취하고 항들을 정리하면 다음 식을 얻을 수 있다.
\\[\delta_k(x) = x \cdot \frac{u_k}{\sigma^2} - \frac{u_k^2}{2 \sigma^2} + \log \pi_k \quad (4.13) \\]
다중설명변수인 경우 (p > 1)
QDA 분류기(이차판별분석, Quadratic Discriminant Analysis)
QDA는 LDA보다 좀 더 복잡하므로, bias-variance trade-off를 고려해서 해결하려는 문제의 복잡도에 따라 선택하도록 한다.
2019/04/07 - [Math/Probability and Statistics] - 편향-분산 절충, Bais-Variance Decomposition
* 참고로 Quadratic은 4차가 아니고 2차를 의미한다.
'Machine Learning > Theory' 카테고리의 다른 글
민감도와 특이도 (sensitivity, specificity) (0) | 2019.05.24 |
---|---|
재표본추출 방법, Resampling Methods (0) | 2019.05.20 |
선형 회귀, Linear Regression (0) | 2019.05.07 |
편향-분산 절충, Bais-Variance Decomposition (0) | 2019.04.07 |
GAN : Generative Adversarial Networks (생성적 적대 신경망) (0) | 2019.02.14 |