이산 확률 분포, discrete probability distribution
결합 확률 분포
당연히 이산 확률 분포, 연속 확률 분포 모두 결합 확률 분포로 나타낼 수 있다.
기댓값
이산확률분포
이산 확률 분포의 확률 질량 함수\\(f(x)\\)는 이산 값으로 정의되며
따라서 누적 분포 함수\\(F(x)\\)는 우측 연속인 불연속 그래프로 나타난다.
\\(F(x)\\)가 불연속이기 때문에 미분한다고 \\(f(x)\\)가 나오는게 아니다.
\\(F(x) = \Sigma{f(x)}\\)
이항분포 Binomial distribution
독립 시행 사건일 때, 전체 중에 몇 번 사건이 발생할 지.
각 직접회로가 불량품일 가능성은 독립적으로 0.05일 때, 집적회로 10개에 포함된 불량품의 수.
예방 주사를 맞은 쥐들 중 60%가 면역이 생길 때, 예방 주사를 맞은 5마리 쥐가 모두 질병에 걸리지 않을 확률
이항 분포의 정규 분포 근사
\\(p\\)의 값이 0 또는 1에 가깝지 않으면서, \\(n \ge 25\\) 정도인 이항분포는 정규분포로 근사할 수 있다.
이 때 이항분포는 이산형이고, 정규분포는 연속형이기 때문에 정규분포로 변경하면서 값(또는 구간)에 \\(\pm 0.5\\) 해준다.
\\(P(X = b) \to P(b - 0.5 \le X \le b + 0.5)\\)
* 초과/미만은 이항분포 상태에서 이상/이하로 변경해서 확장해준다.
어떤 약의 5%가 효과가 없다고 할 때, 200개의 약 중에서 10개 미만이 효과가 없을 확률.
→ n이 너무 커서 이항 분포로 계산하기 곤란할 때는 정규 분포로 근사.
다항분포 Multinomial distribution
초기하 분포 Hypergeometric distribution
음이항 분포 Negative binomial distribution
\\[X \sim NB(k, p) = b^*(x;k,p) = {x-1 \choose r-1}p^{k} q^{x-k}\\]
\\(E[X] = \frac{k}{p}, \quad Var(X) = E[X]\frac{q}{p}\\)
7선 4승 경기에서 k번만에 승리할 확률.
기하 분포를 이용해 음이항 분포의 평균 구하기
기댓값 공식 이용하는게 아니라, 기하 분포를 이용해도 평균을 구할 수 있다. \\(X_i\\)가 기하 분포를 따른다면
\\(E(X) = E(X_1) + E(X_2) + \cdots + E(X_k) = \frac{k}{p}\\)
k번째 성공이 일어나기 까지의 수행횟수의 기댓값. k번째 성공까지 평균 몇 번 수행해야 하는가?를 의미한다.
각각의 수행이 독립이므로 1번째 성공까지의 수행과 그 이후부터 2번째 성공까지의 수행도 독립이다. (무기억성 1)
1번째 성공까지의 수행 횟수(\\(\frac{1}{p}\\)) + 그 이후부터 그 다음 성공까지의 수행횟수(\\(\frac{1}{p}\\)) + ...
기하 분포 Geometric distribution
처음 성공할 때 까지 독립적으로 반복 시행한 횟수 \\(X\\)의 확률분포. (연속 확률 분포에서는 이게 지수 분포.)
x-1번째까지는 모두 실패, x번째에 성공이므로
\\[X \sim G(p) = pq^{x-1}\\]
누적분포함수는 등비급수 정리해보면,
\\(P(X \leq k) = 1-q^k\\)
\\(E[X] = \frac{1}{p}, \quad Var(X) = \frac{q}{p^2}\\)
평균적으로 몇 번째에 처음 성공하겠는가?
e.g., 주사위에서 1이 나올 때 까지 평균 몇 번 던져야 하겠는가?
p=1/6이고 얼핏 생각해보면 6가지 경우의 수이니 3번. 인 것 같지만 실패만 6번 이상 하는 경우도 있다는 것을 생각해 보면 3번은 너무 작은 쪽으로 치우친 값. 평균 6번은 던져야 한다.
x년 이내에 10m를 초과하는 파도가 찾아올 확률.
기하분포의 무기억성
- 처음 성공할 때 까지 반복 시행 횟수와, 그 이후 다시 처음 성공할 때 까지 반복 시행 횟수는 독립이고 항등분포이다.
- 각 시행은 독립이므로, 실패를 많이 했다고 해서 앞으로 성공할 가능성이 달라지지 않는다.
어떤 제품을 이미 n시간 사용한 상태에서 앞으로 그 제품을 m시간 더 사용할 수 있을 확률은 최초 제품을 m시간 사용할 수 있을 확률과 같다는 것이다.
포아송 분포 Poisson distribution
근사 포아송 과정 Approximate Poisson Process
- 구간의 길이가 \\(h\\)인 충분히 작은 길이의 구간에서 정확히 하나의 사건이 발생할 확률은 거의 \\(mh\\)다.
- 각각의 구간에서 발생하는 사건들은 서로 독립이다.
- 충분히 작은 길이의 구간에서 사건이 두 번 이상 발생할 확률은 거의 0이다.
길이가 1인 구간에서 발생하는 사건의 수를 확률변수 \\(X\\)라 하고 이 구간을 \\(n\\)등분 하면, \\(P(X = x)\\)는 \\(n\\)개의 작은 구간 중 \\(x\\)개의 구간에서 사건이 발생할 확률로 근사할 수 있다.
이 때 각각의 작은 구간에서 사건이 발생할 확률이 \\(p = \frac{m}{n}\\)이고, 각 작은 구간에서 일어나는 사건은 베르누이 시행이므로 \\(B(n, \frac{m}{n})\\)인 이항 분포로 생각할 수 있다.
\\[P(X = x) = {n \choose x} \left( \frac{m}{n} \right)^x \left( 1-\frac{m}{n} \right)^{n-x}\\]
\\(n \to \infty\\)로 보내고 식 정리하면 다음과 같은 결과를 얻을 수 있다.
( * 정리하면서 \\(\lim (1+\frac{1}{n})^n = e\\) 사용해야 한다. )
포아송 분포의 확률질량함수
\\[p(x; m) = \frac{m^x}{x!} e^{-m}\\]
\\(m (= \lambda t)\\)는 단위 시간 동안 평균 발생 횟수.
확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 포아송 분포를 따른다고 말한다.
\\(E[X] = m, \quad Var(X) = m\\)
(* 식 정리해서 Taylor expansion 사용하면 시그마 사라진다.)
'Liberal arts > Math' 카테고리의 다른 글
연속 확률 분포, continuous probability distribution (0) | 2018.05.30 |
---|---|
조건부 확률과 베이즈 정리 (Bayes' theorem) (0) | 2018.04.21 |
선형대수 ( Linear Algebra ) (0) | 2016.09.19 |