이산 확률 분포, discrete probability distribution
결합 확률 분포
당연히 이산 확률 분포, 연속 확률 분포 모두 결합 확률 분포로 나타낼 수 있다.
기댓값
이산확률분포
이산 확률 분포의 확률 질량 함수f(x)는 이산 값으로 정의되며
따라서 누적 분포 함수F(x)는 우측 연속인 불연속 그래프로 나타난다.
F(x)가 불연속이기 때문에 미분한다고 f(x)가 나오는게 아니다.
F(x)=Σf(x)
이항분포 Binomial distribution
독립 시행 사건일 때, 전체 중에 몇 번 사건이 발생할 지.
각 직접회로가 불량품일 가능성은 독립적으로 0.05일 때, 집적회로 10개에 포함된 불량품의 수.
예방 주사를 맞은 쥐들 중 60%가 면역이 생길 때, 예방 주사를 맞은 5마리 쥐가 모두 질병에 걸리지 않을 확률
이항 분포의 정규 분포 근사
p의 값이 0 또는 1에 가깝지 않으면서, n≥25 정도인 이항분포는 정규분포로 근사할 수 있다.
이 때 이항분포는 이산형이고, 정규분포는 연속형이기 때문에 정규분포로 변경하면서 값(또는 구간)에 ±0.5 해준다.
P(X=b)→P(b−0.5≤X≤b+0.5)
* 초과/미만은 이항분포 상태에서 이상/이하로 변경해서 확장해준다.
어떤 약의 5%가 효과가 없다고 할 때, 200개의 약 중에서 10개 미만이 효과가 없을 확률.
→ n이 너무 커서 이항 분포로 계산하기 곤란할 때는 정규 분포로 근사.
다항분포 Multinomial distribution
초기하 분포 Hypergeometric distribution
음이항 분포 Negative binomial distribution
X∼NB(k,p)=b∗(x;k,p)=(x−1r−1)pkqx−k
E[X]=kp,Var(X)=E[X]qp
7선 4승 경기에서 k번만에 승리할 확률.
기하 분포를 이용해 음이항 분포의 평균 구하기
기댓값 공식 이용하는게 아니라, 기하 분포를 이용해도 평균을 구할 수 있다. Xi가 기하 분포를 따른다면
E(X)=E(X1)+E(X2)+⋯+E(Xk)=kp
k번째 성공이 일어나기 까지의 수행횟수의 기댓값. k번째 성공까지 평균 몇 번 수행해야 하는가?를 의미한다.
각각의 수행이 독립이므로 1번째 성공까지의 수행과 그 이후부터 2번째 성공까지의 수행도 독립이다. (무기억성 1)
1번째 성공까지의 수행 횟수(1p) + 그 이후부터 그 다음 성공까지의 수행횟수(1p) + ...
기하 분포 Geometric distribution
처음 성공할 때 까지 독립적으로 반복 시행한 횟수 X의 확률분포. (연속 확률 분포에서는 이게 지수 분포.)
x-1번째까지는 모두 실패, x번째에 성공이므로
X∼G(p)=pqx−1
누적분포함수는 등비급수 정리해보면,
P(X≤k)=1−qk
E[X]=1p,Var(X)=qp2
평균적으로 몇 번째에 처음 성공하겠는가?
e.g., 주사위에서 1이 나올 때 까지 평균 몇 번 던져야 하겠는가?
p=1/6이고 얼핏 생각해보면 6가지 경우의 수이니 3번. 인 것 같지만 실패만 6번 이상 하는 경우도 있다는 것을 생각해 보면 3번은 너무 작은 쪽으로 치우친 값. 평균 6번은 던져야 한다.
x년 이내에 10m를 초과하는 파도가 찾아올 확률.
기하분포의 무기억성
- 처음 성공할 때 까지 반복 시행 횟수와, 그 이후 다시 처음 성공할 때 까지 반복 시행 횟수는 독립이고 항등분포이다.
- 각 시행은 독립이므로, 실패를 많이 했다고 해서 앞으로 성공할 가능성이 달라지지 않는다.
어떤 제품을 이미 n시간 사용한 상태에서 앞으로 그 제품을 m시간 더 사용할 수 있을 확률은 최초 제품을 m시간 사용할 수 있을 확률과 같다는 것이다.
포아송 분포 Poisson distribution
근사 포아송 과정 Approximate Poisson Process
- 구간의 길이가 h인 충분히 작은 길이의 구간에서 정확히 하나의 사건이 발생할 확률은 거의 mh다.
- 각각의 구간에서 발생하는 사건들은 서로 독립이다.
- 충분히 작은 길이의 구간에서 사건이 두 번 이상 발생할 확률은 거의 0이다.
길이가 1인 구간에서 발생하는 사건의 수를 확률변수 X라 하고 이 구간을 n등분 하면, P(X=x)는 n개의 작은 구간 중 x개의 구간에서 사건이 발생할 확률로 근사할 수 있다.
이 때 각각의 작은 구간에서 사건이 발생할 확률이 p=mn이고, 각 작은 구간에서 일어나는 사건은 베르누이 시행이므로 B(n,mn)인 이항 분포로 생각할 수 있다.
P(X=x)=(nx)(mn)x(1−mn)n−x
n→∞로 보내고 식 정리하면 다음과 같은 결과를 얻을 수 있다.
( * 정리하면서 lim(1+1n)n=e 사용해야 한다. )
포아송 분포의 확률질량함수
p(x;m)=mxx!e−m
m(=λt)는 단위 시간 동안 평균 발생 횟수.
확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 포아송 분포를 따른다고 말한다.
E[X]=m,Var(X)=m
(* 식 정리해서 Taylor expansion 사용하면 시그마 사라진다.)
'Liberal arts > Math' 카테고리의 다른 글
연속 확률 분포, continuous probability distribution (0) | 2018.05.30 |
---|---|
조건부 확률과 베이즈 정리 (Bayes' theorem) (0) | 2018.04.21 |
선형대수 ( Linear Algebra ) (0) | 2016.09.19 |