1. 푸아송 분포의 정의
푸아송 분포, 또는 포아송이라고도 하는 이 특이한 이름의 분포 함수는 주어진 시간 동안 특정 사건이 벌어지는 횟수를 모델링하는 확률 모형입니다.
여기 랜덤한 타이밍에 발생하는 이벤트가 있습니다. 우리는 그 이벤트가 어떤 조건에 맞춰 일어나는지는 모르지만, 주어진 시간동안 평균적으로 $\lambda$ 만큼의 횟수만큼 벌어진다는 사실을 알고 있습니다. 평균은 그렇다치고, 이번에는 특별히 같은 시간동안 동일한 이벤트가 '$x$'번 발생할 확률은 어떻게 될까요? 푸아송 분포는 이를 다음과 같이 수식화합니다.
$$P(x\text{;}\ \lambda) = \frac{e^{-\lambda}{\lambda}^x}{x!}\qquad \text{for}\; x = 0,\ 1,\ 2, ... \tag{1}$$
아래는 여러 $\lambda$ 값에 따른 포아송 분포의 예시를 표로 나타낸 것입니다.
2. 푸아송 분포의 유도 과정
어떤 사건이 발생할 확률을 $p$, 그리고 그러한 시행을 $n$번 반복했다고 생각해봅시다. 이항 분포에서 해당 사건이 k번 발생할 확률은 아래 식처럼 표현됩니다.
$$P(x; n, p) = {}_nC_x p^{x}(1-p)^{n-x} \tag{2}$$
이를 푸아송 분포 문제에 대입해봅시다. 푸아송 분포에서 총 시행 $n$은 과연 몇일까요? 답은 무한대입니다. 왜냐하면 시간은 연속적이고, 사실 매 $0.000...1$ 초마다 시행이 이뤄지는 것과 다를게 없기 때문이죠.
$\lambda$는 평균 사건 발생 횟수, 즉 기댓값이므로 $np$입니다. 이제 $p = \frac{\lambda}{n}$을 식 $(2)$에 대입하면,
$$
\begin{align*}
P(x; \lambda) &= {}_n\mathrm{ C }_x\left( \frac{\lambda}{n}\right)^{x}\left(1-\frac{\lambda}{n}\right)^{n-x} \tag{3}
\\\\&= \frac{n(n-1)(n-2)\cdots(n-x+1)}{x!}\left( \frac{\lambda}{n}\right)^{x}\left(1-\frac{\lambda}{n}\right)^{n-x} \tag{4}
\\\\&= \frac{n(n-1)(n-2)\cdots(n-x+1)}{n^x}\ \left(\frac{\lambda^x}{x!}\right)\left(1-\frac{\lambda}{n}\right)^{n-x} \tag{5}
\\\\&= \frac{n(n-1)(n-2)\cdots(n-x+1)}{n^x}\ \left(\frac{\lambda^x}{x!}\right)\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-x} \tag{6}
\end{align*}
$$
여기서 $n$이 무한대에 가까워지면 다음과 같은 식이 유도됩니다.
$$\lim_{n\rightarrow \infty}\frac{n(n-1)\cdots(n-x+1)}{n^x} = 1 \tag{7}$$
$$\lim_{n\rightarrow \infty}\left(1-\frac{\lambda}{n}\right)^n=\lim_{n\rightarrow \infty}\left(1-\frac{\lambda}{n}\right)^{-\frac{n}{\lambda} \times (-\lambda)} = e^{-\lambda} \tag{8}$$
$$\lim_{n\rightarrow \infty}\left(1-\frac{\lambda}{n}\right)^x=1 \tag{9}$$
$(7)~(9)$를 모두 식 $(6)$에 대입하면 초반부에 본 푸아송 분포 함수의 원형이 나옵니다.
$$P(x; \lambda) = \frac{e^{-\lambda}{\lambda}^x}{x!} \tag{10}$$
3. 푸아송 분포의 특징들
푸아송 분포는 통계적으로 다음과 같은 특징들이 있습니다.
- 푸아송 분포의 기댓값$(E(X))$과 분산 $(V(X))$은 모두 '$\lambda$'입니다.
- 위 성질로 인해, 푸아송 분포 함수의 중심은 '$\lambda$'가 커질수록 그래프에서 우측으로 이동합니다.
- 마찬가지로, '$\lambda$'의 증가에 비례하여 분산도 커지므로 분포 함수가 양옆으로 퍼지는 모양이 됩니다.
4. 푸아송 분포를 어떻게 활용할까?
예제 1
Q: 심야 버스를 평균적으로 5명정도의 승객이 이용한다고 합니다. 어느 날에는 사람들이 전부 일찍 잠이라도 든것 마냥 심야 버스를 이용한 승객이 단 한명도 없었다고 합니다. 앞으로도 이런 일이 일어날 확률은 얼마나 될까요?
A: $P(x = 0) = \frac{e^{-5}{5}^0}{0!} \approx 0.007$
예제 2
Q: 공장에서 제품을 대량 생산하는데, 보통 출하된 제품 중 2% 정도가 불량이라고 합니다. 임의로 100개의 표본을 뽑았을 때, 불량품이 3개 이상일 확률은 얼마나 될까요?
A: 주어진 문제에서 $n = 100$, 그리고 $p = 0.02$인 셈이므로
$$\lambda = np = 100 \times 0.02 = 2$$
가 성립하며 불량품이 3개 이상일 확률은 $1 - P(x=0) - P(x=1) - P(x=2)$이므로,
$$1 - P(x=0) - P(x=1) - P(x=2) = 1 - \frac{e^{-2}{2}^0}{0!} - \frac{e^{-2}{2}^1}{1!} - \frac{e^{-2}{2}^2}{2!} \approx 0.323$$