감마분포 정의 - 연속형

어떤 사건의 발생이 포아송분포(Poisson(λt))를 따른다는 가정하에 어떤 사건이 r 번째로 발생할 때까지 소요되는 대기시간 X는 감마분포를 따르며 이의 확률밀도함수는 다음과 같다.
$$
f(x)=\frac{\lambda^r }{(r-1)!} x^{r-1}e^{-\lambda x} , x>0, \lambda>0
$$
이때 E(X)=r/λ, Var(X)=r/λ^2이다.
r=1이면 감마분포는 지수분포가 되고, λ=1/2이면 χ^2분포가 된다.

적률생성함수

$$
M(t)=E(e^{tX})=(\frac{\lambda }{\lambda -t})^r , t<\lambda
$$

'통계학' 카테고리의 다른 글

[통계학개론]지수분포  (0) 2020.12.03
[통계학개론]포아송분포  (0) 2020.12.03
[통계학개론] 이항분포  (0) 2020.12.03
[통계학개론]베르누이분포  (2) 2020.12.02
Mann-Whitney U test  (0) 2020.07.05
Posted by 화공쟁이
,

지수분포 정의 - 연속형

어떤 사건의 발생이 포아송분포를 따른다는 가정하에 어떤 사건이 첫 번째로 발생할 때까지 소요되는 대기시간 X는 지수분포를 따르며 이의 확률밀도함수는 다음과 같다.
$$
f(x)=\lambda e^{-\lambda x}, x>0, \lambda>0
$$
이때 E(X)=1/λ, Var(X)=1/λ^2이다.
지수분포를 따르는 r개의 독립적인 확률변수들의 합은 감마분포를 따른다.

적률생성함수

$$
M(t)=E(e^{tX})=\int_{0}^{\infty }e^{tx}\cdot f(x)=\int_{0}^{\infty }e^{tx}\cdot \lambda e^{-\lambda x}=\int_{0}^{\infty } \lambda e^{-(\lambda-t) x}=\left [ -\frac{\lambda }{\lambda -t} e^{-(\lambda -t)x} \right ]_{0}^{\infty }=\frac{\lambda }{\lambda -t}
$$

'통계학' 카테고리의 다른 글

[통계학개론]감마분포  (1) 2020.12.03
[통계학개론]포아송분포  (0) 2020.12.03
[통계학개론] 이항분포  (0) 2020.12.03
[통계학개론]베르누이분포  (2) 2020.12.02
Mann-Whitney U test  (0) 2020.07.05
Posted by 화공쟁이
,

포아송분포 정의 - 이산형

일반적으로 매우 희귀하여 일어날 확률이 아주 작은 경우에 적용되는데, 확률변수 X가 세가지 조건(독립성, 비집락성, 비례성)을 만족할 때 성공의 평균 출현횟수를 m이라하면 확률함수는 다음과 같다.
$$
P(X=x)=\frac{m ^{x}}{x!} e^{-m}
$$
이때 E(X)=m, Var(X)=m이다.

적률생성함수

$$
M(t)=E(e^{tX})=\sum_{x=0}^{}e^{tx}\cdot P(X)=\sum_{x=0}^{}e^{tx}\cdot \frac{m ^{x}}{x!} e^{-m}=e^{-m}\sum_{x=0}^{} \frac{(me^t) ^{x}}{x!}=e^{m(exp(t)-1)}
$$

'통계학' 카테고리의 다른 글

[통계학개론]감마분포  (1) 2020.12.03
[통계학개론]지수분포  (0) 2020.12.03
[통계학개론] 이항분포  (0) 2020.12.03
[통계학개론]베르누이분포  (2) 2020.12.02
Mann-Whitney U test  (0) 2020.07.05
Posted by 화공쟁이
,

이항분포 정의 - 이산형

성공확률이 p인 베르누이 실험을 n번 독립적으로 반복 시행할 때 성공횟수 (X)가 r일 확률함수/확률밀도함수/확률질량함수는 다음과 같다.
$$
P(X=r)=\binom{n}{r}p^{r}q^{n-r}, (단 p+q=1, r=1,2,...,n)
$$
이때 E(X)=np, Var(X)=npq이다.
n이 1일 때 이항분포는 베르누이분포가 된다. 한편 p의 값이 매우 작고 평균이 일정할 때 n이 커지면 이항분포는 포아송분포로 표현된다. 그리고 n의 값이 큰 경우 이항분포확률값은 정규분포로 근사적으로 구할 수 있다.

적률생성함수

$$
M(t)=E(e^{tX})=\sum_{x=0}^{n}e^{tx}\cdot P(X)=\sum_{x=1}^{n}e^{tx}\cdot \binom{n}{x}p^{x}q^{n-x}=\sum_{x=1}^{n}(pe^{t})^{x}\cdot \binom{n}{x}q^{n-x}=\left [ (1-p)+pe^{t} \right ]^{n}
$$

기대값(평균)

분산

##이항분포의 정규근사
$$
\frac{X-np}{\sqrt{npq}} \sim N(0,1)
$$

Posted by 화공쟁이
,

베르누이분포 정의 - 이산형

어떤 확률변수 X가 서로 배반적인 두 값(성공이면 X=1, 실패이면 X=0)을 가질 때 확률변수 X는 베르누이분포를 따른다. 이 때 확률함수/확률밀도함수/확률질량함수는 다음과 같다.
$$
P(X=r)=p^{r}(1-p)^{1-r}, (단 p+q=1, r=0,1)
$$
이때 E(X)=p, Var(X)=p(1-p)이다.
베르누이분포를 따르는 n개의 확률표본의 합은 이항분포를 따른다.

적률생성함수

$$
M(t)=E(e^{tX})=\sum_{x}^{}e^{tx}\cdot P(X)=\left [ e^{tx}\cdot P(X) \right ]^{x=0}+\left [ e^{tx}\cdot P(X) \right ]^{x=1}=e^{0}\cdot p^{0}(1-p)+e^{t}\cdot p(1-p)^{0}=(1-p)+pe^{t}
$$

기대값(평균)

$$
E(x)=\sum_{x}^{}x\cdot P(X)=\left [ x\cdot P(X) \right ]^{x=0}+\left [ x\cdot P(X) \right ]^{x=1}=0\cdot p^{0}(1-p)+1\cdot p(1-p)^{0}=p
$$
or
$$
E(X)=M{}'(0)=pe^0=p
$$

분산

$$
Var(x)=E(x^2)-E(x)^2=E(x^2)-p^2
$$
$$
E(x^2)=\sum_{x}^{}x^2\cdot P(X)=\left [ x^2\cdot P(X) \right ]^{x=0}+\left [ x^2\cdot P(X) \right ]^{x=1}=0\cdot p^{0}(1-p)+1\cdot p(1-p)^{0}=p
$$
or
$$
E(x^2)=M{}''(0)=pe^0=p
$$

$$
\therefore Var(x)=E(x^2)-E(x)^2=p-p^2=p(1-p)
$$

Posted by 화공쟁이
,

Mann-Whitney U test

통계학 2020. 7. 5. 16:50

  • 평균이나 분산등의 모수(parameter)를 이용하지 않는 비모수적 검정방법의 하나.
  • 표본이 연속값이 아니거나 정규분포를 따르지 않는 등 t-test를 사용할 수 없는 경우에 사용됨

검정과정

  • X집단과 Y집단의 data를 크기순으로 나열
  • 각 data가 속한 집단명을 data 아래에 기록
  • x 좌측에 위치한 y의 갯수를 기록 (x >y 를 만족하는 data 갯수 기록), 마찬가지로 y 좌측에 위치한 x의 갯수를 기록 (x < y 를 만족하는 data 갯수 기록)
  • x > y를 만족하는 갯수를 모두 더하고(Ux), x < y를 만족하는 갯수끼리 모두 더한다(Uy). 이 때 Ux +Uy =(Nx)(Ny)가 된다.
  • Ux 와 Uy중 적은 값을 선택한다. [U=min(Ux,Uy)]
  • 산출된 U값을 이용하여 표에서 찾아 p-value를 확인

예제1

group X와 Y사이에 유의미한 차이가 있는 지 검정하라.

  • X : 19,22,16,29,24
  • Y : 20,11,17,12

[풀이]

data 11 12 16 17 19 20 22 24 29
group Y Y X Y X Y X X X
X > Y     2   3   4 4 4
Y > X 0 0   1   2      
  • Ux = 2+3+4+4+4=17
  • Uy = 0+0+1+2=3
  • U=min(Ux,Uy) =3
  • 표에서 U=3일 때 p-value를 찾으면 0.11로 0.05보다 크므로 귀무가설을 기각할 수 없다. 즉 두 집단 사이에 유의미한 차이는 발견되지 않는다.

[r code]

A <- c(19,22,16,29,24,20,11,17,12)
B <- c(1,1,1,1,1,0,0,0,0)
wilcox.test(A~B)

    Wilcoxon rank sum test

data:  A by B
W = 3, p-value = 0.1111
alternative hypothesis: true location shift is not equal to 0

예제2

‘mtcars’ dataset을 이용하여 수동기어 차량과 자동기어 차량에서 연비가 차이가 없다는 귀무가설을 세우고 이 가설을 검증하라.

  • 연비 data
mtcars$mpg
 [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4
[16] 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7
[31] 15.0 21.4
  • 각 차량의 변속기 형식 (0 = automatic, 1 = manual)
mtcars$am
 [1] 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1

[r code]

wilcox.test(mpg~am,data=mtcars)
Warning in wilcox.test.default(x = c(21.4, 18.7, 18.1, 14.3, 24.4, 22.8, :
cannot compute exact p-value with ties

    Wilcoxon rank sum test with continuity correction

data:  mpg by am
W = 42, p-value = 0.001871
alternative hypothesis: true location shift is not equal to 0

여기서 계산된 p-value가 0.05보다 적으므로 귀무가설은 기각되고, mtcars dataset에서 수동변속기 차량과 자동변속기 차량은 연비가 같다고 볼 수 없다는 결론을 내릴 수 있다.

 

Posted by 화공쟁이
,

출처 : howmuch.net/articles/state-of-the-worlds-government-debt

아이디어도 참신하고 상당히 훌륭한 데이터 시각화라고 생각되어 줏어와 봤습니다. 

다만 올해가 2020년인데 이 자료는 2017년 실적이라고 하니 감안하고 보아야 하겠습니다. 우리나라가 어디쯤에 위치해 있는지 숨은그림찾기 하는 재미(?)도 덤으로 얻을 수 있습니다. 간신히 찾았는데 남한 지도가 옆으로 누워 있으니 금방 찾아지지는 않았습니다.

'통계학' 카테고리의 다른 글

[통계학개론]포아송분포  (0) 2020.12.03
[통계학개론] 이항분포  (0) 2020.12.03
[통계학개론]베르누이분포  (2) 2020.12.02
Mann-Whitney U test  (0) 2020.07.05
[통계학개론]각종 수식 및 증명  (0) 2020.06.03
Posted by 화공쟁이
,

_통계학개론 각종수식 및 증명.docx
0.02MB

학교 교재를 보다가 답답해서 만들어 보았습니다.

인터넷에 검색해 보면 다 나오는데, 정작 교재에는 증명법 없이 관련 수식만 나오더군요.

공식을 단순 암기하는 것이 어려워 증명 과정을 보면 조금이나마 도움이 되지 않을까 했는데... 그다지 도움은 안되더군요. 그저 복잡한 수학 공식을 MS-word의 수식입력기를 이용하여 떠듬떠듬 입력하다보니, 수식입력기 사용법을 익히는 조그마한 소득을 얻었습니다.

이항분포, 초기하분포, 포아송분포등에서 평균 및 표준편자를 구하는 공식이 어떻게 유도되는지 궁금하신 분은 한번 읽어 보시기 바랍니다.

 

Posted by 화공쟁이
,