분석된 자료를 근거로 모집단의 특성을 추론하는 것
- 점추정
- 구간추정
- 가설
- 검정통계량
목차
- Estimation
- 점추정[Point Estimation]
- 구간추정[Interval Estimation]
- 신뢰수준
- 신뢰구간
- 검정[Test]
- 가설[Hypothesis]
- 귀무가설
- 대립가설
- 가설검정[Hypothesis Test]
- 가설검정 오류[Type 1, 2 Error]
- 유의수준
- 유의확률
- 검정방법
- 양측검정
- 단츠검정
- 가설[Hypothesis]
- t-test
- z분포
- t분포
- 등분산과 이분산
- One sample t-test
- Two dependent samples t-test
- Two independent samples t-test
Estimation
- 정확하지 않지만 어떠한 정도를 가늠하는 방법으로 수치나 범위로 나타냄
- 추정치
- 모수를 추정하기 위해 선택된 표본으로부터 구체적으로 도출된 통계량
- 추정량
- 표본으로부터 관찰된 값을 토대로 추정치를 계산할 수 있는 함수
점추정[Point Estimation]
- 모수를 어떤 특정 수치로 추정하는 것
- 오차를 수반할 수 밖에 없다는 약점이 존재하므로 오차를 최소로 만드는 것이 바람직한 추정
- 바람직한 점추정량 조건
- 평균 오차제곱: 평균 오차제곱이 최소값이어야 함
- 일치성: 표본의 크기가 모집단의 규모에 근접해야 함
- 불편성: 추정량이 모수와 같아야 함
- 유효성: 추정량의 분산이 최소값이어야 함
- 충분성: 표본이 모집단의 대표성을 가져야 함
구간추정[Interval Estimation]
- 점추정의 오차를 줄이는 방법으로 신뢰도를 제공하면서 모수를 최소값과 최대값의 범위로 추정하는 것
표준오차
- 표본평균의 표준편차
- 표본이 참값이 모평균으로부터 얼마나 떨어져 있는지를 나타내는 값
- 모평균[$\mu$]을 추정하고자 할 때, 표본평균을 $\bar{x}$, 표준오차를 SE라 함
신뢰수준
추정하고자 하는 값이 존재하는 구간에 모수가 포함될 확률 의미
신뢰구간
- 상한값과 하한값의 구간으로 표시
- 신뢰수준을 기준으로 추정된 점으로부터 음의 방향[-]과 양의 방향[+]으로 하한과 상한을 표시
- 모집단 평균에 대한 신뢰구간
- $ \bar{x} - zSE \leq \mu \leq \bar{x} + zSE$
- 신뢰도 90%, z = 1.64
- 신뢰도 95%, z = 1.96
- 신뢰도 99%, z = 2.58
- 신뢰도 99.9%, z = 3.30
- 수식
- 100(1 - a)% = $ P(-z_\frac{a}{2} \leq Z \leq z_\frac{a}{2})$
- 모집단의 분산을 알고 있을 때, 평균이 $\mu$, 표준오차가 $\frac{\sigma}{\sqrt{n}}$ 일 때
- $ \bar{x} - z_\frac{a}{2}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_\frac{a}{2}\frac{\sigma}{\sqrt{n}}$
- $ \bar{x} - zSE \leq \mu \leq \bar{x} + zSE$
검정[Test]
가설[Hypothesis]
- 주어진 사실이나 연구 또는 조사하는 사실이 어떠할 것인지 주장하거나 추측하는 것
- 통계학적으로 모수를 추정하고자 할 때, 모수가 어떠할 것인지를 연구자나 조사자가 주장하거나 추측하는 것
귀무가설
- 입증하고자 하는 가설
- 일반적으로 믿어온 사실을 가설로 설정한 것
- 영가설 또는 $H_0$로 표기함
- 표현
- '~와 차이가 없다'
- '~와 같다'
- '~의 효과가 없다'
대립가설
- 귀무가설과 반대되는 가설
- 연구의 목적이 되어 연구가설 또는 $H_1$로 표기함
- 표현
- '~와 차이가 있다'
- '~와 다르다'
- '~의 효과가 있다'
가설검정[Hypothesis Test]
표본 정보로부터 가설의 합당성 여부를 판정하는 과정
가설검정의 오류연구자나 조사자가 범할 수 있는 오류
- 1종 오류[Type 1 Error]
- 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류
- 2종 오류[Type 2 Error]
- 대립가설이 참임에도 불구하고 대립가설을 기각하는 오류
유의수준[Significance Level]
- 가설검정에서 귀무가설을 기각시키고 대립가설을 채택할 확률
- 표본으로부터 구한 통계량 값을 귀무가설이 참이라는 전제하에서 어느 정도로 얻기 힘든 값인지를 나타내는 확률 수준
- 알파[$a$]로 표시
- 유의수준[$a$]을 0.05로 정했을 때, 도출된 유의확률이 0.05보다 적어야 귀무가설을 채택하고 대립가설을
유의확률
- p-Value
- 귀무가설을 기각할 수 있는 최소한의 확률
- 유의수준을 기준으로 유의확률이 유의수준보다 높으면 귀무가설 채택, 낮으면 대립가설 채택
- 일반적으로 사회통계학에서는 0.05나 0.01을 기준으로 함
검정방법
양측검정
- 귀무가설의 기각역이 양쪽에 있는 검정
- 대립가설이 '있다' 가설인 경우
단측검정
- 귀무가설의 기각역이 한쪽에 있는 검정
- 대립가설이 '크다'/'작다' 가설인 경우
절차
다음 절차를 통해 귀무가설과 대립가설 중 채택하거나 기각해야하는 의사결정을 할 수 있는 결론에 도달할 수 있음
- 가설 수립
- 유의수준 결정
- 기각역 설정
- 통계량의 계산
- 의사결정
t-test
검정통계량
표본통계량 계산했을 때, 귀무가설이 가지는 값이 모수로부터 어느 정도 떨어져 있는지 나타내는 지표
임계치
- 귀무가설을 기각하거나 채택하기 위한 한계값을 의미
- 검정통계량을 계산하여 임계치를 기준으로 좌/우 어느쪽에 있는가에 따라 채택과 기각을 판단함유의수준과 p값[유의확률]
- 검정통계량을 해석하기 위해 귀무가설이 발생할 가능성을 확률로 표시한 것
- 95% 유의수준: 𝛼 = 0.05 혹은 𝑝 ≤ 0.05 ⟹*로 표시
- 99% 유의수준: 𝛼 = 0.01 혹은 𝑝 ≤ 0.01 ⟹**로 표시
- 99.9% 유의수준: 𝛼 = 0.001 혹은 𝑝 ≤ 0.001 ⟹***로 표시
z분포
- 표본의 개수가 충분히 많을 때, 표준화 과정을 통해 만들어진 정규분포
- 표준정규분포 [평균 0, 분산 1인 정규분포]
t-분포
- 표본이 적은 경우 사용하는 분포
- 표본이 충분하지 않기 때문에 정규분포를 이루지 못할 가능이 큼
- 모집단은 정규분포를 이룬다는 가정이 필요
등분산과 이분산
등분산
2개의 모집단에 추출된 각 표본 간의 분산이 같음
이분산
2개의 모집단에 추출된 각 표본 간의 분산이 다름
t-test
- 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법
- t분포에 의존하여 의사결정을 함
- 모집단의 표준편차 또는 분산을 알지 못할 때 사용
- 기본 가정
- 종속변수가 양적변수여야 함
- 모집단의 분산, 표준편차를 알지 못할 때 사용
- 모집단의 분포가 정규분포여야 함
- 등분산 가정이 충족되야 함
One sample t-test
모집단의 분산을 알지 못할 때, 모집단에서 추출된 표본의 평균과 연구자나 조사자가 이론적 배경이나 경험적 배경에 의해 설정한 특정한 수를 비교하는 방법
Two dependent samples t-test
- 알지 못하는 각기 다른 두 모집단의 속성인 평균을 비교하기 위해 두 모집단으로부터 표본들을 추출하여 표본의 평균들을 비교하는 통계적 방법
- 각기 다른 모집단으로부터 추출된 두 표본은 서로 독립적인 것이 아니라 종속적인 것이어야 함
Two independent samples t-test
각기 다른 두 모집단의 속성인 평균을 비교하기 위해 두 모집단을 대표하는 표본들을 독립적으로 추출하여 표본의 평균을 비교함으로써 모집단의 유사성을 검정하는 방법
- 서로 다른 모집단으로부터 추출한 표본 a와 표본 b의 분포를 먼저 알아야 함
- 표본 a와 표본 b의 분포는 분산이 같은 경우와 분산이 다른 경우로 나누어 생각할 수 있음
'Upstage AI Lab 3기' 카테고리의 다른 글
Statistics - Correlation Analysis (0) | 2024.04.28 |
---|---|
Statistics - ANOVA (0) | 2024.04.28 |
Statistics - 기술통계 (0) | 2024.04.25 |
Statistics Basic (0) | 2024.04.24 |
파이썬 개발 환경 구축 2 - IPython, ipykernel, Code Editor (0) | 2024.04.11 |