본문 바로가기

Upstage AI Lab 3기

Statistics - 추리통계

분석된 자료를 근거로 모집단의 특성을 추론하는 것

  • 점추정
  • 구간추정
  • 가설
  • 검정통계량

목차

  • Estimation
    • 점추정[Point Estimation]
    • 구간추정[Interval Estimation]
      • 신뢰수준
      • 신뢰구간
  • 검정[Test]
    • 가설[Hypothesis]
      • 귀무가설
      • 대립가설
    • 가설검정[Hypothesis Test]
      • 가설검정 오류[Type 1, 2 Error]
    • 유의수준
    • 유의확률
    • 검정방법
      • 양측검정
      • 단츠검정
  • t-test
    • z분포
    • t분포
    • 등분산과 이분산
    • One sample t-test
    • Two dependent samples t-test
    • Two independent samples t-test

Estimation

  • 정확하지 않지만 어떠한 정도를 가늠하는 방법으로 수치나 범위로 나타냄
  • 추정치
    • 모수를 추정하기 위해 선택된 표본으로부터 구체적으로 도출된 통계량
  • 추정량
    • 표본으로부터 관찰된 값을 토대로 추정치를 계산할 수 있는 함수

점추정[Point Estimation]

  • 모수를 어떤 특정 수치로 추정하는 것
    • 오차를 수반할 수 밖에 없다는 약점이 존재하므로 오차를 최소로 만드는 것이 바람직한 추정
  • 바람직한 점추정량 조건
    • 평균 오차제곱: 평균 오차제곱이 최소값이어야 함
    • 일치성: 표본의 크기가 모집단의 규모에 근접해야 함
    • 불편성: 추정량이 모수와 같아야 함
    • 유효성: 추정량의 분산이 최소값이어야 함
    • 충분성: 표본이 모집단의 대표성을 가져야 함

구간추정[Interval Estimation]

  • 점추정의 오차를 줄이는 방법으로 신뢰도를 제공하면서 모수를 최소값과 최대값의 범위로 추정하는 것

표준오차

  • 표본평균의 표준편차
  • 표본이 참값이 모평균으로부터 얼마나 떨어져 있는지를 나타내는 값
  • 모평균[$\mu$]을 추정하고자 할 때, 표본평균을 $\bar{x}$, 표준오차를 SE라 함

신뢰수준

추정하고자 하는 값이 존재하는 구간에 모수가 포함될 확률 의미

신뢰구간

  • 상한값과 하한값의 구간으로 표시
  • 신뢰수준을 기준으로 추정된 점으로부터 음의 방향[-]과 양의 방향[+]으로 하한과 상한을 표시
  • 모집단 평균에 대한 신뢰구간
    • $ \bar{x} - zSE \leq \mu \leq \bar{x} + zSE$
      • 신뢰도 90%, z = 1.64
      • 신뢰도 95%, z = 1.96
      • 신뢰도 99%, z = 2.58
      • 신뢰도 99.9%, z = 3.30
    • 수식
      • 100(1 - a)% = $ P(-z_\frac{a}{2} \leq Z \leq z_\frac{a}{2})$
      • 모집단의 분산을 알고 있을 때, 평균이 $\mu$, 표준오차가 $\frac{\sigma}{\sqrt{n}}$ 일 때
      • $ \bar{x} - z_\frac{a}{2}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_\frac{a}{2}\frac{\sigma}{\sqrt{n}}$

검정[Test]

가설[Hypothesis]

  • 주어진 사실이나 연구 또는 조사하는 사실이 어떠할 것인지 주장하거나 추측하는 것
  • 통계학적으로 모수를 추정하고자 할 때, 모수가 어떠할 것인지를 연구자나 조사자가 주장하거나 추측하는 것

귀무가설

  • 입증하고자 하는 가설
  • 일반적으로 믿어온 사실을 가설로 설정한 것
  • 영가설 또는 $H_0$로 표기함
  • 표현
    • '~와 차이가 없다'
    • '~와 같다'
    • '~의 효과가 없다'

대립가설

  • 귀무가설과 반대되는 가설
  • 연구의 목적이 되어 연구가설 또는 $H_1$로 표기함
  • 표현
    • '~와 차이가 있다'
    • '~와 다르다'
    • '~의 효과가 있다'

가설검정[Hypothesis Test]

표본 정보로부터 가설의 합당성 여부를 판정하는 과정

가설검정의 오류연구자나 조사자가 범할 수 있는 오류

  • 1종 오류[Type 1 Error]
    • 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류
  • 2종 오류[Type 2 Error]
    • 대립가설이 참임에도 불구하고 대립가설을 기각하는 오류

유의수준[Significance Level]

  • 가설검정에서 귀무가설을 기각시키고 대립가설을 채택할 확률
  • 표본으로부터 구한 통계량 값을 귀무가설이 참이라는 전제하에서 어느 정도로 얻기 힘든 값인지를 나타내는 확률 수준
  • 알파[$a$]로 표시
  • 유의수준[$a$]을 0.05로 정했을 때, 도출된 유의확률이 0.05보다 적어야 귀무가설을 채택하고 대립가설을

유의확률

  • p-Value
  • 귀무가설을 기각할 수 있는 최소한의 확률
  • 유의수준을 기준으로 유의확률이 유의수준보다 높으면 귀무가설 채택, 낮으면 대립가설 채택
  • 일반적으로 사회통계학에서는 0.05나 0.01을 기준으로 함

검정방법

양측검정

  • 귀무가설의 기각역이 양쪽에 있는 검정
  • 대립가설이 '있다' 가설인 경우

단측검정

  • 귀무가설의 기각역이 한쪽에 있는 검정
  • 대립가설이 '크다'/'작다' 가설인 경우

절차

다음 절차를 통해 귀무가설과 대립가설 중 채택하거나 기각해야하는 의사결정을 할 수 있는 결론에 도달할 수 있음

  1. 가설 수립
  2. 유의수준 결정
  3. 기각역 설정
  4. 통계량의 계산
  5. 의사결정

t-test

검정통계량

표본통계량 계산했을 때, 귀무가설이 가지는 값이 모수로부터 어느 정도 떨어져 있는지 나타내는 지표

임계치

  • 귀무가설을 기각하거나 채택하기 위한 한계값을 의미
  • 검정통계량을 계산하여 임계치를 기준으로 좌/우 어느쪽에 있는가에 따라 채택과 기각을 판단함유의수준과 p값[유의확률]
  • 검정통계량을 해석하기 위해 귀무가설이 발생할 가능성을 확률로 표시한 것
  • 95% 유의수준: 𝛼 = 0.05 혹은 𝑝 ≤ 0.05 ⟹*로 표시
  • 99% 유의수준: 𝛼 = 0.01 혹은 𝑝 ≤ 0.01 ⟹**로 표시
  • 99.9% 유의수준: 𝛼 = 0.001 혹은 𝑝 ≤ 0.001 ⟹***로 표시

z분포

  • 표본의 개수가 충분히 많을 때, 표준화 과정을 통해 만들어진 정규분포
  • 표준정규분포 [평균 0, 분산 1인 정규분포]

t-분포

  • 표본이 적은 경우 사용하는 분포
    • 표본이 충분하지 않기 때문에 정규분포를 이루지 못할 가능이 큼
    • 모집단은 정규분포를 이룬다는 가정이 필요

등분산과 이분산

등분산

2개의 모집단에 추출된 각 표본 간의 분산이 같음

이분산

2개의 모집단에 추출된 각 표본 간의 분산이 다름

t-test

  • 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법
  • t분포에 의존하여 의사결정을 함
  • 모집단의 표준편차 또는 분산을 알지 못할 때 사용
  • 기본 가정
    • 종속변수가 양적변수여야 함
    • 모집단의 분산, 표준편차를 알지 못할 때 사용
    • 모집단의 분포가 정규분포여야 함
    • 등분산 가정이 충족되야 함

One sample t-test

모집단의 분산을 알지 못할 때, 모집단에서 추출된 표본의 평균과 연구자나 조사자가 이론적 배경이나 경험적 배경에 의해 설정한 특정한 수를 비교하는 방법

Two dependent samples t-test

  • 알지 못하는 각기 다른 두 모집단의 속성인 평균을 비교하기 위해 두 모집단으로부터 표본들을 추출하여 표본의 평균들을 비교하는 통계적 방법
  • 각기 다른 모집단으로부터 추출된 두 표본은 서로 독립적인 것이 아니라 종속적인 것이어야 함

Two independent samples t-test

각기 다른 두 모집단의 속성인 평균을 비교하기 위해 두 모집단을 대표하는 표본들을 독립적으로 추출하여 표본의 평균을 비교함으로써 모집단의 유사성을 검정하는 방법

  • 서로 다른 모집단으로부터 추출한 표본 a와 표본 b의 분포를 먼저 알아야 함
  • 표본 a와 표본 b의 분포는 분산이 같은 경우와 분산이 다른 경우로 나누어 생각할 수 있음

'Upstage AI Lab 3기' 카테고리의 다른 글

Statistics - Correlation Analysis  (0) 2024.04.28
Statistics - ANOVA  (0) 2024.04.28
Statistics - 기술통계  (0) 2024.04.25
Statistics Basic  (0) 2024.04.24
파이썬 개발 환경 구축 2 - IPython, ipykernel, Code Editor  (0) 2024.04.11