Upstage AI Lab 3기

Statistics - 기술통계

developzest 2024. 4. 25. 23:59

수집된 자료의 특성을 요약 정리하는 것

목차

  • Polpulation & Sample
    • Polpulation
    • Sample
    • 표본 추출 방법
      • 확률적 표본추출 방법
        • 단순 무작위 표본추출
        • 체계적 표본추출
        • 비례 층화 표본추출
        • 다단계 층화 표본추출
        • 군집 표본추출
      • 비확률적 표본추출 방법
        • 편의 표본추출
        • 판단 표본추출
        • 할당 표본추출
        • 자발적 표본추출
  • Descriptive Statistics
    • Representation of data
      • Descriptive Statistics
      • 도수분포표
      • 히스토그램[Histogram]
      • 원그래프[Pie]
      • 상자수염그림[Boxplot]
  • Descriptive Statistic
    • 중심경향도
    • 산포도
    • 비대칭도
  • Random Variable & Probability Function
    • Random Variable
      • 이산확률변수
      • 연속확률변수
    • Probability Function
  • Probability Distribution
    • Uniform Distribution
    • Normal Distribution
    • Standard Normal Distribution
    • Binomial Distribution

Polpulation & Sample

Polpulation

통계적 연구대상이 되는 전체 집단

  • 모수
    • 모집단을 분석하여 알아낸 결과 수치
    • 모집단의 특성값
    • 모평균[$\mu$], 모분산[$\sigma^2$], 모표준편차[$\sigma$]

Sample

과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자 할 때 선택한 모집단의 일부

  • 통계량 [Statistic]
    • 표본을 분석하여 알아낸 결과 수치
    • 표본평균, 표본분산[$s^2$], 표본표준편차[$s$]
  • 표본 추출 방법
    • 모집단으로부터 표본을 추출할 때 동일한 확률 아래서 표본을 구성하는 방법
    • 확률적 표본추출 방법
  • 단순 무작위 표본추출
    • 일정한 규칙을 적용하여 모집단으로부터 표본을 기계적으로 추출하는 방법
    • 컴퓨터로 추출 / 난수표를 활용
  • 체계적 표본추출
    • 모집단을 대상으로 각각에 대해 번호를 제공하고 n개의 간격으로 표본을 추출하는 방법
  • 비례 층화 표본추출
    • 모집단을 여러 개의 다른 집단으로 구분한 후, 각 집단의 구성을 고려하여 비례적으로 추출하는 방법
  • 다단계 층화 표본추출
    • 비례 층화 표본추출에서 상위-하위 표본 단위를 설정한 후 설정한 값에 따라 다시 추출하는 방법
  • 군집 표본추출
    • 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우, 모집단 전체를 조사하지 않고 몇개의 군집을 표본으로 선택해서 조사하는 방법

비확률적 표본추출 방법

모집단으로부터 표본을 추출할 때 확률과 상관없이 연구자나 조사자가 자신의 생각대로 표본을 뽑거나 구성하는 방법

  • 편의 표본추출
    • 연구자나 조사자가 표본을 무작위로 선정하는 방법
    • 연구나 조사를 수행함에 있어 편리하며 비용 또한 적게 든다는 장점이 있음
    • 하지만 모집단에 대한 대표성을 나타내기 힘들며 실수나 오류가 많이 발생할 수 있음
  • 판단 표본추출
    • 연구자나 조사자가 적절하다고 판단된 구성원들을 표본으로 선정하는 방법
  • 할당 표본추출
    • 모집단의 속성을 대표할 수 있는 연령, 학력, 직업 등을 구분하여 결정한 후 각각에 대한 표본의 갯수를 미리 정하고 나서 연구자나 조사자가 정한 표본의 갯수에 따라 임의로 표본을 추출하는 방법
  • 자발적 표본추출
    • 연구자나 조사자의 생각과는 달리 응답자가 원하여 직접 연구나 조사에 응하는 경우 표본으로 선정하는 방법
    • 연구나 조사 주제에 대해 관심이 많은 사람들이 주로 연구나 조사에 참여하게 될 것이므로 결과가 왜곡될 가능성이 농후함

Descriptive Statistics

Representation of data

독자에게 수집된 자료의 내용이나 특성 등을 설명하여 이해할 수 있도록 한다는 의미

Descriptive Statistics

수집된 자료의 특성요약, 정리하는 것

  • 통계: 여러가지 현상에 대해 수리적으로 정리, 분석, 예측하는 작업

도수분포표

수집한 각각의 데이터에 대한 빈도를 정리한 표

히스토그램[Histogram]

측정치들을 계급으로 구분하고 각 계급에 포함되는 측정치의 개수[도수]를 표현한 것

  • 각 계급 간의 상한과 하한이 서로 연결되므로 히스토그램의 막대그래프는 서로 붙어있는 형태로 표시
  • 직관적으로 인식되는 형태가 아닌 일일히 숫자를 비교해야하는 단점 존재

원그래프(Pie)

전체에 대한 각 부분의 비율을 부채꼴 모양으로 백분율로 나타낸 그래프

상자수염그림(Boxplot)

  • 최댓값, 최솟값, 평균, 중앙값 등 여러가지 정보를 제공하여 데이터를 표현하는 데 유리
  • 일반적으로 2개 이상인 집단의 자료를 서로 비교하는 데 사용

Descriptive Statistic

  • Statistic[통계량] = Descriptive Statistic[기술 통계량]
  • 표본이 모집단에 대한 대표성을 가지고 있음을 설명

중심경향도

  • 표본의 중심을 설명하는 것
  • 데이터들을 종합해 그 중심을 이루는 값이 무엇인지 구하는 것
  • 대푯값
    • 평균[mean]
      • 통계에서 가장 많이 사용되는 중심경향도
      • 표본의 특성을 살펴볼 때 가장 먼저 확인하는 수치
      • $\bar{x} = \frac{(x_1 + x_2 + \cdots + x_n)}{n} = \frac{1}{n}\displaystyle\sum_{n=1}^{10}n$
      • 특징
        • 평균으로부터 관찰값과의 편차의 합은 0
        • 자료의 분포가 좌우대칭인 경우 평균과 중앙값은 동일함
      • 평균의 함정
        • 일부 극단적인 값을 가진 데이터 때문에 평균 외 다른 대표값을 봐야함
    • 중앙값[median]
      관측된 자료의 편중과 상관없이 최소값부터 최대값까지 나열했을 때 가운데 위치한 값
      • n이 홀수인 경우
      • $X_M = \frac{(n+1)}{n}$ 번째의 측정치
      • n이 짝수인 경우
      • $X_M = \frac{(\frac{n}{2}번째 수 + \frac{n+2}{2}번째 수)}{2}$ 번째의 측정치
    • 최빈값[mode]
      • 표본에서 가장 많이 관찰되는 관측치
      • 특징
        • 중심경향의 측정치로 1개 이상 존재할 수 있음
        • 자료 중 평균이나 중앙값을 구하기 어려운 경우에 활용

산포도

표본이 퍼진 정도를 구성하는 분포

  • 분산
    • 모분산
    • $ \sigma^2 = \frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2 $
    • 표본분산
      • 표본의 개수를 (n-1)(자유도)로 계산한 분산
        • 표본의 평균을 알 때 분산을 구하는 경우, 전체 표본의 개수에서 1을 뺄 때 더 정확한 분산을 구할 수 있음
        • 변수들 가운데 하나는 정해진 평균값에 맞추기 위해 어떠한 고정된 값으로 정해져 자유를 상실하므로 '표본의 개수 - 1'이 됨$ S^2 = \frac{1}{n - 1}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2 $
  • 표본표준편차
    • $\sqrt{분산}$
    • 값이 작을 수록 값들이 평균에 모여 있음을 뜻함
  • 사분위수[Quantile]
    • 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치 의미
      • 제1사분위수는 누적백분율 25%, $Q_1 = \frac{n+1}{4}$ 번째 순위값
      • 제2사분위수는 누적백분율 50%, median, $Q_2 = \frac{n+1}{4}$ x 2 번째 순위값
      • 제3사분위수는 누적백분율 75%, $Q_3 = \frac{n+1}{4}$ x 3 번째 순위값
      • 제4사분위수는 누적백분율 100%에 해당하는 값, $Q_4 = \frac{n+1}{4}$ x 4 번째 순위값
    • 사분위수 범위[InterQuantile Range, IQR]
      • 일반적으로 범위란 최대값 - 최소값으로 구함
      • 제3사분위수 - 제1사분위수
    • Maximum = $Q_3$ + 1.5 * IQR
    • Minimum = $Q_1$ - 1.5 * IQR
      • pandas.describe() 실행 결과 출력되는 min, max 아님
  • 변동계수[CV]
    • 상대적으로 얼마나 변동이 많은 지 보기 위한 지표
    • 단위가 다르거나 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능
    • $\frac{표준편차}{평균}$

비대칭도

표본의 특성을 정확하게 알기 위해 표본이 최대값이나 최소값에 몰려 있는 정도를 설명

[표본이 정규분포를 이루면 중심경향도와 산포도 만으로 충분히 설명 가능]

  • 왜도[Skewness]
    자료의 분포가 얼마나 비대칭적으로 분포되어 있는 지를 나타내는 통계 지표
    • 왜도 = 0
      • 정규분포, 평균 = 중앙값 = 최빈값
    • 왜도 > 0
      • 오른쪽 꼬리 긴 형태, 평균 > 중앙값 > 최빈값
    • 왜도 < 0
      • 왼쪽 꼬리 긴 형태, 평균 < 중앙값 < 최빈값
  • 일반적으로 -1 ~ +1 범위는 치우침이 없는 데이터라 함
  • 첨도[Kurtosis]
    분포곡선의 봉우리가 얼마나 뾰족한지 나타내는 수치
    • 첨도 = 3[Mesokurtic]
      • 정규분포
    • 첨도 > 3[Leptokurtic]
      • 정규분포보다 뾰족
      • 이상치가 많을 수 있음
    • 첨도 < 3[Platykurtic]
      • 정규분포보다 완만
      • 이상치가 없을 수 있음(데이터가 이상할 수 있어 재확인 필요)

Random Variable & Probability Function

Random Variable

  • 시행의 결과[사건]에 실수값을 대응시킨 후 그 값에 확률을 부여한 것
    • 이산확률변수
      • 수집한 데이터의 확률변수 중에서 셀 수 있는 값들로 구성되거나 일정한 범위로 나타낼 수 있는 확률변수
    • 연속확률변수
      • 연속형 또는 무한한 경우와 같이 셀수 없는 확률변수
  • 확률변수의 평균
    • 기대값
    • 어떤 사건에 대해 벌어질 확률을 곱해서 전체 사건에 대해 합한 값을 의미
    • $ E(X) = \displaystyle\sum_{i=1}^{n}x_iP(x_i) $
  • 확률변수의 분산
    • 기대값의 특성을 나타내는 값
    • 확률변수들이 기대값으로부터 벗어난 정도, 기대값과 어느정도 차이가 있는지를 나타냄Probability Function
    • $Var(X) = E(X - \mu)2 = \displaystyle\sum{i=1}^{n}(x_1 - \mu)^2P(x_i)$
  • 확률 P를 가진 어떤 사건에 대해 n번 시행하여 x번이 나타날 때, 확률변수 x와 이에 대응하는 P(x)의 관계를 나타내는 함수

Probability Distribution

  • 미래에 일어날 사건에 대한 확률을 나열한 것
  • 일반적으로 표나 그래프로 나타냄과거의 경험이 미래를 예측함에 있어 어떠한 영향도 미치지 않고 발생할 가능성이 동일한 분포
  • Uniform Distribution
  • 이산균등분포
    • 정의된 구간에서 확률분포 함수의 모든 확률이 동일한 분포
  • 연속균등분포
    • 특정 범위 내에서 모든 확률함수가 동일한 분포

Normal Distribution

  • 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심[평균]을 기준으로 좌우가 대칭되는 분포[중심극한정리]
  • 표본분포 중 가장 단순하면서 많이 나타나는 형태의 분포
    • 평균 m, 분산이 $\sigma^2$인 정규분포의 확률함수는 e = 2.71828... 인 무리수를 사용
    • $f_x(x) = \frac{1}{\sqrt{2\pi}\sigma}e^-\frac{(x-m)^2}{2\sigma^2}$

Standard Normal Distribution

  • Z Distribution
  • 서로 다른 정규분포들을 비교하기 위해 평균이 0, 표준편차는 1을 기준으로 각각의 정규분포를 표준화한 분포베르누이 시행

Binomial Distribution

  • 반드시 두가지만 존재하며 동시에 일어나지 않는 배타적인 사건이 일어나는 시행을 반복적으로 실험하는 것

베르누이 분포

  • 베르누이 시행을 확률분포로 나타낸 것
  • 성공확률을 p(x = 1)라 할 때, 실패확률은 1 - p(x = 0)으로 가정
  • $\mu = p$
  • $\sigma^2 = p(1 - p)$서로 독립적인 베르누이 시행을 n회 반복하여 성공한 횟수를 X라 할 때, 성공한 X의 확률분포

이항분포

  • $\mu = np$
  • $\sigma^2 = np(1 - p)$

이항분포의 확률

  • n번의 시행에서 성공확률(p)이 r번 나타날 확률
  • $P(X = r) = \frac{n!}{r!(n-r)!}p^r(1 - p)^{(n - r)}$