Upstage AI Lab 3기

Statistics - 기술통계

developzest 2024. 4. 25. 23:59

수집된 자료의 특성을 요약 정리하는 것

Polpulation & Sample
- Polpulation
- Sample
- 표본 추출 방법
  - 확률적 표본추출 방법
    - 단순 무작위 표본추출
    - 체계적 표본추출
    - 비례 층화 표본추출
    - 다단계 층화 표본추출
    - 군집 표본추출
  - 비확률적 표본추출 방법
    - 편의 표본추출
    - 판단 표본추출
    - 할당 표본추출
    - 자발적 표본추출
Descriptive Statistics
- Representation of data
  - Descriptive Statistics
  - 도수분포표
  - 히스토그램[Histogram]
  - 원그래프[Pie]
  - 상자수염그림[Boxplot]
Descriptive Statistic
- 중심경향도
- 산포도
- 비대칭도
Random Variable & Probability Function
- Random Variable
  - 이산확률변수
  - 연속확률변수
- Probability Function
Probability Distribution
- Uniform Distribution
- Normal Distribution
- Standard Normal Distribution
- Binomial Distribution

Polpulation & Sample

Polpulation

통계적 연구대상이 되는 전체 집단

모수
- 모집단을 분석하여 알아낸 결과 수치
- 모집단의 특성값
- 모평균[$\mu$], 모분산[$\sigma^2$], 모표준편차[$\sigma$]

Sample

과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자 할 때 선택한 모집단의 일부

통계량 [Statistic]
- 표본을 분석하여 알아낸 결과 수치
- 표본평균, 표본분산[$s^2$], 표본표준편차[$s$]
표본 추출 방법
- 모집단으로부터 표본을 추출할 때 동일한 확률 아래서 표본을 구성하는 방법
- 확률적 표본추출 방법
단순 무작위 표본추출
- 일정한 규칙을 적용하여 모집단으로부터 표본을 기계적으로 추출하는 방법
- 컴퓨터로 추출 / 난수표를 활용
체계적 표본추출
- 모집단을 대상으로 각각에 대해 번호를 제공하고 n개의 간격으로 표본을 추출하는 방법
비례 층화 표본추출
- 모집단을 여러 개의 다른 집단으로 구분한 후, 각 집단의 구성을 고려하여 비례적으로 추출하는 방법
다단계 층화 표본추출
- 비례 층화 표본추출에서 상위-하위 표본 단위를 설정한 후 설정한 값에 따라 다시 추출하는 방법
군집 표본추출
- 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우, 모집단 전체를 조사하지 않고 몇개의 군집을 표본으로 선택해서 조사하는 방법

비확률적 표본추출 방법

모집단으로부터 표본을 추출할 때 확률과 상관없이 연구자나 조사자가 자신의 생각대로 표본을 뽑거나 구성하는 방법

편의 표본추출
- 연구자나 조사자가 표본을 무작위로 선정하는 방법
- 연구나 조사를 수행함에 있어 편리하며 비용 또한 적게 든다는 장점이 있음
- 하지만 모집단에 대한 대표성을 나타내기 힘들며 실수나 오류가 많이 발생할 수 있음
판단 표본추출
- 연구자나 조사자가 적절하다고 판단된 구성원들을 표본으로 선정하는 방법
할당 표본추출
- 모집단의 속성을 대표할 수 있는 연령, 학력, 직업 등을 구분하여 결정한 후 각각에 대한 표본의 갯수를 미리 정하고 나서 연구자나 조사자가 정한 표본의 갯수에 따라 임의로 표본을 추출하는 방법
자발적 표본추출
- 연구자나 조사자의 생각과는 달리 응답자가 원하여 직접 연구나 조사에 응하는 경우 표본으로 선정하는 방법
- 연구나 조사 주제에 대해 관심이 많은 사람들이 주로 연구나 조사에 참여하게 될 것이므로 결과가 왜곡될 가능성이 농후함

Descriptive Statistics

Representation of data

독자에게 수집된 자료의 내용이나 특성 등을 설명하여 이해할 수 있도록 한다는 의미

Descriptive Statistics

수집된 자료의 특성을 요약, 정리하는 것

통계: 여러가지 현상에 대해 수리적으로 정리, 분석, 예측하는 작업

도수분포표

수집한 각각의 데이터에 대한 빈도를 정리한 표

히스토그램[Histogram]

측정치들을 계급으로 구분하고 각 계급에 포함되는 측정치의 개수[도수]를 표현한 것

각 계급 간의 상한과 하한이 서로 연결되므로 히스토그램의 막대그래프는 서로 붙어있는 형태로 표시
직관적으로 인식되는 형태가 아닌 일일히 숫자를 비교해야하는 단점 존재

원그래프(Pie)

전체에 대한 각 부분의 비율을 부채꼴 모양으로 백분율로 나타낸 그래프

상자수염그림(Boxplot)

최댓값, 최솟값, 평균, 중앙값 등 여러가지 정보를 제공하여 데이터를 표현하는 데 유리
일반적으로 2개 이상인 집단의 자료를 서로 비교하는 데 사용

Descriptive Statistic

Statistic[통계량] = Descriptive Statistic[기술 통계량]
표본이 모집단에 대한 대표성을 가지고 있음을 설명

중심경향도

표본의 중심을 설명하는 것
데이터들을 종합해 그 중심을 이루는 값이 무엇인지 구하는 것
대푯값
- 평균[mean]
  - 통계에서 가장 많이 사용되는 중심경향도
  - 표본의 특성을 살펴볼 때 가장 먼저 확인하는 수치
  - $\bar{x} = \frac{(x_1 + x_2 + \cdots + x_n)}{n} = \frac{1}{n}\displaystyle\sum_{n=1}^{10}n$
  - 특징
    - 평균으로부터 관찰값과의 편차의 합은 0
    - 자료의 분포가 좌우대칭인 경우 평균과 중앙값은 동일함
  - 평균의 함정
    - 일부 극단적인 값을 가진 데이터 때문에 평균 외 다른 대표값을 봐야함
- 중앙값[median]
  관측된 자료의 편중과 상관없이 최소값부터 최대값까지 나열했을 때 가운데 위치한 값
  - n이 홀수인 경우
  - $X_M = \frac{(n+1)}{n}$ 번째의 측정치
  - n이 짝수인 경우
  - $X_M = \frac{(\frac{n}{2}번째 수 + \frac{n+2}{2}번째 수)}{2}$ 번째의 측정치
- 최빈값[mode]
  - 표본에서 가장 많이 관찰되는 관측치
  - 특징
    - 중심경향의 측정치로 1개 이상 존재할 수 있음
    - 자료 중 평균이나 중앙값을 구하기 어려운 경우에 활용

산포도

표본이 퍼진 정도를 구성하는 분포

분산
- 모분산
- $ \sigma^2 = \frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2 $
- 표본분산
  - 표본의 개수를 (n-1)(자유도)로 계산한 분산
    - 표본의 평균을 알 때 분산을 구하는 경우, 전체 표본의 개수에서 1을 뺄 때 더 정확한 분산을 구할 수 있음
    - 변수들 가운데 하나는 정해진 평균값에 맞추기 위해 어떠한 고정된 값으로 정해져 자유를 상실하므로 '표본의 개수 - 1'이 됨$ S^2 = \frac{1}{n - 1}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2 $
표본표준편차
- $\sqrt{분산}$
- 값이 작을 수록 값들이 평균에 모여 있음을 뜻함
사분위수[Quantile]
- 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치 의미
  - 제1사분위수는 누적백분율 25%, $Q_1 = \frac{n+1}{4}$ 번째 순위값
  - 제2사분위수는 누적백분율 50%, median, $Q_2 = \frac{n+1}{4}$ x 2 번째 순위값
  - 제3사분위수는 누적백분율 75%, $Q_3 = \frac{n+1}{4}$ x 3 번째 순위값
  - 제4사분위수는 누적백분율 100%에 해당하는 값, $Q_4 = \frac{n+1}{4}$ x 4 번째 순위값
- 사분위수 범위[InterQuantile Range, IQR]
  - 일반적으로 범위란 최대값 - 최소값으로 구함
  - 제3사분위수 - 제1사분위수
- Maximum = $Q_3$ + 1.5 * IQR
- Minimum = $Q_1$ - 1.5 * IQR
  - pandas.describe() 실행 결과 출력되는 min, max 아님
변동계수[CV]
- 상대적으로 얼마나 변동이 많은 지 보기 위한 지표
- 단위가 다르거나 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능
- $\frac{표준편차}{평균}$

비대칭도

표본의 특성을 정확하게 알기 위해 표본이 최대값이나 최소값에 몰려 있는 정도를 설명

[표본이 정규분포를 이루면 중심경향도와 산포도 만으로 충분히 설명 가능]

왜도[Skewness]
자료의 분포가 얼마나 비대칭적으로 분포되어 있는 지를 나타내는 통계 지표
- 왜도 = 0
  - 정규분포, 평균 = 중앙값 = 최빈값
- 왜도 > 0
  - 오른쪽 꼬리 긴 형태, 평균 > 중앙값 > 최빈값
- 왜도 < 0
  - 왼쪽 꼬리 긴 형태, 평균 < 중앙값 < 최빈값
일반적으로 -1 ~ +1 범위는 치우침이 없는 데이터라 함
첨도[Kurtosis]
분포곡선의 봉우리가 얼마나 뾰족한지 나타내는 수치
- 첨도 = 3[Mesokurtic]
  - 정규분포
- 첨도 > 3[Leptokurtic]
  - 정규분포보다 뾰족
  - 이상치가 많을 수 있음
- 첨도 < 3[Platykurtic]
  - 정규분포보다 완만
  - 이상치가 없을 수 있음(데이터가 이상할 수 있어 재확인 필요)

Random Variable & Probability Function

Random Variable

시행의 결과[사건]에 실수값을 대응시킨 후 그 값에 확률을 부여한 것
- 이산확률변수
  - 수집한 데이터의 확률변수 중에서 셀 수 있는 값들로 구성되거나 일정한 범위로 나타낼 수 있는 확률변수
- 연속확률변수
  - 연속형 또는 무한한 경우와 같이 셀수 없는 확률변수
확률변수의 평균
- 기대값
- 어떤 사건에 대해 벌어질 확률을 곱해서 전체 사건에 대해 합한 값을 의미
- $ E(X) = \displaystyle\sum_{i=1}^{n}x_iP(x_i) $
확률변수의 분산
- 기대값의 특성을 나타내는 값
- 확률변수들이 기대값으로부터 벗어난 정도, 기대값과 어느정도 차이가 있는지를 나타냄Probability Function
- $Var(X) = E(X - \mu)2 = \displaystyle\sum{i=1}^{n}(x_1 - \mu)^2P(x_i)$
확률 P를 가진 어떤 사건에 대해 n번 시행하여 x번이 나타날 때, 확률변수 x와 이에 대응하는 P(x)의 관계를 나타내는 함수

Probability Distribution

미래에 일어날 사건에 대한 확률을 나열한 것
일반적으로 표나 그래프로 나타냄과거의 경험이 미래를 예측함에 있어 어떠한 영향도 미치지 않고 발생할 가능성이 동일한 분포
Uniform Distribution
이산균등분포
- 정의된 구간에서 확률분포 함수의 모든 확률이 동일한 분포
연속균등분포
- 특정 범위 내에서 모든 확률함수가 동일한 분포

Normal Distribution

어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심[평균]을 기준으로 좌우가 대칭되는 분포[중심극한정리]
표본분포 중 가장 단순하면서 많이 나타나는 형태의 분포
- 평균 m, 분산이 $\sigma^2$인 정규분포의 확률함수는 e = 2.71828... 인 무리수를 사용
- $f_x(x) = \frac{1}{\sqrt{2\pi}\sigma}e^-\frac{(x-m)^2}{2\sigma^2}$

Standard Normal Distribution

Z Distribution
서로 다른 정규분포들을 비교하기 위해 평균이 0, 표준편차는 1을 기준으로 각각의 정규분포를 표준화한 분포베르누이 시행

Binomial Distribution

반드시 두가지만 존재하며 동시에 일어나지 않는 배타적인 사건이 일어나는 시행을 반복적으로 실험하는 것

베르누이 분포

베르누이 시행을 확률분포로 나타낸 것
성공확률을 p(x = 1)라 할 때, 실패확률은 1 - p(x = 0)으로 가정
$\mu = p$
$\sigma^2 = p(1 - p)$서로 독립적인 베르누이 시행을 n회 반복하여 성공한 횟수를 X라 할 때, 성공한 X의 확률분포

이항분포

$\mu = np$
$\sigma^2 = np(1 - p)$

이항분포의 확률

n번의 시행에서 성공확률(p)이 r번 나타날 확률
$P(X = r) = \frac{n!}{r!(n-r)!}p^r(1 - p)^{(n - r)}$

Statistics - 기술통계

목차

Polpulation & Sample

Polpulation

Sample

비확률적 표본추출 방법

Descriptive Statistics

Representation of data

Descriptive Statistics

도수분포표

히스토그램[Histogram]

원그래프(Pie)

상자수염그림(Boxplot)

Descriptive Statistic

중심경향도

산포도

비대칭도

Random Variable & Probability Function

Random Variable

Probability Distribution

Normal Distribution

Standard Normal Distribution

Binomial Distribution

베르누이 분포

이항분포

이항분포의 확률