Upstage AI Lab 3기
Statistics - 기술통계
developzest
2024. 4. 25. 23:59
수집된 자료의 특성을 요약 정리하는 것
목차
- Polpulation & Sample
- Polpulation
- Sample
- 표본 추출 방법
- 확률적 표본추출 방법
- 단순 무작위 표본추출
- 체계적 표본추출
- 비례 층화 표본추출
- 다단계 층화 표본추출
- 군집 표본추출
- 비확률적 표본추출 방법
- 편의 표본추출
- 판단 표본추출
- 할당 표본추출
- 자발적 표본추출
- 확률적 표본추출 방법
- Descriptive Statistics
- Representation of data
- Descriptive Statistics
- 도수분포표
- 히스토그램[Histogram]
- 원그래프[Pie]
- 상자수염그림[Boxplot]
- Representation of data
- Descriptive Statistic
- 중심경향도
- 산포도
- 비대칭도
- Random Variable & Probability Function
- Random Variable
- 이산확률변수
- 연속확률변수
- Probability Function
- Random Variable
- Probability Distribution
- Uniform Distribution
- Normal Distribution
- Standard Normal Distribution
- Binomial Distribution
Polpulation & Sample
Polpulation
통계적 연구대상이 되는 전체 집단
- 모수
- 모집단을 분석하여 알아낸 결과 수치
- 모집단의 특성값
- 모평균[$\mu$], 모분산[$\sigma^2$], 모표준편차[$\sigma$]
Sample
과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자 할 때 선택한 모집단의 일부
- 통계량 [Statistic]
- 표본을 분석하여 알아낸 결과 수치
- 표본평균, 표본분산[$s^2$], 표본표준편차[$s$]
- 표본 추출 방법
- 모집단으로부터 표본을 추출할 때 동일한 확률 아래서 표본을 구성하는 방법
- 확률적 표본추출 방법
- 단순 무작위 표본추출
- 일정한 규칙을 적용하여 모집단으로부터 표본을 기계적으로 추출하는 방법
- 컴퓨터로 추출 / 난수표를 활용
- 체계적 표본추출
- 모집단을 대상으로 각각에 대해 번호를 제공하고 n개의 간격으로 표본을 추출하는 방법
- 비례 층화 표본추출
- 모집단을 여러 개의 다른 집단으로 구분한 후, 각 집단의 구성을 고려하여 비례적으로 추출하는 방법
- 다단계 층화 표본추출
- 비례 층화 표본추출에서 상위-하위 표본 단위를 설정한 후 설정한 값에 따라 다시 추출하는 방법
- 군집 표본추출
- 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우, 모집단 전체를 조사하지 않고 몇개의 군집을 표본으로 선택해서 조사하는 방법
비확률적 표본추출 방법
모집단으로부터 표본을 추출할 때 확률과 상관없이 연구자나 조사자가 자신의 생각대로 표본을 뽑거나 구성하는 방법
- 편의 표본추출
- 연구자나 조사자가 표본을 무작위로 선정하는 방법
- 연구나 조사를 수행함에 있어 편리하며 비용 또한 적게 든다는 장점이 있음
- 하지만 모집단에 대한 대표성을 나타내기 힘들며 실수나 오류가 많이 발생할 수 있음
- 판단 표본추출
- 연구자나 조사자가 적절하다고 판단된 구성원들을 표본으로 선정하는 방법
- 할당 표본추출
- 모집단의 속성을 대표할 수 있는 연령, 학력, 직업 등을 구분하여 결정한 후 각각에 대한 표본의 갯수를 미리 정하고 나서 연구자나 조사자가 정한 표본의 갯수에 따라 임의로 표본을 추출하는 방법
- 자발적 표본추출
- 연구자나 조사자의 생각과는 달리 응답자가 원하여 직접 연구나 조사에 응하는 경우 표본으로 선정하는 방법
- 연구나 조사 주제에 대해 관심이 많은 사람들이 주로 연구나 조사에 참여하게 될 것이므로 결과가 왜곡될 가능성이 농후함
Descriptive Statistics
Representation of data
독자에게 수집된 자료의 내용이나 특성 등을 설명하여 이해할 수 있도록 한다는 의미
Descriptive Statistics
수집된 자료의 특성을 요약, 정리하는 것
- 통계: 여러가지 현상에 대해 수리적으로 정리, 분석, 예측하는 작업
도수분포표
수집한 각각의 데이터에 대한 빈도를 정리한 표
히스토그램[Histogram]
측정치들을 계급으로 구분하고 각 계급에 포함되는 측정치의 개수[도수]를 표현한 것
- 각 계급 간의 상한과 하한이 서로 연결되므로 히스토그램의 막대그래프는 서로 붙어있는 형태로 표시
- 직관적으로 인식되는 형태가 아닌 일일히 숫자를 비교해야하는 단점 존재
원그래프(Pie)
전체에 대한 각 부분의 비율을 부채꼴 모양으로 백분율로 나타낸 그래프
상자수염그림(Boxplot)
- 최댓값, 최솟값, 평균, 중앙값 등 여러가지 정보를 제공하여 데이터를 표현하는 데 유리
- 일반적으로 2개 이상인 집단의 자료를 서로 비교하는 데 사용
Descriptive Statistic
- Statistic[통계량] = Descriptive Statistic[기술 통계량]
- 표본이 모집단에 대한 대표성을 가지고 있음을 설명
중심경향도
- 표본의 중심을 설명하는 것
- 데이터들을 종합해 그 중심을 이루는 값이 무엇인지 구하는 것
- 대푯값
- 평균[mean]
- 통계에서 가장 많이 사용되는 중심경향도
- 표본의 특성을 살펴볼 때 가장 먼저 확인하는 수치
- $\bar{x} = \frac{(x_1 + x_2 + \cdots + x_n)}{n} = \frac{1}{n}\displaystyle\sum_{n=1}^{10}n$
- 특징
- 평균으로부터 관찰값과의 편차의 합은 0
- 자료의 분포가 좌우대칭인 경우 평균과 중앙값은 동일함
- 평균의 함정
- 일부 극단적인 값을 가진 데이터 때문에 평균 외 다른 대표값을 봐야함
- 중앙값[median]
관측된 자료의 편중과 상관없이 최소값부터 최대값까지 나열했을 때 가운데 위치한 값- n이 홀수인 경우
- $X_M = \frac{(n+1)}{n}$ 번째의 측정치
- n이 짝수인 경우
- $X_M = \frac{(\frac{n}{2}번째 수 + \frac{n+2}{2}번째 수)}{2}$ 번째의 측정치
- 최빈값[mode]
- 표본에서 가장 많이 관찰되는 관측치
- 특징
- 중심경향의 측정치로 1개 이상 존재할 수 있음
- 자료 중 평균이나 중앙값을 구하기 어려운 경우에 활용
- 평균[mean]
산포도
표본이 퍼진 정도를 구성하는 분포
- 분산
- 모분산
- $ \sigma^2 = \frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2 $
- 표본분산
- 표본의 개수를 (n-1)(자유도)로 계산한 분산
- 표본의 평균을 알 때 분산을 구하는 경우, 전체 표본의 개수에서 1을 뺄 때 더 정확한 분산을 구할 수 있음
- 변수들 가운데 하나는 정해진 평균값에 맞추기 위해 어떠한 고정된 값으로 정해져 자유를 상실하므로 '표본의 개수 - 1'이 됨$ S^2 = \frac{1}{n - 1}\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2 $
- 표본의 개수를 (n-1)(자유도)로 계산한 분산
- 표본표준편차
- $\sqrt{분산}$
- 값이 작을 수록 값들이 평균에 모여 있음을 뜻함
- 사분위수[Quantile]
- 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치 의미
- 제1사분위수는 누적백분율 25%, $Q_1 = \frac{n+1}{4}$ 번째 순위값
- 제2사분위수는 누적백분율 50%, median, $Q_2 = \frac{n+1}{4}$ x 2 번째 순위값
- 제3사분위수는 누적백분율 75%, $Q_3 = \frac{n+1}{4}$ x 3 번째 순위값
- 제4사분위수는 누적백분율 100%에 해당하는 값, $Q_4 = \frac{n+1}{4}$ x 4 번째 순위값
- 사분위수 범위[InterQuantile Range, IQR]
- 일반적으로 범위란 최대값 - 최소값으로 구함
- 제3사분위수 - 제1사분위수
- Maximum = $Q_3$ + 1.5 * IQR
- Minimum = $Q_1$ - 1.5 * IQR
pandas.describe()
실행 결과 출력되는 min, max 아님
- 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치 의미
- 변동계수[CV]
- 상대적으로 얼마나 변동이 많은 지 보기 위한 지표
- 단위가 다르거나 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능
- $\frac{표준편차}{평균}$
비대칭도
표본의 특성을 정확하게 알기 위해 표본이 최대값이나 최소값에 몰려 있는 정도를 설명
[표본이 정규분포를 이루면 중심경향도와 산포도 만으로 충분히 설명 가능]
- 왜도[Skewness]
자료의 분포가 얼마나 비대칭적으로 분포되어 있는 지를 나타내는 통계 지표- 왜도 = 0
- 정규분포, 평균 = 중앙값 = 최빈값
- 왜도 > 0
- 오른쪽 꼬리 긴 형태, 평균 > 중앙값 > 최빈값
- 왜도 < 0
- 왼쪽 꼬리 긴 형태, 평균 < 중앙값 < 최빈값
- 왜도 = 0
- 일반적으로 -1 ~ +1 범위는 치우침이 없는 데이터라 함
- 첨도[Kurtosis]
분포곡선의 봉우리가 얼마나 뾰족한지 나타내는 수치- 첨도 = 3[Mesokurtic]
- 정규분포
- 첨도 > 3[Leptokurtic]
- 정규분포보다 뾰족
- 이상치가 많을 수 있음
- 첨도 < 3[Platykurtic]
- 정규분포보다 완만
- 이상치가 없을 수 있음(데이터가 이상할 수 있어 재확인 필요)
- 첨도 = 3[Mesokurtic]
Random Variable & Probability Function
Random Variable
- 시행의 결과[사건]에 실수값을 대응시킨 후 그 값에 확률을 부여한 것
- 이산확률변수
- 수집한 데이터의 확률변수 중에서 셀 수 있는 값들로 구성되거나 일정한 범위로 나타낼 수 있는 확률변수
- 연속확률변수
- 연속형 또는 무한한 경우와 같이 셀수 없는 확률변수
- 이산확률변수
- 확률변수의 평균
- 기대값
- 어떤 사건에 대해 벌어질 확률을 곱해서 전체 사건에 대해 합한 값을 의미
- $ E(X) = \displaystyle\sum_{i=1}^{n}x_iP(x_i) $
- 확률변수의 분산
- 기대값의 특성을 나타내는 값
- 확률변수들이 기대값으로부터 벗어난 정도, 기대값과 어느정도 차이가 있는지를 나타냄Probability Function
- $Var(X) = E(X - \mu)2 = \displaystyle\sum{i=1}^{n}(x_1 - \mu)^2P(x_i)$
- 확률 P를 가진 어떤 사건에 대해 n번 시행하여 x번이 나타날 때, 확률변수 x와 이에 대응하는 P(x)의 관계를 나타내는 함수
Probability Distribution
- 미래에 일어날 사건에 대한 확률을 나열한 것
- 일반적으로 표나 그래프로 나타냄과거의 경험이 미래를 예측함에 있어 어떠한 영향도 미치지 않고 발생할 가능성이 동일한 분포
- Uniform Distribution
- 이산균등분포
- 정의된 구간에서 확률분포 함수의 모든 확률이 동일한 분포
- 연속균등분포
- 특정 범위 내에서 모든 확률함수가 동일한 분포
Normal Distribution
- 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심[평균]을 기준으로 좌우가 대칭되는 분포[중심극한정리]
- 표본분포 중 가장 단순하면서 많이 나타나는 형태의 분포
- 평균 m, 분산이 $\sigma^2$인 정규분포의 확률함수는 e = 2.71828... 인 무리수를 사용
- $f_x(x) = \frac{1}{\sqrt{2\pi}\sigma}e^-\frac{(x-m)^2}{2\sigma^2}$
Standard Normal Distribution
- Z Distribution
- 서로 다른 정규분포들을 비교하기 위해 평균이 0, 표준편차는 1을 기준으로 각각의 정규분포를 표준화한 분포베르누이 시행
Binomial Distribution
- 반드시 두가지만 존재하며 동시에 일어나지 않는 배타적인 사건이 일어나는 시행을 반복적으로 실험하는 것
베르누이 분포
- 베르누이 시행을 확률분포로 나타낸 것
- 성공확률을 p(x = 1)라 할 때, 실패확률은 1 - p(x = 0)으로 가정
- $\mu = p$
- $\sigma^2 = p(1 - p)$서로 독립적인 베르누이 시행을 n회 반복하여 성공한 횟수를 X라 할 때, 성공한 X의 확률분포
이항분포
- $\mu = np$
- $\sigma^2 = np(1 - p)$
이항분포의 확률
- n번의 시행에서 성공확률(p)이 r번 나타날 확률
- $P(X = r) = \frac{n!}{r!(n-r)!}p^r(1 - p)^{(n - r)}$