본문 바로가기

Upstage AI Lab 3기

Statistics Basic

목차

  • Orientation
  • Number of Cases
    • Rule of Sum
    • Rule of Product
    • Permutation
    • Combination
  • Probability Theory
    • Terms in Probability
    • Mathematical Probability
    • Statistical Probability
    • Addition Law of Probability
    • Conditional Probability
      • Multiplication Law of Probability
      • Independent Event
      • Dependent Event
  • Variables & Scales
    • Variables
      • 독립변수 / 종속변수
      • 질적변수
        • 서열 질적변수
        • 비서열 질적변수
      • 양적변수
        • 연속변수
        • 비연속변수
    • Scales
      • 범주형 척도
        • 명목척도
        • 서열척도
      • 연속형 척도
        • 등간척도
        • 비율척도

Orientation

강좌 목표 : Statistics의 기초 개념과 원리, 방법을 토대로 다음을 학습하는 것.

  1. 수집한 데이터의 특성을 어떻게 요약 정리[ 기술통계 ] 할 수 있는지
  2. 분석한 데이터를 근거로 어떻게 모집단의 특성을 추론[ 추리통계 ] 할 수 있는지
  3. 불확실한 미래의 사건을 어떻게 예측[ 회귀/분류 ] 할 수 있는지

Number of Cases

  • 효율적인 의사결정을 하기 위해 가능한 경우의 수를 예상하는 과정이 필요.
  • 어떤 사건의 정확한 추측을 위해 경우의 수를 구할 때 사용할 수 있는 합의 법칙 & 곱의 법칙.

Rule of Sum

두 사건 A와 B가 상호 배타적일 때[ 동시에 발생할 수 없을 때 ],

사건 A가 일어나는 경우의 수가 m이고 사건 B가 일어나는 경우의 수가 n이면

사건 A 또는 사건 B가 일어나는 경우의 수의 총합은 m + n.

Rule of Product

두 독립 사건 A와 B가 있을 때, 사건 A가 일어나는 경우의 수가 m이고

사건 A의 각각의 결과에 대하여 독립적으로 사건 B가 일어나는 경우의 수가 n이면

두 사건 A와 B가 동시에 일어나는 경우의 수는 m x n.

Permutation

정의

서로 다른 n개에서 서로 다른 r개를 선택하여 일렬로 나열하는 것을 n개에서 r개를 택한 순열이라 함.

수식

$nPr = n(n-1)(n-2)\cdots(n-r+1)$

n factorial

1부터 n까지 자연수를 차례로 곱한 것

$n! = n(n-1)(n-2)\cdots1$

factorial을 이용한 순열의 다른 표현

$nPr = \frac{n!}{(n-r)!}$

Combination

정의

서로 다른 n개에서 (순서를 생각하지 않고) r개를 선택하는 것을 n개에서 r개를 택한 조합이라 함.

수식

$nCr = \frac{nPr}{r!} = \frac{n!}{r!(n-r)!}$

Probability Theory

Terms in Probability

  • 시행[trial]
    • 동일한 조건 아래 몇번이고 되풀이 할 수 있고 그 결과가 우연에 따르는 관찰이나 실험
  • 표본공간[sample space]
    • 시행에 따라 나타날 수 있는 모든 가능한 결과들의 집합
  • 근원사건[elementary outcome]
    • 표본공간을 이루는 각각의 결과[원소]
  • 사건[event]
    • 근원사건의 집합이자 표본공간의 부분집합
  • 합사건[${A} \cup {B}$]
    • 사건 A와 B에 대해 A가 발생하거나 B가 발생하는 사건
  • 곱사건[${A} \cap {B}$]
    • 사건 A와 B에 대해 A와 B가 동시에 발생하는 사건
  • 배반사건[${A} \cap {B} = 0$]
    • 사건 A와 B에 대해 A나 B 중 어느 하나의 사건이 발생하면 다른 사건이 발생하지 않는 사건
  • 여사건[$A^c$]
    • 사건 A에 대해 A가 발생하지 않는 사건

Mathematical Probability

  • $P(A)$
    • 어떤 실험에서 사건 A가 일어날 가능성을 수로 나타낸 것, 사건 A가 일어날 확률
      • $\frac{A가 일어나리라 예상되는 횟수}{전체 실험의 횟수}$
    • 어떤 실험에서 표본 공간의 원소 갯수를 n(S), 사건 A의 원소 갯수를 n(A)
      • $\frac{n(A)}{n(S)}$
    • $ 0 \leq P(A) \leq 1 $
  • 반드시 발생하는 사건 S에 대해 확률 $P(S) = 1$
  • 절대로 발생하지 않는 사건 $\phi$에 대해 $P(\phi) = 0$Statistical Probability시행을 N번하여 사건 A가 일어난 횟수를 r이라고 할 때,
  • N을 충분히 크게 하면 상대도수로 나타나는 $\frac{r}{N}$이 일정한 확률 값 $P(A)$로 근사하게 된다는 것을 의미

$\displaystyle\lim_{N\to\infty}{\frac{r}{n}}$

Addition Law of Probability

  • 서로 다른 사건 A와 사건 B가 발생할 때, A 또는 B가 일어날 확률
  • $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
  • 단, 배반사건이라면 $P(A \cap B) = 0$ 이므로
  • $P(A \cup B) = P(A) + P(B)$

Conditional Probability

  • 시간과 순서에 따라 사건이 발생할 때 확률 구할 시 사용하는 기념
  • 사건 A가 발생한 상황 하에 사건 B가 발생할 확률
  • $P(B|A) = \frac{P(B \cap A)}{P(A)}$

Multiplication Law of Probability

$P(B \cap A) = P(A)P(B|A)$

Independent Event

두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 주지 않을 때, A와 B를 독립사건이라 함

$P(B|A) = P(B|A^c) = P(B)$

$P(B \cap A) = P(A)P(B|A) = P(A)P(B)$

cf. 독립사건인 경우에만 교환법칙이 성립한다.

Dependent Event

두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 줄 때, A와 B를 종속사건이라 함

$P(B|A) \neq P(B|A^c) \neq P(B)$

Variables & Scales

Variables

정의

변화하는 모든 수를 의미

분류

인과관계에 의해 독립변수와 종속변수로 구분할 수 있음

  • 독립변수: 다른 변수에 영향을 주는 변수를 의미
  • 종속변수: 영향을 받는 변수, 독립변수에 의해 변화되는 변수를 의미
    • cf. 매개변수: 종속변수에 영향을 주는 독립변수 이외의 변수로서 연구에서 통제되어야할 변수 의미속성에 따라 질적변수와 양적변수로 구분할 수 있음
    • ex) A교수법과 B교수법[독립변수]에 따른 어휘력[종속변수] 차이 연구에서 아동의 지능[매개변수]
  • 질적변수: 분류를 위해 용어로 정의되는 변수 의미
    • 비서열 질적변수: 서열이 정해질 수 없는 변수 의미
    • 서열 질적변수: 서열적으로 구분할 수 있는 변수 의미
  • 양적변수: 양의 크기를 나타내기 위해 수량으로 표시되는 변수 의미
    • 연속변수: 주어진 범위 내에서 어떤 값도 가질 수 있는 변수
    • 비연속변수: 특정 수치만을 가질 수 있는 변수데이터연구나 조사의 목적에 맞는 변수를 토대로 표본으로부터 수집한 자료
  • 표본의 특성 표현 위한 경우, 단일 변수 자료 수집
  • 중요 연구나 조사 목적의 경우, 다중 변수 자료 수집

Scales

  • 범주형 척도: 데이터들을 구분지어 나눌 수 있는 척도
    • 명목척도: 수나 순서와 관계없이 이름만 붙여지는 척도
    • 서열척도: 명목척도와 유사하게 숫자나 연산과는 관련이 없으나 순서[서열]을 구분할 수 있는 척도
  • 연속형 척도: 연속하는 속성의 데이터를 연구나 조사의 목적에 맞게 구분한 척도
    • 등간척도: 측정한 자료들을 대상으로 연산이 가능한 척도
    • 비율척도: 등간척도의 성질과 함께 '없다'의 개념인 0값도 가지는 척도