본문 바로가기

교육 및 세미나

[멀티캠퍼스]어서와 데이터는 처음이지 - (2)효과 검증을 위한 기초 개념 강의정리

▣ 1차시_요일별 매출 좀 비교해봐! - 흔히 저지르는 실수

조건별 차이를 어떻게 검증할 것인가..?
그 효과라는 것을 데이터를 기반으로 각 조건별로 차이라는 것을 정확히 살펴서 어느 조건이 효과가 높은지 따져 봐야한다.

<정리>
1. 우리의 목표: 조건 간 차이를 구해라!
2. 조건 간 차이 검증
   - 샘플의 기술통계로 그래프만 그려서 판단하는 것은 객관적인 방법이 아니며, 잘못된 판단을 할 가능성이 높음
   - 정확히 얼마가 차이 나야 차이가 있다고 할지, '차이 값'에 대한 객관적 정의가 필요함

▣ 2차시_차이는 무엇으로 정의하냐고? - 확률로 접근하는 이유

목표: 월요일과 화요일의 평균 매출의 차이

샘플의 차이 값(x1_-x2_) ========> 모집단의 차이 값(μ1-μ2)
               추론 · 유추

월요일 매출 모집단(뮤1) -----표집(sampling)------> 월요일 매출 표본(엑스원바)
화요일 매출 모집단(뮤2) -----표집(sampling)------> 화요일 매출 표본(엑스투바)

<정리>

1. 기술 통계: 3개월간의 데이터를 통해 구한 월요일과 화요일의 평균 차이일 뿐임
2. 추론/유추
- 샘플 데이터 간 차이로 앞으로 발생할 전체 데이터 간 차이를 유추, 추론해야 함
3. 추론의 정확성
- 추론이 틀릴 확률을 구해 추론의 정확성을 따짐
- 추론이 틀릴 확률이 낮다 = 정확도가 높은 추론이다.

▣ 3차시_확률은 어떻게 구하냐고? - 분포의 밑넓이와 확률

상대평가(비교평가)
예)
수학 성적을 80점 받았을때 내가 시험을 잘 본 것인가 못 본것인가
내 점수와 다른 사람 점수를 비교
(내 점수 - 반 평균) 값이 양의 방향(+) 으로 클수록 시험을 잘본것

분포의 밑넓이
내가 원하는 구간의 밑넓이와 전체 밑넓이의 비율로 확률을 구할 수 있다.

<정리>
1. 상대평가
- 내가 맞은 점수를 다른 사람들의 점수와 비교해야 함
- (내 점수-평균)으로 판단 가능
- (내 점수-평균)이 양(+)의 값으로 클수록 상대적으로 높은 점수를 기록한 것
2. 분포의 밑넓이와 확률
- 분포의 밑넓이를 구할 수 있으면 내가 원하는 구간의 밑넓이와 전체 밑넓이의 비율로 정확한 확률을 구할 수 있음
   원하는 구간의 분포 밑넓이
--------------------------------------
      전체 분포의 밑넓이

▣ 4차시_국어와 수학 중 무엇을 더 잘한걸까? - 표준화와 표준점수

다른 분포, 같은 점수
국어 80점                               수학 80점
    |______________________________________|
                           ↓
                똑같은 80점 아니다!

서로다른 분포, 80점이라는 절대점수를 비교해야되는 상황

국어와 수학의 분포와 표준편차

<복습>
1. 분산/표준편차를 구하는 목적:
   데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있는지 그 정도를 알려고 하는 것
2. 편차: 평균에서 각 데이터까지의 거리(차)
3. 분산: 편차제곱의 평균
4. 표준편차: 분산의 제곱근(root)
5. 분산 / 표준편차와 데이터와의 관계
   - 분산 또는 표준편차가 크면 데이터는 평균에 수렴되지 않고 넓게 퍼져있는 형태
   - 분산 또는 표준편차가 작으면 데이터는 평균에 수렴

--------------------------------------
과목    점수    평균    표준편차
--------------------------------------
국어    80점    70점    2
수학    80점    56점    5
--------------------------------------
수학과 국어 각각의 X - μ
국어의 (X - μ) = 10
수학의 (X - μ) = 24

표준화

거리를 각 분포의 표준 편차 단위로 통일
   X - μ
-------------------- = 표준화(Z)standardization -> 표준 점수(Z-score)
표준편차(σ)

국어 80 - 70
     ----------  = 5
         2

수학 80 - 56
      -------- = 4.8
         5

그러므로 국어가 더 잘한거

<정리>
1. 표준화(standardization)
   - 어떠한 특정 수치를 서로 다른 분포에서 비교하기 위해 편차를 표준 편차로 나눠서 표준 편차의 단위로 나타내는 것
   - 기호로는 대문자 Z로 나타냄
2. 표준화 공식
          X - μ
   Z =-----------
           σ
3. 표준 점수(Z-score)
   - 표준화 공식에 실제로 수치를 넣어서 구해낸 수치
   - 표준 점수가 높을수록 평균으로부터 떨어져 있다는 의미

▣ 5차시_모든 점수의 표준점수를 다 구해보면? - 표준정규분포

=> 모든 점수의 표준 점수

A=[1,2,3,4,5]

모집단 평균 = 3
모집단 표준 편차 = 루트2

Z(1)= 1-3      -2
      ------- = ----
       루트2    루트2

...
Z(5)

=> 표준 점수들의 평균

모든 표준점수의 평균을 구해보자
= 0(always)

=> 표준 점수들의 표준 편차
=1(always)

=> 표준 점수들의 분포


<정리>
1. 표준 점수의 평균 : 항상 0
2. 표준 점수의 표준 편차: 항상 1
3. 원래 데이터인 모집단이 정규 분포이면 모든 데이터를 표준화시켜 얻어낸 표준 점수도 정규분포형태가 됨
4. 표준정규분포
   - 모든 점수를 다 표준화하여 얻어낸 표준 점수의 분포
   - 표준화를 Z라고 나타내므로, Z분포라고도 부름 (표준정규분포 = Z분포)

▣ 6차시_하나도 안 숨겨둔 비기 공개 - 계산 안하고 확률 구하는 법

# 내 키는 상위 몇 %?

         내 키 ~ max 분포 밑넓이
=       ---------------------------------
       20세 이상 키 분포 전체 밑넓이

표준정규분포로 바꾸면 적분 안써도 된다!!

# 표준정규분포의 밑넓이
평균 = 0
표준편차 = 1
전체 밑넓이 = 1

# 표준정규분포표
 표로 밑넓이를 바로 알수 있음

# 정답 공개
180의 표준 점수 = 1.4
0.5 - 0.4192 = 0.0808

<정리>
1. 분포의 밑넓이 :
   확률을 구하기 위한 분포의 밑넓이를 구하려면 표준화를 진행하여 표준 점수로 변경하고, 그 분포의 밑넓이를 구하면 됨
2. 표준정규분포표 :
   표준화한 표준점수까지의 밑넓이는 별다른 수식 없이 표준정규분포표만 볼 줄 알면 구할 수 있음
3. 계산 안하고 확률 구하는 법 :
   표준정규분포의 특성이 밑넓이가 1이고 좌우대칭이라는 점을 생각하면, 표준정규분포표에 나와 있지 않은 넓이도 구할 수 있음

▣7차시_6시그마? 들어는 봤는데 정확히 뭐지? - 표준화의 응용

# 6sigma의 단위

표준화의 관계
표준화 공식 : 거리(편차)를 표준 편차 단위로 나타내는 것
        X - μ
z=    --------
          σ

# 6sigma의 진짜 의미

어떤 데이터를 표준화 했을 때 표준편차 대비
2배(2σ)까지 거리의 표준점수들이 전체 데이터의 95%를 커버하는 구간이다

<정리>
1. 확률과 Z :
   표준정규분포를 이용하면 Z를 이용해서 밑넓이(확률)을구하는 것 뿐만 아니라 특정 확률을 이루는 Z의 구간을 구할 수도 있음
2. Z의 절대값이 커진다는 의미
   - 표준정규분포의 양 극단으로 감
   - -Z~+Z 사이의 구간을 벗어나는 영역의 확률은 점점 작아지게 됨
3. 6sigma : 확률적으로 엄청 낮은 불량률

▣ 8차시_차이가 난다는 것의 기준은?(1) - 0가설 검정

#어떤 확률을 따진다
월요일 매출 모집단(μ1) --------------------> 월요일 매출 표본 x_1
      표집(sampling)
목표:모집단 차이 <-------------------------------실제로 구한 샘플의 
     μ1-μ2 추론           평균차이(기술통계) x_1-x_2

화요일 매출 모집단(μ2) --------------------> 화요일 매출 표본 x_2
         표집(sampling)

추론이 틀릴 확률을 따져야 한다

#0가설 검정 : 0가설이 참일 확률이 큰가 작은가
월요일과 화요일의 매출 차이가 없을 경우
반대 추론: 0가설(zero-hypothesis, H0)
내 추론: 대립가설(alternative hypothesis, HA)

1. H0:내 추론의 반대 추론을 가정한다.
2. H0가 참일 확률을 따져본다.(H0=True 일 확률)
3. 0가설이 참일 확률↑ : 내 추론은 덜 정확한 추론
   0가설이 참일 확률↓ : 내 추론은 정확한 추론

<정리>
1. 추론 : 내 추론의 정확성을 따져야 하며, 내가 틀릴 확률을 따져서 계산함
2. 0가설(대립가설)
   - 나의 추론과 반대되는 추론이 참이 될 확률 계산
   - 나의 추론과 반대되는 추론 : 0가설
   - 나의 추론 : 대립가설
3. 0가설검정
   - "H0=True 일 확률이 높은가, 낮은가"를 따지는 것
   - 0가설이 참일 확률이 너무 낮으면 나의 반대 추론이 참일 확률이 너무 낮다는 의미가 되므로 내 추론이 맞다고 결론 내릴 수 있음

▣ 9차시_차이가 난다는 것의 기준은?(2) - 알파(α)와 p-value

# 기준선α
월요일과 화요일의 매출 평균 차이가 없을 확률
0가설이 참일 확률이 너무 낮으면 0가설 기각
정확히 몇 % 까지는 H0= True 이다.
α=0.05(5%)
0가설이 참일 확률이 5%이하 -> 0가설 기각

# 실제 확률 값은? p-value
실제 데이터로 구해진 0가설이 참일 확률 p-value(p)

# 까마귀는 까만 것인가?
대립가설 : HA : 끼미귀 = Black
0 가설 : H0 : 까마귀 != Black

샘플데이터 까마귀 100마리 중에 예외 4마리 => 0.04(4%)
0가설이 참일 확률(p) =4% 기준(α)보다 낮음

대립가설 : HA : 끼미귀 = Black(기각)
0 가설 : H0 : 까마귀 != Black(채택)

====> 까마귀는 까맣다


샘플데이터 까마귀 100마리 중에 예외 10마리 => 0.1(10%) > 0.05 => 까마귀는 까맣지 않다

<정리>
1. 0가설 검정
   - 통계적 추론을 위한 0가설 검정을 하려면 0가설이 참일 확률과 그 확률의 기준선이 필요함
2. 기준선 α    
   - 통상적으로 5%로 함, 즉 5%보다 낮으면 낮은 확률로 봄
3. p-value
   - 실제 샘플 데이터를 기반으로 0가설이 참일 확률을 구하는 것
   - α > p 이면 0가설 기각이므로 우리의 추론이 맞음
   - α < p 이면 0가설 기각 불가이므로 우리의 추론은 통계적으로 근거가 없는 것이 됨

▣ 10차시_근데 이럴 때 Z는 못 쓰잖아? 그럼 대체자는? - t검증

# 현업에서 Z는 쓸 수 없다
   모집단의 데이터가 있어야 구할 수 있는 모수치, 모집단 수치가 없기 때문에 사용할 수 없다
# Z의 대체자, t
   중심극한정리(CLT)
   어떻게 표본수치를 이용해서 Z를 잘 추론할 수 있을까요?
   
   모집단 ---------Random Sampling N=100----> 평균 = A(표본평균 != 모평균)
   모집단 ---------Random Sampling N=100,000----> 평균=B

Q. A와 B 중 모집단 평균에 더 가까운 수치는?

중심극한정리(CLT) N이 충분하면 x는 뮤에 근사한다

N만 충분하다면 모집단평균과 뮤가 비슷해진다

<정리>
1. Z : 모수치를 구할 수 없기 때문에 현업에서 사용할 수 없음
2. t
      - 모수치가 아니라 표본수치를 이용하여 Z를 추론해볼 수 있음
      - 공식 : x-x_
               ------
                  s
3. N이 많을 경우 : t와 Z는 같아짐(t는 Z에 근사함)
   특히 N > 30 인 경우 : t는 Z와 결과가 거의 같음

▣ 11차시_두통약의 효과를 판단하려면? - t검증을 위한 실험 설계

# 새로운 미션
   효과라는 것을 정확히 무슨 수치로 구할 건가요?
# 해결책1.그룹 간 비교
   랜덤 샘플링 100명 뇌파의 양 비슷(두통 정도 비슷)
   => 실험 설계
   표본 100명 조건1(새로만든 두통약 사용), 2(원래 하던대로 냅둠)
   일정시간 후에 뇌파 비교
   집단 간 설계 between 두조건을 나눠서 서로 비교
   독립 집단 설계 independent 서로 독립된 환경에 노출
# 해결책2.같은 그룹에 반복 노출
   Before 모든 참가자에게 약물 투여 After
   집단 내 설계 within
   반복 측정 repeated related
# t는 하나가 아니다

<정리>
1. 집단간 설계(between, independent)
   - 조건을 나누고 각 조건에 데이터를 배치하여 조건간 차이를 구하는 방법의 실험설계
   - 각 조건의 결과가 서로의 결과에 영향을 미치지 못함
2. 집단내 설계(within, repeated, related)
   - 조건을 나누지 않고 모든 샘플이 동일한 환경에 반복 노출되는 방법의 실험 설계
   - 조건을 나누지 않고 모든 샘플에 적용되기 때문에 앞의 결과가 뒤의 결과에 영향을 받게 됨

▣ 12차시_t를 제대로 쓰려면 알아야 한다 - 정규성, 독립성, 등분산성

# 정규성(정상성)
   무엇을 확인 하는 것일까요? 모집단이 정상분포 형태인가? 분포의 모양이 정상인지 아닌지
   정상성, 정규성이 만족하지 못하면 => 비모수검증

# 독립성
   집단간 설계(독립집단설계) : 조건을 2개로 나눴을 때 서로의 결과를 영향에 미칠 수 있는가

# 등분산성
   두 조건별 데이터의 분산이 서로 같은가? 평균차이가 있는가 없는가
   두 분포간의 차이 : 분포에서 겹치는 부분이 많고 적고의 차이
   평균차이는 같아도 분사에 따라 겹쳐지는 부분이 달라진다.
   두 조건의 분산이 비슷하면 등분산 t검증 공식 이용

# 왜 확인하는가?
  이 세가지가 만족하느냐 에 따라서 t의 공식의 정확성이 차이 난다

<정리>
1. t검증의 계산 공식:
   딱 한가지가 아니라 여러가지이며, 아래 세 가지를 반드시 확인해야만 그 중에 어떤 계산공식을 쓸지 정할 수 있음
   ①정규성: 모집단이 정규분포인가?
   ②독립성: 조건이 서로 독립적인가?
   ③등분산성: 조건의 분산이 서로 같은가?

▣ 13차시_데이터 분석 실습 - 연도별 매출 비교 미션 해결하기!

<정리>
1. 목표 정의 : 월요일과 화요일의 평균 매출의 차이가 있는가?
2. 0가설 정의(월요일 평균 매출=μ1, 화요일 평균 매출 = μ2)
   - H0:μ1=μ2(또는 μ1 -μ2 =0)
   - H0 = True 일 확률 p를 구해서 기준(α=0.05)과 비교한다
   - p<α이면 0가설이 참일 확률이 낮다(즉, 내 가설이 맞다)
3. 모집단의 조건 간 차이를 샘플 데이터로 검증해야 할 경우 t-검증을 선택한다.
4. t-검증을 위해 확인해야 할 것: 1)정규성 2)독립성 3)등분산성
5. 엑셀 t-검증 종류
   - t검정:쌍체비교->집단 내 설계
   - t검정:등분산 가정 두집단->집단 간 설계(조건 간 분산이 같을 경우)
   - t검정:이분산 가정 두집단->집단 간 설계(조건 간 분산이 다를 경우)
6. 결과 해석:p>α이므로 0가설을 기각할 수 없다.
   즉, 월요일과 화요일의 평균 매출은 통계적으로 차이가 없다