본문 바로가기

교육 및 세미나

[멀티캠퍼스]어서와 데이터는 처음이지 - (1)기초 of 기초 데이터 개념 강의정리

▣ 1차시_이 데이터 분석, 왜 하는 거지? - 목표와 순서

1. 데이터 분석 순서 : 목적 정의 > 전처리 > 알고리즘 선택 및 분석 실행 > 검증
2. 데이터 분석을 할 때 가장 중요한 두 가지는 목적을 구체적으로 정확히 정의하는 것과 데이터의 기본적인 특성과 문제들을 파악하는 것임
3. 시각화: 데이터를 기반으로 그린 그래프 혹은 그것을 그리는 과정
4. 데이터에 대한 기본적인 이해 없이 그래프만 그리는 것은 의미가 없음

▣ 2차시_빅데이터와 머신러닝 시대, 뭘 배워야 하지? - 수학, 통계, 도구

- 빅데이터와 머신러닝
1. 빅데이터 : 많은 양의 데이터, 대량의 데이터
2. 머신러닝 : 빅데이터를 이용해서 데이터를 분석하는 기법 중 하나
3. 최근의 빅데이터 분석을 위해 필요한 SKILL : 통계/수학/프로그래밍기술

데이터 분석의 순서
목표 정의 -> 전처리 -> 알고리즘 선택/분석(머신러닝) -> 검증 및 Test

머신러닝 사용법
1. 목적을 정의한다.
2. 목적에 맞는 데이터가 있어야 한다.
3. 어떤 머신러닝 기법을 사용할 지 선택한다.

- 데이터 분석 고수의 Skill

#1 통계의 기초 of 기초
#2 수학(선형대수, 미분)
#3 도구(데이터분석 프로그램, 소프트웨어)

▣ 3차시_데이터는 항상 없다! 그럼 어떻게 모으지? - 모집단과 랜덤샘플링

모집단과 랜덤샘플링
1. 데이터는 수집을 어떻게 했느냐에 따라 특성이 결정됨
2. 모집단 : 원래 알고싶은 데이터 전체(현실적으로 이 데이터는 존재하지 않는다)
3. 표본 : 모집단에서 일부만 뽑아낸 부분 데이터
4. 샘플링 : 모집단에서 표본을 뽑는 과정
5. 표집수(N) : 샘플링한 데이터 개수
6. 랜덤 샘플링: 표집시에 어떠한 기준을 두지 않고 무작위로 추출하는 과정

▣ 4차시_샘플링을 잘못하면 일어나는 대참사 - 편향(bias)

1. 편향 : 데이터 수집 시 특정 기준을 적용해서 데이터가 한 쪽으로 치우치는 현상
2. 불편향(unbiased) : 편향의 반대. 우리가 목표하는 데이터의 상태
3. 랜덤샘플링 : 샘플링 시 어떠한 기준을 두지 않고 무작위로 추출하는 과정. 편향을 막을수 잇는 가장 대표적인 방법 중 하나

▣ 5차시 기본 용어와 기호부터 알고 가자 - 모수치와 표본수치

1. 모평균(μ) : 모집단의 평균(뮤)
2. 모표준편차(σ) : 모집단의 표준편차(시그마)
3. 모수치 : μ, σ
4. 표본평균평균(x_) : 표본의 평균(엑스바)
5. 표본표준편차(s) : 표본의 표준편차(에스)
6. 표본수치 : s, x_
x_ = ΣX/N : 표본의 평균
= 각 표본 데이터를 모두 더한 뒤 표본의 개수로 나눈다.

▣ 6차시_데이터에서 맨 처음 봐야 하는 것 Part1 - 분포의 모양

1. 정규분포 : 좌우대칭 종모양. 평균을 중심으로 데이터가 골고루 퍼져있는 형태
2. 편포 : 데이터가 한쪽으로 치우쳐져 있을 때의 분포
3. 데이터가 정상(정규분포)임을 확인하는 이유 : 
- 분석 방법들의 통계적 가정
- 중심 극한 정리(CLT)

▣ 7차시_데이터에서 맨 처음 봐야 하는 것 Part2 - 집중경향치

1. 집중경향치 : 데이터를 대표하는 값은 누구인가를 나타내는 수치
2. 평균 : 다 더해서 개수로 나눔. 수치적으로 가운데
3. 중앙치 : 제일 낮은 수치부터 제일 높은 수치까지 데이터를 정렬하고, 앞에서부터 순서를 세어 그 순서가 가운데 
4. 최빈치: 양으로 승부! 제일 많이 등장한 수치

▣ 8차시 데이터에서 맨 처음 봐야 하는 것 Part3 - 분산과 표준편차(1)

표준편차를 구하는 이유
1. 데이터의 특성 : 좌우대칭이라는 분포 특성과 집중경향치만으로는 데이터를 설명할 수 없다.
2. 편차: 평균에서 각 데이터까지의 거리(차)
3. 편차의 합: Σ(X-σ)=0

▣ 9차시_데이터에서 맨 처음 봐야 하는 것 Part3 - 분산과 표준편차(2)

1. 분산/표준편차를 구하는 목적:
데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있느지 그 정도를 알려고 하는것
2. 판차: 평균에서 각 데이터까지의 거리(차)
3. 분산: 편차제곱의 평균
4. 표준편차 : 분산의 제곱근(root)
5. 분산/표준편차와 데이터와의 관계
- 분산 또는 표준편차가 크면 데이터는 평균에 수렴되지 않고 넓게 퍼져있는 형태
- 분산 또는 표준편차가 작으면 데이터는 평균에 수렴

▣ 10차시_어디나 문제아는 있다 - 아웃라이어(outlier)

아웃라이어(outlier)
- 다른데이터에 비해 극단적으로 크거나 작은 수치
- 평균, 중앙치, 최대, 최소 등 각종 수치를 확인하면서 파악해야 함
- 분석 시 아웃라이어는 결과를 왜곡하기 때문에, 반드시 제거한 후 분석해야 함

▣ 11차시_데이터 분석 실습 Part1 - 데이터 확인과 기술 통계

1. 목적 정의: 분석 목적을 명확하게 정의
2. 데이터 확인: 정의된 분석 목적을 보면서 더 고려해볼 점은 없는지, 부족한 데이터는 없는지 확인
3. 구글 드라이브의 데이터 불러오기
4. Import Libraries : 분석에 필요한 다양한 기능 불러오기
5. 데이터 구조 파악 : 칼럼명, 각 칼럼의 데이터 타입, 기술통계

▣ 12차시_데이터 분석 실습 Part2 - 결측치 처리

1. 필요없거나 쓸모 없는 칼럼(열) 정리
: 샘플 개수가 너무 적거나 아예 없는 칼럼은 버림

2. 결측치 정리
- 각 칼럼별로 N(개수)이 다르다면 결측치가 존재
- 각 칼럼 중 어느 하나라도 빈 값이 있는 행은 그냥 버림

▣ 13차시_데이터 분석 실습 Part3 - 이 데이터, 뭐가 문제일까?

1. 데이터 분석을 할 때 가장 중요한 것은?
: 요구 조건 정확히 정의하기

2. 데이터의 문제점 확인
1) 편향(bias): 목표에 맞게 제대로 샘플링된 데이터인가?
2) 아웃라이어(outlier): 분석 결과를 왜곡시키는 수치가 있지 않은가?