본문 바로가기

패스트캠퍼스 부트캠프

(패스트 캠퍼스) 데이터 분석 부트캠프 15기 (2주차)

🚩 깊이 있는 데이터 분석을 위한 기초 수학 / 통계 - 임은성 강사님

 ●  데이터 탐색과 통계 공부 필요성

      기술 통계 - 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색

                          - 관측된 데이터의 특성을 파악하는 좋은 수단

      추론 통계 - 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론

                           - p-value 등을 활용하여 추론의 신뢰도 확보

 

   1.  적절한 통계 기법을 활용하고 수치를 뽑는 과정
   2.  더 나아가 데이터로부터 올바른 정보를 얻어내는 과정
   3.  즉, 통계 공부는 수치로부터 정보를 추출해내기 위한 수단!

 

 

   ○ 기술 통계법 : 평균, 분산, 표준편차, 왜도, 첨도 등 통계량 확인
   ○ 데이터 시각화 : 차트를 통한 분포 확인
   ○ 상관관계 분석 : 각 변수 간의 비례관계
   ○ 결측치, 이상치 탐지 : 관측되지 않거나 추세에서 벗어난 데이터 확인

 

 

 ●  데이터 탐색 과정의 목적

    어떤 변수가 결론에 많은 영향을 미치는지 - 유의미한 변수 탐색, 변수 간의 독립성 확보, 의미 없는 데이터 제거(효율성, 차원 축소)

    • 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다름 - ex) 정규성 검정을 통해 정규 분포를 따르는지 아닌지를 판단

        -> t-검정을 통해서 결론 도출, Mann-Whitney U test, Kruskal-Wallis test 등

 

 ●  엑셀 실습

      주의!!!!!! : 엑셀 실습할 때 데이터 다운로드 받고 꼭 다른이름으로 저장에서 excel 통합문서로  바꾸기

        - > 안그러면 밑에 꼴 남 (기쁜 마음으로 다시 들어갔지만 다 날라감)

피벗테이블 만들고 피벗 차트도 만들었는데 다 날라갔다.

 

 

🚩 데이터 분석을 위한 기초 수학 / 통계 - 이동훈강사님

    - 통계학 : 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

 

    - 기술 통계학(Descriptive Statistics) : 요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법 -> 표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함

 

    - 추론 통계학(Inference Statistics) : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법 -> 점 추정, 구간 추정을 하거나 가설을 검정함

  • 모집단 : 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 = 관심의 대상이 되는 집단
  • 표본 : 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
  • 가설(Hypothesis) 검정 : 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정 

 

 

 

        1. 귀무가설(H0, 영 가설) : 기본적으로 참으로 추정되며, 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미있는 차이가 없는 경우)

        2. 대립 가설(H1, 연구 가설) : 귀무 가설에 대립하는 명제, 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨, 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

 

            - p-value(유의확률) : 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계                                                  치가 관측될 확률, p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지,                                                                                  변수에 의한 것인지 여부를 밝히는 것

            -> 상관 계수 r이나 결정 계수 r^2 등의 지표를 함계 활용해 분석 결과를 더 정확히 표현할 수 있음

 

●  t-test와 F-검정

      t-test : 두집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

    F-검정 : 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

        - f-검정의 귀무가설 : 두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준)  -> 등분산 가정 t-test

        - f-검정의 대립가설 : 두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)  -> 이분산 가정 t-test

        - f-검정은 두 집단의 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용

 

 

        - t-test의 귀무가설 : 두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준)

        - t-test의 대립가설 : 두 집단의 평균에 유의미한 차이가 있다. (p < 유의 수준)

●  회귀 분석

    • 회귀 분석의 개념 : 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

    • 회귀 분석의 목적 : 두 변수 간의 관계를 파악해 우리가 알고 싶은 값을 예측하는 것

 

 

🚩 비전공자를 위한 왕초보 기초 통계 - 임은성 강사님

    - 변량 : 자료의 수치, 즉 데이터의 값을 의미하는 용어

    - 계급 : 변량을 일정한 간격으로 나눈 구간, 계급을 정할 때 변량의 최소와 최대를 고려

    - 도수 : 각 계급에 속하는 변량의 개수

    - 상대도수 : 각 계급에 속하는 변량의 비율

 

    - 도수분포표 : 주어진 자료를 계급에 따라 나눔, 각 계급에 속하는 도수를 조사

    - 장점 : 구간별 분포를 한눈에 알아보기 좋음

    - 단점 : 각 변량의 정확한 값을 생략

도수분포표 예시

 

●  대표값과 기초통계량

     대표값 : 자료의 특성을 나타낼 수 있는 대표성을 띠는 수치

     기초통계량

        - 중심경향성 : 데이터 분포의 중심을 보여주는 값 (최빈값, 중앙값, 평균값)
        - 퍼짐정도 : 자료가 얼마나 흩어져있고 얼마나 모여있는지, IQR (InterQuartile Range) -> 제 3사분위수 - 제 1사분위수

        - 왜도 : 분포의 좌우 비대칭성 정도
        - 첨도 : 분포의 뾰족한 정도

 

●  회귀분석을 공부하는 이유

    • 회귀분석이란? : 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법

    • 장점 : 대부분의 경우 결과를 설명하는 요인이 매우 많음, 둘 이상의 변수 간의 관계를 보여주는 통계적 방법, 종속변수에 영향을 미                    치는 독립변수의 영향력을 판단 가능

    • 주의점 : 인과관계를 설명해주지는 못한다.

 

 

    • 공분산 : 2개의 확률변수의 선형 관계를 나타내는 값

 

●  상관계수 기본 개념

    • 피어슨 상관 계수(Pearson correlation coefficient)

        - 절대값이 0.5~0.7 이상이면 강한 상관관계를 가진다고 봄

        - -0.2~0.2 정도인 경우 상관관계가 약하거나 없다고 해석