퀀트/금융

통계 | 1. 데이터 분석 단계에서의 통계

만 기 2023. 2. 10. 10:50

 

데이터 분석 단계에서의 통계

X(주어진 데이터) → 통계 → f(모델 예측)

일부 데이터(주어진 데이터)로 통계를 활용하여 전체 데이터의 특성(모델 예측) 알기

 

데이터의 종류 및 용어

  • 횡단면 데이터(Cross Sectional) : 특정 시점에 대해서 다수의 독립 변수들의 특성들로 이루어진 데이터
  • 시계열 데이터(Time Series) : 다수의 시점으로 시간의 흐름에 따라 특정 변수가 어떻게 변화되는지 나타내는 데이터
  • 시계열 횡단면 데이터(Pooled Cross Section) : 다수의 변수와 다수의 시점으로 이루어진 데이터. 데이터 중간중간 NaN이 들어있는 미완성 데이터.
  • 패널 데이터(Panel) : 다수의 변수와 다수의 시점으로 이루어진 데이터. 가공된 완성 데이터(전처리)

 

데이터 변수 구분 및 용어 정리

원데이터(Raw Data) : 전처리 되지 않은 데이터 (ex. Log, Table)

  • Log Data : 특정한 순서나 방향없이 무분별하게 기록되는 데이터
  • Table Data : 특정한 값을 가진 변수에 따라서 그룹핑되어 계산된 데이터

변수(Variable) : 정보가 수집되는 특정한 개체나 대상 (보통 열(Column)값 들을 의미)

  • 데이터 특성에 따라
    • 질적 변수 : 값이 특정 범주(Category)로 분류된 변수(색상, 성별, 종교 등)
      • 명목형 변수 : 값이 순위가 존재하지 않는 경우(혈액형)
      • 순위형 변수 : 값이 순위가 존재하는 경우(성적)
    • 양적 변수 : 값이 다양한 숫자 분포로 구성된 변수 (키, 몸무게, 소득 등)
      • 이산형 변수 : 값이 셀 수 있는 경우(정수)
      • 연속형 변수 : 값이 셀 수 없는 경우(실수)
  • 데이터 관계에 따라 Y = f(X)
    • 독립 변수(Independent Variable) : 다른 변수에 영향을 미치는 변수 (X)
    • 종속 변수(Dependent Variable) : 다른 변수에 의해 영향을 받는 변수(Y)