데이터 분석 단계에서의 통계
X(주어진 데이터) → 통계 → f(모델 예측)
일부 데이터(주어진 데이터)로 통계를 활용하여 전체 데이터의 특성(모델 예측) 알기
데이터의 종류 및 용어
- 횡단면 데이터(Cross Sectional) : 특정 시점에 대해서 다수의 독립 변수들의 특성들로 이루어진 데이터
- 시계열 데이터(Time Series) : 다수의 시점으로 시간의 흐름에 따라 특정 변수가 어떻게 변화되는지 나타내는 데이터
- 시계열 횡단면 데이터(Pooled Cross Section) : 다수의 변수와 다수의 시점으로 이루어진 데이터. 데이터 중간중간 NaN이 들어있는 미완성 데이터.
- 패널 데이터(Panel) : 다수의 변수와 다수의 시점으로 이루어진 데이터. 가공된 완성 데이터(전처리)
데이터 변수 구분 및 용어 정리
원데이터(Raw Data) : 전처리 되지 않은 데이터 (ex. Log, Table)
- Log Data : 특정한 순서나 방향없이 무분별하게 기록되는 데이터
- Table Data : 특정한 값을 가진 변수에 따라서 그룹핑되어 계산된 데이터
변수(Variable) : 정보가 수집되는 특정한 개체나 대상 (보통 열(Column)값 들을 의미)
- 데이터 특성에 따라
- 질적 변수 : 값이 특정 범주(Category)로 분류된 변수(색상, 성별, 종교 등)
- 명목형 변수 : 값이 순위가 존재하지 않는 경우(혈액형)
- 순위형 변수 : 값이 순위가 존재하는 경우(성적)
- 양적 변수 : 값이 다양한 숫자 분포로 구성된 변수 (키, 몸무게, 소득 등)
- 이산형 변수 : 값이 셀 수 있는 경우(정수)
- 연속형 변수 : 값이 셀 수 없는 경우(실수)
- 질적 변수 : 값이 특정 범주(Category)로 분류된 변수(색상, 성별, 종교 등)
- 데이터 관계에 따라 Y = f(X)
- 독립 변수(Independent Variable) : 다른 변수에 영향을 미치는 변수 (X)
- 종속 변수(Dependent Variable) : 다른 변수에 의해 영향을 받는 변수(Y)
'퀀트 > 금융' 카테고리의 다른 글
통계 | 3. 데이터 기반 의사결정 (0) | 2023.02.12 |
---|---|
통계 | 2. 데이터의특성 확인을 위한 기술적 분석 (0) | 2023.02.11 |
확률 | 3. 현실 확률을 다루는 방법 (빈도 확률, 베이지안 확률) (0) | 2023.02.09 |
확률 | 2. 반복되는 사건의 실제 확률 분포 (0) | 2023.02.08 |
확률 | 1. 확률과 확률분포 (0) | 2023.02.07 |