본문 바로가기
코딩/Python

[KT AICE] Feature Engineering

by JuBro 2024. 11. 5.

 

Binning : 연속형 변수를 범주형 변수로 만들기 - 그룹짓기

cut - 길이 기준으로 구간 나누기

qcut - 개수 기준으로 구간 나누기 (원하는 개수 입력)

 

Scaling : 숫자 데이터간의 상대적인 크기 차이를 제거하기( 대표적 예시로 정규화)

 

 

  • StandardScaler: 평균을 0, 표준편차를 1로 맞추어 정규화.
  • RobustScaler: 중앙값과 IQR을 사용하여 이상치의 영향을 줄임.
  • MinMaxScaler: 모든 특성 값을 [0, 1] 사이로 조정.
  • MaxAbsScaler: 특성 값을 [-1, 1] 사이로 조정, 특히 음수값이 없는 경우 유용.

 

 

Label Encoding : 범주형 변수의 문자열 값을 숫자로 매핑

컴퓨터는 문자열 이해를 못하기에 그에 상응하는 숫자로 전달해줘야한다.

 

One Hot Encoding : 하나의 데이터만 1, 나머지는 0으로 만들어주는 방법

 

날짜 데이터 변