코딩/Python
[KT AICE] Feature Engineering
JuBro
2024. 11. 5. 13:23
Binning : 연속형 변수를 범주형 변수로 만들기 - 그룹짓기
cut - 길이 기준으로 구간 나누기
qcut - 개수 기준으로 구간 나누기 (원하는 개수 입력)
Scaling : 숫자 데이터간의 상대적인 크기 차이를 제거하기( 대표적 예시로 정규화)
- StandardScaler: 평균을 0, 표준편차를 1로 맞추어 정규화.
- RobustScaler: 중앙값과 IQR을 사용하여 이상치의 영향을 줄임.
- MinMaxScaler: 모든 특성 값을 [0, 1] 사이로 조정.
- MaxAbsScaler: 특성 값을 [-1, 1] 사이로 조정, 특히 음수값이 없는 경우 유용.
Label Encoding : 범주형 변수의 문자열 값을 숫자로 매핑
컴퓨터는 문자열 이해를 못하기에 그에 상응하는 숫자로 전달해줘야한다.
One Hot Encoding : 하나의 데이터만 1, 나머지는 0으로 만들어주는 방법
날짜 데이터 변