튜토리얼에도 고난과 역경이 있다.

데이터 전처리) 결측치 처리 방법 본문

나의 공부/인공지능

데이터 전처리) 결측치 처리 방법

내가 Nega 2022. 1. 3. 15:37
728x90

결측치 Missing Data란?

결측값은 입력이 누락된 값을 의미합니다. 즉, 누락된 값을 의미합니다. = 입력칸이 있는데 null인 값.

결측치 처리하는 방법

  • 결측치 데이터를 제거
    • 데이터가 너무 없어서 무쓸모일것 같다 -> 제거
  • 결측치를 어떤 값으로 대체
    • 데이터가 대부분 유효한 값이 있는데 한 두가지만 없다 -> 대체

결측치 데이터를 제거

drop 메소드를 이용.

결측치 데이터를 대체

  • 수치형 데이터의 경우 대체 방법 4가지
    1. 특정 값으로 설정
    2. 결측치가 많은 경우, 모두 특정값으로 대체하면 분산이 작아지는 경우가 발생할 수 있음
    3. 평균 / 중앙 값으로 설정
    4. 결측치가 많은 경우, 분산이 작아지는 경우가 발생 가능
    5. 다른 데이터를 이용한 예측값으로 설정
    6. Q. Gan을 이용하나?
    7. 시계열 데이터의 경우 앞 뒤 데이터를 이용하여 데이터 설정
    8. ex. 전 후 데이터의 평균으로 보완
  • 범주형 데이터인 경우
    1. 특정 값으로 설정
    2. 기타 / 결측 과 같이 새로운 범주를 만들어 결측치를 채움
    3. 최빈 값 등으로 대체
    4. 결측치가 많은 경우 적합하지 않음
    5. 다른 데이터를 이용한 예측값사용
    6. 시계열 데이터의 경우 앞 뒤 데이터를 이용하여 데이터 설정

출처
  • AIFFEL LMS
반응형