극단 값을 제거하지 말아야 할 경우
이 때 무리하게 극단 값을 제거하는 것은 오히려 왜곡된 분석을 유발할 수 있다.
이 경우 극단 값은 오히려 분석의 핵심이 되었다.
또한, 공공정책 분석에서 극단 값의 제거 여부는 민감한 영향을 미칠 수 있다.
극단 값이 단순한 측정 오류나 데이터 입력 실수일 경우, 이를 그대로 분석에 반영하면 잘못된 결론을 내릴 수 있다.
예컨대 숫자 58을 입력해야 할 곳에 580을 입력한 경우, 이를 그대로 활용하면 평균이나 분산 등 대부분의 지표가 크게 왜곡될 수 있다.
마지막으로, 시계열 데이터나 품질관리 분야에서의 이상값은 프로세스의 이상 신호로 간주되므로, 이를 제거하고 정상 범위 내 데이터만 분석하는 것이 품질 유지에 중요하다.
예를 들어 마케팅 데이터 분석에서 어떤 고객의 구매 금액이 다른 고객에 비해 매우 크다면, 이는 VIP 고객의 행동 특성을 나타내는 중요한 정보일 수 있다.
이 경우 극단 값은 단순한 오류가 아니라 핵심 정보가 된다.
예를 들어 IQR 방식이나 표준편차 기준을 사용할 때, 해당 기준에서 벗어나는 값은 극단 값으로 처리되지만 실제로는 정규분포가 아닌데이터일 경우, 자연스러운 분포의 일부일 수 있다.
이 때 무리하게 극단 값을 제거하는 것은 오히려 왜곡된 분석을 유발할 수 있다.
극단 값이 분석 목적에 따라 유지되어야 하는 경우도 많다.
이 경우 극단 값은 오히려 분석의 핵심이 되었다.
- 자료에 극단값이 포함된 경우 극단값은 반드시 제외해야 하는가 극단 값을 제외하는 이유
극단 값을 제외하지 않는 경우
극단 값을 제외하는 것과 제외하지 않는 것의 비교
또한, 극단 값이 분석 모델에 영향을 미칠 수 있다.
극단 값을 제외하지 않고 포함시키는 것은 때로는 ..