안녕하세요?
프로젝트 하면서 모델 만들다보면, 자료에 시간이 있는 것이 있지 않습니까?
고객은 가장 최신의 데이터는 학습에 사용시키지 말고 테스트 데이터로 따로 떼서 해달라하고,
제가 생각하기에는 가장 최신의 데이터도 일부 뗴어내서 모델이 포함을 해야된다고 생각이 들거든요. 최신 트렌드를 반영 하려면 이 방법 밖에 없는데요.
고객이 또 하는 말이 최종 모델에서는 데이터를 다 넣고 학습을 다시 시키면 되지 않냐고하는데, 이렇게 하면 또 최종 모델 검증이 못하는 딜레마가 있네요. 오버피팅이 될 거 뻔하거든요.
시계열특성이 있는 데이터에서, 데이터 스플릿과 오버피팅 문제 혹시 어떻게 업무에서 해결하고 계신가요?
2