데이터 라벨링을 고민하는 분들께
저는 데이터 수집, 가공 업체에 있다가 현재는 자율주행 회사로 넘어와서 레이블링 조직을 운영하고 있습니다.
건너 건너 데이터 레이블링 조직이나, 이와 비슷한 단순 반복 작업이 필요한 팀을 꾸리는 분들이 여러 문의를 주십니다. 여기도 비슷한 질문들이 보여서 써봅니다.
'인하우스 레이블링, 어떻게 해야 해요?'라는 질문에는 사실 다음과 같은 내용이 함축되어있습니다.
1. 무엇부터 시작해야 하는가
2. 시장에서 공급받는 것보다 비용, 퀄리티, 퀀티티, 소통 측면에서 이점이 있는가
3. 유지 관리의 어려움은 없는가
저는 답변에 앞서 세가지를 질문합니다.
1. 현재는 어떻게 하고 있는지(외주, 알바 등)
2. 작업장을 어느 규모로 어느 기간동안 유지할 것인지
3. 투입할 수 있는 자본이 얼마인지
기대하는 데이터의 퀄리티나 생산 일정 등이 문의주시는 분들마다 다르고, 무엇을 가장 중요하게 생각하는가도 다르기 때문에 저 세가지 질문을 드립니다. 가벼운 문답인 경우 3번 질문은 안하는 경우도 있습니다.
데이터 생산에서는 크게
데이터량, 정확도, 속도, 비용을 꼽습니다.
네가지를 모두 만족하는 솔루션이 가장 좋겠지만, 조직마다 가중치를 두는 부분은 분명 있을 것입니다.
많은 양의 데이터를 만드는 가장 쉬운 방법은 업체에 맡기는 것입니다. 인하우스 조직으로 커버하려면 리소스 관리에 시간을 많이 쓰게 됩니다.
정확한 데이터를 만드는 방법은 천천히 오랫동안 작업자를 교육하고 데이터의 검수를 여러 번 거치거나, 연구원이 직접 gt를 만드는 것입니다.
데이터를 빠르게 만들려면 돈을 많이 쓰면 됩니다. 단기간에 많은 작업자를 투입시키면 빠르게 데이터를 만들 수 있습니다. 작업 환경을 세팅하는 데에도 많은 비용이 필요합니다.
비용을 저렴하게 하는 방법은 상대적으로 임금이 낮은 국가에 작업장을 만드는 것입니다. 해외 작업장을 가지고 있는 업체에 외주를 맡기는 것도 방법이겠지요.
네가지를 모두 만족시키려면
'해외에 있는 업체중에 저렴하게 빨리, 많이 공급해 줄 수 있는 업체를 찾아서 맡기고 데이터 검수를 여러 번 거친다.'가 정답에 가장 가깝겠습니다.
하지만 사실 그런 업체가 있다면 이미 작업비용이 글로벌 업체 평균가로 올라왔을 가능성이 높습니다.
제가 드리는 질문 2번에서, 1년 이상 꾸준하게 작업이 있는 경우라면 국내에 인하우스 조직을 만드는 방법을 알려드립니다.
유지관리에 어려움이 없지 않지만 비용이나 소통 측면에서 장기적으로 봤을 때 유리한 경우가 많기 때문에 추천합니다. 그런데 관리를 정말 잘해야 합니다. 관리가 안되는 인하우스 조직은 업체에 맡기는 것보다 비용이 더 들어갈 수 있습니다.
해외 업체가 꼭 저렴하지만은 않습니다. 좋은 퀄리티에 합리적인 가격으로 데이터를 공급하는 업체도 많으니, 국내 데이터 업체의 레퍼런스를 꼭 확인해보시기를 추천드립니다.