y_lab = a_1 x_1 + a_2 x_2 + a_3 x_3 + a_0
데이터 자체가 error 거의 없이 아주 깔끔하게 리니어하게 나오는
실험 결과.
그런데, x_4, x_5를 측정할 수 없는 상황에다
x_1 ~ x_3만 가지고 y를 예측해 볼 수 없는가 하는 상황입니다.
x_4랑 x_5가 implicit하게 영향을 주는 y값을 얻어 보니 (y_real이라 하죠)
linear하긴 마찬가지, 기울기와 절편이 x_3까지만 세 개 썼을 때와
다를 뿐. 그런데, reproducibility는 얼마나 좋을지 모르는
이 때 y_lab, x_1 ~ x_3만 측정한 데이터만 가지고
y_real을 최대한 가깝게 예측하려면, 팁 좀 부탁해요.
데이터 포인트는 200개 정도, 그런데 이게 샘플 종류별로 합친 거라
종류별로는 약 40~60개 정도(즉, 샘플 종류가 한 4~5종).
굳이 y_real은 얻는 데 너무 오래 걸리고 x_4, x_5는
전혀 확보 못함요,
그렇다고 y_lab을 굳이 더 모을 필요는 없어 보이는
게 linear regression 결과가 꽤 괜찮으므로요.
2