첫번째 논문 :
<- GPU를 20~70% 절감해주는 희소 행렬 모델, MoE의 차세대. 두번째 논문 : <- 현존하는 모델은 추론 중 학습 못합니다. 저희는 우연히 발견했는데, 제 모델 구조가, 동시성 ( 서빙 추론 중에 학습이 되면서 오프라인 정확도를 찾아갑니다. ) 이 됩니다.제 논문 2편
04월 22일 | 조회수 83
공
공명
댓글 0개
공감순
최신순
- 등록된 댓글이 없습니다
첫 댓글을 남겨주세요
추천글
첫번째 논문 :
<- GPU를 20~70% 절감해주는 희소 행렬 모델, MoE의 차세대. 두번째 논문 : <- 현존하는 모델은 추론 중 학습 못합니다. 저희는 우연히 발견했는데, 제 모델 구조가, 동시성 ( 서빙 추론 중에 학습이 되면서 오프라인 정확도를 찾아갑니다. ) 이 됩니다.