Happy to visit my research note ^^

(관심 논문) Shade: Enable Fundamental Cacheability forDistributed Deep Learning Training 본문

논문/관심 논문

(관심 논문) Shade: Enable Fundamental Cacheability forDistributed Deep Learning Training

Liam Lim 2023. 3. 21. 14:52
728x90

Redwan Ibne Seraj Khan and Ahmad Hossein Yazdani, Virginia Tech; Yuqi Fu, University of Virginia; Arnab K. Paul, BITS Pilani; Bo Ji and Xun Jian, Virginia Tech; Yue Cheng, University of Virginia; Ali R. Butt, Virginia Tech

February 21–23, 2023 • Santa Clara, CA, USA

USENIX Association

21st USENIX Conference on File and Storage Technologies

 

 

 


Abstract


 

 

 

  Deep learning training (DLT) applications는 storage system design에 새로운 도전 과제를 제시하는 unique I.O workload behaviors를 나타낸다. DLT는 remote storage에서 data sample을 지속적으로 가져와야 하기 때문에 I/O가 intensive하게 이뤄진다. GPU와 같은 accelerator는 이러한 application을 지원하기 위해서 광범위하게 사용되고 있다. 그러나 accelerator가 더욱 강력하고 더 많은 data를 필요로 할수록 I/O performance가 뒤쳐진다. 특히 distributed DLT에서 이러한 performance bottleneck이 중요한 문제가 된다. 동시에 exponential하게 증가하는 dataset size는 이러한 dataset을 전체적으로 메모리에 저장하는 것이 불가능하게 만든다. 현재의 DLT framework는 모든 samples를 균일하게 처리하는 random sampling policy를 사용하지만, 최근 연구 결과는 모든 sample이 각각 중요가 다르고 서로 다른 data sample이 모델 정확도 향상에 다르게 기여한다는 것을 보여준다. 이 관찰 결과는 importance sampling으로 가능한 data locality를 활용하여 DLT I/O optimizations의 기회를 제공한다.

  이를 위해, 저자들은 SHADE라는 새로운 DLT-aware caching system을 설계하고 구현하였다. SHADE라는 per-sample level로 fine-grained importance variation을 감지하고, distributed DLT job에 대한 정보를 활용하여 적절한 caching decision을 내리는 새로운 rank-based approach를 채택한다. SHADE는 또한 training 중에 모든 samples의 중요도 점수를 동적으로 업데이트한다. 이러한 기술로 인해 SHADE는 DLT 작업의 cache hit ratio를 크게 향상시켜 작업의 training performance를 향상시킨다. 대표적인 computer vision (CV) 모델로 평가한 결과, SHADE는 작은 cache에서도 LRU caching policy와 비교하여 최대 4.5배까지 cache hit ratio를 향상시킨다.

 

728x90
Comments