(관심 논문) PERSEUS: A Fail-Slow Detection Framework for Cloud Storage Systems
Ruiming Lu1*, Erci Xu3,1*, Yiming Zhang2†, Fengyi Zhu3 , Zhaosheng Zhu3 , Mengtian Wang3 , Zongpeng Zhu3 , Guangtao Xue1†, Jiwu Shu2 , Minglu Li1,4 , and Jiesheng Wu3
1Shanghai Jiao Tong University, 2Xiamen University, 3Alibaba Inc., and 4Zhejiang Normal University
February 21–23, 2023 • Santa Clara, CA, USA
USENIX Association
21st USENIX Conference on File and Storage Technologies
Abstract
본 논문은 software와 hardware에서 발생하는 "fail-slow" 현상이란 문제를 다루고 있다. 이는 이상이 생긴 hardware가 여전히 동작하지만 성능이 저하된 상태인 경우를 의미한다. 이 문제를 해결하기 위해, 본 논문에서는 storage device를 대상으로한 fail-slow detection framework인 PERSEUS를 제안한다. PERSEUS는 light regression-based model을 활용하여 drive 수준에서 fail-slow failures를 빠르게 탐색하고 분석할 수 있다. 10개월간 248K개 drive의 모니터링한 결과, PERSEUS는 304개의 fail-slow case들을 찾을 수 있었다. 이를 분리함으로써, node-level에서 99.99% tail latency를 48% 감소시킬 수 있었다. 저자들은 production trace data에서 대규모 fail-slow dataset (normal drive 41K개와 검증된 fail-slow drive 315개를 포함한)를 구축하였고, 이를 기반으로 ill-implemented scheduling, hardware defects, environmental factor(환경 요인) 등 다양한 원인에 대한 fail-slow drive의 원인 분석을 제공한다. 이 dataset은 fail-slow 연구를 위해 공개되었다.
Conclusion
본 논문에서는, large-scale(대규모) storage systems의 robust and non-intrusive fail-slow detection을 개발하는 과정에서 실패한 시도들을 먼저 공유한다. 그 후, PERSEUS의 design을 소개하며, classic machine learning techniques와 scoring mechanism을 활용해서 효과적인 fail-slow detection을 달성한다. PERSEUS는 # batch candidate approach를 사용해서 약 250K 개의 drive를 대상으로 304개의 fail-slow drive를 성공적으로 식별하였다
# 용어 설명
# batch candidate approach(매치 후보군 접근법)
"batch candidate approach"는 machine learning classification model을 사용하여 data를 여러 그룹으로 분할하고, 각 group에 대한 분류 결과를 바탕으로 batch candidate를 선정하는 방법이다. 일반적으로 이 방법은 large-scale dataset에서 classification model의 실행 시간을 줄이기 위해 사용된다.
batch candidate approach에서는 dataset을 여러 개의 작은 그룹으로 분할한 다음, 각 group에 대해 machine learning model을 실행한다. 이 model은 각 group을 성공 또는 실패로 분류한다. 그리고 성공한 그룹은 candidate로 선택되어 이후 batch 처리를 받게 된다. 이렇게 하면 전체 dataset에 대한 classification을 한 번에 수행하는 것보다 훨씬 빠르게 분류할 수 있으며, batch 처리에 필요한 시간과 자원을 절약할 수 있다.
#