(관심 논문) InftyDedup: Scalable and Cost-Effective CloudTiering with Deduplication

논문/관심 논문

(관심 논문) InftyDedup: Scalable and Cost-Effective CloudTiering with Deduplication

Liam Lim 2023. 3. 19. 13:53

728x90

Iwona Kotlarska, Andrzej Jackowski, Krzysztof Lichota, Michal Welnicki, and Cezary Dubnicki, 9LivesData, LLC; Konrad Iwanicki, University of Warsaw

February 21–23, 2023 • Santa Clara, CA, USA

USENIX Association

21st USENIX Conference on File and Storage Technologies

Abstract

Cloud tiering은 최근 backup solution에서 중요해진 on-premise storage에서 선택한 data를 cloud로 이동시키는 과정을 말한다. 한번 backup이 일어나고 그다음에 일어나는 backup에서는 일반적으로 이전에 backup했던 data가 중복되기 때문에 cloud tiering에서 deduplication(중복 제거)은 # cloud storage utilization(사용률) 및 cost(비용)를 크게 감소시킬 수 있다.

본 논문에서는 cloud tiering과 deduplication(중복 제거)을 위한 새로운 system인 InftyDedup을 소개한다. 기존 solution과는 달리, cloud service를 storage 뿐만 아니라 computation에도 활용하여 scalability를 극대화한다. 동적으로 할당되는 cloud computation resource를 사용하는 distributed batch approach에 따르면 InftyDedup은 몇 달러의 비용으로 multiple source에서 multi-petabyte의 backup을 중복 제거할 수 있다. 또한, 각 data chunk의 특성에 따라 hot and cold cloud storage를 선택함으로써, 전체 비용을 최대 26% ~ 44%까지 줄일 수 있다. InftyDedup은 최신 commercial backup system에 구현되어 hyperscaler cloud에서 평가되었다.

Conclusion

본 논문에서는 deduplication을 사용하는 storage system을 위한 cloud tiering에 대한 새로운 cloud-native approach 방식인 InftyDedup을 제시하였다. 기존의 방법과는 달리, 저자들의 architecture는 cloud tier의 size에 제한을 두지 않고, multiple local tier system에서 deduplication(중복 제거)을 지원한다. 저자들은 commercial storage system(HydraStor, 상용 저장소 시스템)을 위해 InftyDedup을 구현하였으며, public cloud(AWS)에서 평가하였다. 평가 결과, 본 논문의 batch algorithm은 cloud costs(클라우드 비용)를 줄이고, dynamic resource allocation을 활용하기 위해 설계되었으며, multi-petabyte data collection의 metadata를 a couple of dollars 비용으로 처리할 수 있는 deduplication handling의 desired scalability를 보여주었다.

# 용어 정리

# cloud

"Cloud"는 internet을 통해 원격으로 data와 computing resource를 제공하는 기술이다. cloud service를 이용하면 더 이상 local server나 personal PC 등에 data를 저장하지 않아도 된다. 대신 data를 cloud에 저장하고 필요할 때마다 internet을 통해 접근하여 사용할 수 있다. Cloud tiering은 이러한 cloud 기술을 이용하여 on-premise storage에서 선택된 data를 cloud로 이동시키는 process이다. cloud를 이용하면 storage capacity를 확장하거나 유연하게 구성할 수 있으며, data를 안전하게 backup하고 유지할 수 있다. 또한, cloud 기술은 높은 # availability와 security를 제공하여 data loss 및 failure를 최소호하할 수 있다.

# availability(가용성)

"availability"는 system이 사용 가능한 상태로 유지되는 정도나 시간을 의미한다. 즉, User나 Client가 system에 접근하여 service를 이용할 수 있는 정도를 나타낸다.

가용성은 system의 # reliability, # durability(내구성), # recoverability(복구력), # maintainability 등과 밀접한 연관성이 있다. 예를 들어, system의 reliability가 높다면 장애나 고장이 발생할 가능성이 줄어들어 availability가 향상될 수 있다. 또한, system의 durability이나 recoverability가 높다면 장애나 고장 발생 후에도 빠르게 복구하여 가용성(availability)을 유지할 수 있다.

availability는 다양한 산업 분야에서 중요한 요소 중 하나이며, 특히 cloud service와 같은 대규모 distributed system에서는 availability가 높아야 안정적인 서비스를 제공할 수 있다. 이를 위해 backup 및 recovery strategy(복구 전략), load balancing, clustering, availability group 등 다양한 기술과 방법이 사용된다.

# tiering

"Tiering"은 데이터를 여러 단계로 나누어서 저장하는 방식으로, 자주 access하는 데이터는 빠른 디스크에 저장하고, 드물게 access하는 데이터는 느린 disk에 저장하는 등의 방식으로 데이터를 분류하여 저장한다. 이렇게 분류된 데이터를 보다 효율적으로 관리하고 storage space를 절약하는 등의 목적으로 사용된다. cloud service에서도 tiering 기술이 활용되어, 자주 access되는 데이터와 드물게 access되는 data를 구분하여 저장해서 clients의 요구에 따라 빠르게 접근이 가능하도록 한다.

728x90