DataLake, Data Mart, Data Warehouse 이란.md

DataLake, Data Mart, Data Warehouse 이란


일반적으로 데이터베이스에 데이터를 저장하고 우리는 데이터를 가지고와서 활용합니다.


여기서 이 데이터베이스에 저장된 데이터를 목적에 맞게 저장하게되고 이 목적에 따라서 우리는 Data Lake, Mart, Warehouse라는 용어로 부를 수 있습니다.


꼭 데이터베이스가 아니더라도 데이터를 저장하는 공간 자체를 목적에 맞게 부르기때문에 데이터베이스가 절대적인 것 같지는 않습니다 ex) 저같은 경우 Apache Hadoop 을 Data Lake로 생각하고 활용했습니다


그렇다면 각각 어떤목적으로 나누는 걸까요?



1. Data Lake(DL, 데이터 레이크)


  • 데이터 레이크는 말 그대로 "데이터 호수" 즉 원본데이터가 포함되며 아무런 작업이 이루어지지않은 저장소 입니다. 쉽게말해 전처리작업도 데이터 형변환 작업 등 아무런 작업이 일어나지 않은 원시 데이터가 저장되어 있습니다.
  • 비유를 해서 설명해드리자면 우리가 과일을 먹기위해서는 우선 수확이라는 과정이 필요하고 이 과일을 수확해서 농장 창고에 담아두는데 이 창고를 데이터레이크 라고 부를 수 있습니다.



2. Data Warehouse(DW, 데이터 웨어하우스)


  • 데이터 웨어하우스는 데이터레이크에서 얻어진 데이터들을 데이터마트에 저장하기 전 주제별로 저장합니다. 여기서 다시한번 저장하는과정 중 버려지는 데이터가 발생할 수 있습니다.
  • 쉽게생각하면 위에서 수확했던 과일을 각 지역별로 분류해서 저장해두거나 과일의 등급에 맞게 다시한번 더 나누어서 저장해둔 형태 로 생각해볼 수 있습니다.



3. Data Mart(DM, 데이터 마트)


  • 데이터마트는 위 데이터하우스로부터 얻어와 바로 활용할 수 있는 형태로 저장된 방식입니다. 프로그램의 목적에 맞게끔 저장할 수도 있고 아니면 광고를위한 영상일 경우 광고 길이에 맞춰 화질과 길이가 이미 처리된 상태의 영상이 담길수도 있습니다.
  • 말 그대로 마트 라는 의미기에 우리가 쉽게 마트에서 물건을 골라 소비할 수 있다고 생각하시면 좋겠습니다.


오늘은 일반적으로 데이터를 저장하는 목적에 따라서 (실무에서나 토이프로젝트 등) 저장된 공간을 의미하는 개념을 알아보았습니다.



 

Reference

+ Recent posts