본문 바로가기

데이터

데이터 마트 vs 데이터 웨어하우스 vs 데이터 레이크

빅데이터를 다를 때 데이터 마트, 데이터 웨어하우스, 데이터 레이크와 같은 용어를 많이 듣게 된다. 각각이 무엇이고 어떻게 다른지 알아보자

데이터 웨어하우스

  • 데이터 웨어하우스(DW)는 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터 베이스
  • 대량의 데이터를 장기 보존하는 것에 최적화
  • 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음
  • 중요한 데이터 처리에 사용
  • 대량의 데이터를 보관하기 때문에 데이터 분석과 같은 목적으로 접근하는 것은 과부화를 초래할 수 있기 때문에 부적합하다. (그래서 필요한게 데이터 마트)

데이터 마트

데이터 웨어하우스에서 분석에 필요한 데이터만 추출해서 만든 데이터 베이스 

  • 대량의 데이터가 있는 데이터 웨어하우스에서 필요한 데이터를 배치해서 가져온다.
  • 분석 목적으로 사용된다. 

데이터 레이크

모든 데이터를 원래의 형태로 축적해두고 나중에 그것을 필요헤 때라 가공하는 구조

  • 임의의 데이터를 저장할 수 있는 분산 스토리지
  • 그것만으로는 데이터를 가공할 수 없음 → mapReduce 등의 분산 데이터 처리 기술이 필요
  • 데이터웨어하우스 처럼 필요한 데이터를 집계, 가공해서 데이터 마트로 추출해서 쓸 수 있다.

반응형