빅데이터를 다를 때 데이터 마트, 데이터 웨어하우스, 데이터 레이크와 같은 용어를 많이 듣게 된다. 각각이 무엇이고 어떻게 다른지 알아보자
데이터 웨어하우스
- 데이터 웨어하우스(DW)는 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터 베이스
- 대량의 데이터를 장기 보존하는 것에 최적화
- 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음
- 중요한 데이터 처리에 사용
- 대량의 데이터를 보관하기 때문에 데이터 분석과 같은 목적으로 접근하는 것은 과부화를 초래할 수 있기 때문에 부적합하다. (그래서 필요한게 데이터 마트)
데이터 마트
데이터 웨어하우스에서 분석에 필요한 데이터만 추출해서 만든 데이터 베이스
- 대량의 데이터가 있는 데이터 웨어하우스에서 필요한 데이터를 배치해서 가져온다.
- 분석 목적으로 사용된다.
데이터 레이크
모든 데이터를 원래의 형태로 축적해두고 나중에 그것을 필요헤 때라 가공하는 구조
- 임의의 데이터를 저장할 수 있는 분산 스토리지
- 그것만으로는 데이터를 가공할 수 없음 → mapReduce 등의 분산 데이터 처리 기술이 필요
- 데이터웨어하우스 처럼 필요한 데이터를 집계, 가공해서 데이터 마트로 추출해서 쓸 수 있다.
반응형
'데이터' 카테고리의 다른 글
하둡이란? 하둡 에코시스템 구성 요소 (0) | 2022.06.08 |
---|---|
팩트(fact) 테이블 vs 디멘전(dimension) 테이블 (0) | 2022.05.03 |
[airflow] excution_date, macros를 이용해 DAG 실행 시점 지정하기 (0) | 2022.01.05 |