본문 바로가기

데이터

(4)
하둡이란? 하둡 에코시스템 구성 요소 Hadoop 하둡은 단일 소프트웨어가 아니라 분산 시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체 분산 시스템의 구성 요소 HDFS, 분산 파일 시스템 하둡에서 처리되는 데이터 대부분은 분산 파일 시스템인 HDFS에 저장된다. YARN, 리소스 관리자 cpu나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리된다. YARN은 애플리케이션이 사용하는 cpu 코어와 메모리를 컨테이너라 불리는 단위로 관리한다. 하둡에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체 부하를 보고 비어 있는 호스트부터 컨테이너를 할당한다. 어느 애플리케이션에 얼마만큼의 리소스를 할당할 지 관리함으로써 모든 애플리케이션이 차질없이 실행되도록 제어한다. MapReduce, 분산 데이터 처리 맵리듀스도 YA..
팩트(fact) 테이블 vs 디멘전(dimension) 테이블 필요한 사전 지식 데이터 마트 vs 데이터 웨어하우스 vs 데이터 레이크 빅데이터를 다를 때 데이터 마트, 데이터 웨어하우스, 데이터 레이크와 같은 용어를 많이 듣게 된다. 각각이 무엇이고 어떻게 다른지 알아보자 데이터 웨어하우스 데이터 웨어하우스(DW)는 축적 juhi.tistory.com 마스터와 트랜잭션 팩트 테이블과 디멘전 테이블을 보기 전에 관계형 모델에서 사용되는 트랜잭션과 마스터의 개념부터 살펴보자 트랜잭션 : 시간과 함께 생성되는 데이터를 기록한 것 → 한 번 기록하면 변화하지 않음 마스터 : 트랜잭션에서 참고되는 각종 정보 → 상황에 따라 다시 쓰임 이 테이블들이 데이터 웨어하우스로 넘어오면서 팩트테이블(트랜잭션)과 디멘전테이블(마스터)이 된다. 위 그림에서 판매이력만 트랜잭션에 해당하고..
데이터 마트 vs 데이터 웨어하우스 vs 데이터 레이크 빅데이터를 다를 때 데이터 마트, 데이터 웨어하우스, 데이터 레이크와 같은 용어를 많이 듣게 된다. 각각이 무엇이고 어떻게 다른지 알아보자 데이터 웨어하우스 데이터 웨어하우스(DW)는 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터 베이스 대량의 데이터를 장기 보존하는 것에 최적화 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않음 중요한 데이터 처리에 사용 대량의 데이터를 보관하기 때문에 데이터 분석과 같은 목적으로 접근하는 것은 과부화를 초래할 수 있기 때문에 부적합하다. (그래서 필요한게 데이터 마트) 데이터 마트 데이터 웨어하우스에서 분석에 필요한 데이터만 추출해서 만든 데이터 베이스 대량의 데이터가 있는 데이터 웨어하우스에서 필요한 데이터를 배치해서 가져온다. 분석 목적으로 사용된다. ..
[airflow] excution_date, macros를 이용해 DAG 실행 시점 지정하기 execution_date 기준 : execution_date의 기준은 utc 필요성 : datetime.now()로 설정하면 특정일에 dag이 실행되지 않아서 다음날 실행하는 경우, backfill로 과거 날짜를 실행하는 경우 등에 문제가 될 수 있음 execution_date에 저장되는 값 전날의 데이터를 배치하고 싶으면 그냥 execution_date를 사용하면 된다. ds, ds_nodash도 마찬가지 → 전날의 데이터를 가져오기 위해 yesterday_ds를 사용하지 않아도 된다. ex) 아래와 같이 설정된 DAG에서 default_args = { 'start_date': datetime(2021, 10, 18), ... } → 처음 실행 시점 : 2021-10-18 → 그때의 execution..