Chapter 5. 빅데이터의 파이프라인
1. 워크플로 관리
[기초 지식] 워크플로 관리 ― 데이터의 흐름을 일원 관리하기
오류로부터의 복구 방법 먼저 생각하기
멱등한 조작으로 태스크를 기술하기 ― 동일 태스크를 여러 번 실행해도 동일한 결과가 된다
워크플로 전체를 멱등으로 하기
태스크 큐 ― 자원의 소비량 컨트롤하기
2. 배치 형의 데이터 플로우
MapReduce의 시대는 끝났다 ― 데이터 플로우와 워크플로
MapReduce를 대신할 새로운 프레임워크 ― DAG에 의한 내부 표현
데이터 플로우와 워크플로를 조합하기
데이터 플로우와 SQL을 나누어 사용하기 ― 데이터 웨어하우스의 파이프라인과 데이터 마트의 파이프라인
3. 스트리밍 형의 데이터 플로우
배치 처리와 스트림 처리로 경로 나누기
배치 처리와 스트림 처리 통합하기
스트림 처리의 결과를 배치 처리로 치환하기 ― 스트림 처리의 두 가지 문제에 대한 대처
아웃 오브 오더의 데이터 처리
4. 정리
Last updated