-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[2024.02.20] chapter3. 빅데이터의 분산 처리 (1) - MY #5
Comments
3-2 쿼리 엔진📌 파이프라인
1. 데이터 구조화
1.5. 열지향 스토리지로 변환
2. 비정규화 테이블 만들기
Hive와 Presto의 차이
2-a. Hive로 비정규화 테이블 만들기👉 서브 쿼리 안에서 레코드 수 줄이기
👉 데이터 편향 피하기
2-b. Presto로 비정규화 테이블 만들기👍 플러그인 가능한 스토리지
👍 CPU 처리의 최적화
👍 인 메모리 처리에 의한 고속화
👍 분산 결합과 브로드캐스트 결합
👍 열 지향 스토리지 집계
🔩비구조화 데이터 ---(데이터 구조화)---> 구조화 데이터(열지향 스토리지) ---(데이터 집약)---> 비정규화 테이블(데이터 마트) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
3-1 대규모 분산 처리의 프레임워크
📁 구조화 데이터(structured data)
📁 비구조화 데이터(unstructured data)
📁 반구조화 데이터 = 스키마리스 데이터(schemaless data)
👉 데이터 구조화의 파이프라인
a. 웹 서버의 로그 파일, 업무용 데이터베이스에서 추출한 마스터 데이터 등
a. MPP 데이터베이스로 전송 or
b. Hadoop 상에서 열 지향 스토리지 형식으로 변환
👉 열 지향 스토리지의 작성
정리
비구조화 데이터 --- (분산 처리 프레임워크) ---> 열 지향 스토리지로 변환
🐘 Hadoop
Hadoop은 분산 시스템을 구성하는 다.수.의 소프트웨어로 이루어진 집합체다.

Hadoop의 구성요소
ex. 분산 파일 시스템 - HDFS, 리소스 관리자 - Mesos, 분산 데이터 처리 - Spark 사용 가능
💾 HDFS
💾 YARN
YARN container
컨테이너라고 하면 가상화 기술 docker를 떠올릴 수도 있다. YARN의 컨테이너는 OS 수준의 가상화 기술이 아니라 어떤 호스트에서 어떤 프로세스를 실행시킬 것인지 결정하는 애플리케이션 수준의 기술이다.
💾 MapReduce
💾 Hive
💾 Hive on Tez
💾 대화형 쿼리 엔진
💫 Spark
→ Spark는 Hadoop이 아닌, MapReduce를 대체한다.
The text was updated successfully, but these errors were encountered: