728x90

2024/12/15 2

Distributed System 19

Apache Projects이전 글에서 작성된 MapReduce는 단일 처리에는 효율적이지만, 다단계 알고리즘에서는 비효율적이다.데이터 공유를 위한 효율적인 기본 기능이 없으며, 단계 간 상태는 분산 파일 시스템으로 저장되어 복제 및 디스크로의 저장으로 인해 속도가 느려지기 때문이다. Disk-based framework(e.g., MapReduce)는 중간 결과를 디스크에 저장하며, 각 쿼리마다 데이터를 디스크에서 다시 로드한다. 따라서 장애 복구가 용이하다. ETL(Extract, Transform, Load)와 같은 작업에 적합하다.Memory-based framework(e.g., Spark)는 중간 결과를 메모리에 유지하여 I/O 비용을 절감한다. 따라서 메모리 가용성에 민감하다. 데이터셋에 적..

DKU/분산처리 2024.12.15

Distributed System 18

Hadoop EcosystemBig data빅데이터는 방대한 양의 데이터를 의미하는 포괄적인 용어다.이 데이터를 효율적으로 처리하기 위한 프레임워크와 연구 개발 (R&D) 이니셔티브를 포함한다. 빅데이터의 3V는 다음과 같다.Volume: 데이터의 방대한 크기Velocity(속도): 데이터의 생성 속도 및 처리 속도 요구사항Variety(다양성): 다양한 데이터 소스와 형식빅데이터는 서로 다른 출처에서 발생하며, 크기와 형식도 다양하다.Velocity는 데이터 생성 속도 뿐만 아니라 데이터 처리 속도를 포함한다. Structured vs Unstructured Data구조적 데이터는 고도로 조직화된 데이터로, 주로 관계형 데이터베이스(relational database)나 데이터 웨어하우스(data wa..

DKU/분산처리 2024.12.15
728x90