Apache Hadoop은 널리 사용되는 분산 데이터 플랫폼입니다. 하나의 대형 컴퓨터를 사용하여 데이터를 저장하고 처리하는 대신, 대규모 데이터셋을 효율적으로 처리할 수 있게 해 줍니다.
이 강의는 Hadoop 생태계에 대한 기초를 다지고, MapReduce, YARN, HDFS와 같은 주요 기술 주제를 소개합니다. 또한 빅데이터와 Apache Hadoop의 개요로 시작합니다. 그런 다음, 의사 Hadoop 개발 환경과 다중 노드 기업 Hadoop 클러스터를 설정하게 됩니다. MapReduce와 같은 병렬 프로그래밍 패러다임이 복잡한 데이터 처리 문제를 어떻게 해결할 수 있는지 보게 될 것입니다.
소프트웨어 개발 수명 주기의 중요한 측면인 품질 보증 및 통제, 성능, 관리, 모니터링에 대해 다룹니다. 이후에 Hadoop 생태계와 Kafka, Sqoop, Flume, Pig, Hive, HBase와 같은 도구에 대해 배우게 됩니다. 마지막으로 Apache Storm을 사용한 실시간 스트리밍과 Apache Spark를 사용한 데이터 분석 등 고급 주제를 살펴봅니다.
이 강의가 마칠 때쯤이면, 여러분은 다양한 Hadoop 3 클러스터 설정에 대해 잘 알게 될 것입니다.
Chapter One: Hadoop 3.0 소개 – 배경
우리의 세계는 계속해서 발전하고 있으며, 자동화된 전화 시스템에서부터 지능적인 결정을 내리는 스마트 기기, 자율주행차, 휴머노이드 로봇으로 변화하고 있습니다. 이 모든 것은 대량의 데이터를 처리하고 분석하는 것에 의존하고 있습니다. 우리는 데이터가 지배하는 새로운 시대에 빠르게 진입하고 있습니다. 2017년에 발표된 IDC 백서에 따르면, 데이터의 진화에 따라 2025년에는 데이터 양이 163제타바이트(1 제타바이트 = 1조 테라바이트)에 이를 것으로 예상되며, 이는 아날로그 데이터의 디지털화에 의해 촉진될 것입니다. 이 데이터의 폭발적인 증가세는 산업 공장과 가정의 IoT 기기부터 스마트 미터기, 소셜 미디어, 웨어러블 기기, 모바일 폰 등 다양한 기기에서 비롯될 것입니다.
우리의 일상생활 속에서도 우리는 이러한 변화에 적극적으로 참여하고 있습니다. 예를 들어, 나는 2000년에 휴대전화를 사용하기 시작했는데, 그 당시 휴대전화는 전화, 손전등, 라디오, SMS와 같은 기본 기능을 제공하며 거의 데이터를 생성하지 않았습니다. 오늘날 나는 사진, 내비게이션 기록, 스마트워치의 건강 지표 등 기가바이트의 데이터를 인터넷을 통해 다양한 기기와 공유할 수 있는 4G LTE 스마트폰을 사용하고 있습니다. 이 데이터는 스마트한 의사 결정을 가능하게 합니다.
다음은 빅데이터의 실제 사용 사례입니다:
- Facebook과 Instagram과 같은 플랫폼은 얼굴 인식 기술을 사용하여 사진을 식별하고 분류하며 친구 제안을 제공합니다.
- Google과 Amazon 같은 회사는 탐색 패턴 및 위치 데이터를 분석하여 사용자 행동을 기반으로 자동화된 쇼핑 추천을 제공합니다.
- 정부 기관은 CCTV 카메라, 소셜 미디어, 네트워크 트래픽, 통신 데이터를 사용하여 범죄자를 추적하고 위협 및 잠재적인 테러 활동을 예측합니다.
- 기업들은 소셜 미디어 게시물에 대한 감성 분석을 통해 제품 품질을 향상시키고 브랜드 가치를 높이며 목표된 성장을 추진합니다.
- 우리는 매 분마다 2억 4백만 개의 이메일을 보내고, Flickr에서 2천만 개의 사진을 보고, Google에서 2백만 건의 검색을 수행하며 Facebook에서 180만 개의 좋아요를 생성합니다.
데이터가 확장됨에 따라 빠르고 확장 가능한 방식으로 데이터를 처리, 저장 및 분석하는 요구가 증가하고 있습니다. 우리는 이러한 요구를 수용할 준비가 되어 있을까요? 수년 동안 컴퓨터 시스템과 저장 용량은 발전했지만 대량의 데이터를 신속하게 읽고 쓰는 능력은 아직 이러한 요구를 따라가지 못하고 있습니다. 또한, 다양한 소스에서 다양한 형식으로 오는 데이터는 유의미한 정보를 생성하기 위해 통합되어야 합니다. 예를 들어, 모바일 위치 데이터, 청구 정보, 신용카드 정보를 조합하면 개인의 음식 관심사, 사회적 지위, 재정적 역량을 파악할 수 있습니다. 빅데이터 활용의 잠재력은 엄청나지만, 오늘날의 기업들은 아직 그 표면을 겨우 긁고 있을 뿐이고, 여전히 저장 및 처리 문제에 씨름하고 있습니다.
이 장에서는 Apache Hadoop에 대한 탐구의 기초를 다지며 다음과 같은 주요 주제를 다룰 것입니다:
- Hadoop의 기원
- Apache Hadoop이 무엇이며 그 중요성
- Apache Hadoop의 작동 원리
- Hadoop 3.0의 새로운 기능과 릴리스
- 적절한 Hadoop 배포 선택
============= 원서 ========================
Curriculum
- 3 Sections
- 22 Lessons
- 10 Weeks
- 01 Hadoop 3.0 - Background and Introduction6
- 02 Planning and Setting Up Hadoop Clusters8
- 03 Deep Dive into the Hadoop Distributed File System8