서문
Azure Data Factory(ADF)는 Microsoft Azure에서 제공하는 현대적인 데이터 통합 도구입니다.
이번 강의에서 배울 내용은 다음과 같습니다.
ADF에서 첫 작업을 생성하고 실행하는 방법을 보여주며(to create and execute first job in ADF),
활동을 분기하고 연결하는 방법 (how to branch and chain activities)
사용자 정의 활동을 생성하고 파이프라인을 예약하는 방법들(how to create custom activities and schedule pipelines)을 배울 수 있습니다.
또한 빅데이터 분석에서 자주 사용하는 cloud data warehousing (클라우드 데이터 웨어하우징), Azure Synapse Analytics, Azure Data Lake Storage Gen2, Databricks의 이점을 발견할 수 있습니다.
실용적인 레시피를 통해 Azure Data Services의 분석 도구를 활용하고 온프레미스 인프라를 클라우드 네이티브 도구와 결합하여 비즈니스 인사이트를 얻는 방법을 배웁니다.
진행하면서 가장 많이 사용되는 Azure 서비스를 ADF에 통합하고, Azure 서비스가 ETL 파이프라인 설계에 어떻게 유용한지 이해하게 됩니다.
강의를 통해 ADF 작업 중 발생할 수 있는 일반적인 오류를 다루고, Azure 포털을 사용하여 파이프라인을 모니터링하는 방법을 안내합니다. 또한 ADF의 디버깅 기능을 사용하여 커넥터와 데이터 흐름의 문제를 해결하는 방법을 배웁니다.
최신 Microsoft Fabric 기술도 다루며, 이 기술이 데이터 통합 및 오케스트레이션 기능을 어떻게 향상시키는지 탐구합니다.
이 책을 마치면 ADF를 주요 ETL 및 오케스트레이션 도구로 사용하여 데이터 웨어하우스 및 데이터 플랫폼 프로젝트를 수행할 수 있게 됩니다.
이 책의 대상
이 책은 ETL 개발자, 데이터 웨어하우스 및 ETL 아키텍트, 소프트웨어 전문가, 그리고 Microsoft의 ADF, Synapse Analytics, Fabric을 사용하여 전통적 및 하이브리드 ETL 솔루션을 개발하는 동안 직면하는 일반적이고 비일반적인 문제를 배우고자 하는 모든 사람을 위한 것입니다. 기존 ETL 파이프라인을 개선하거나 강화하기 위한 ADF 레시피를 찾고 있는 사람들에게도 유용합니다. 데이터 웨어하우스에 대한 기본 지식이 필요합니다.
책의 내용
- Chapter 1: Getting Started with ADF
- Azure 데이터 플랫폼에 대한 일반적인 소개.
- ADF 인터페이스와 옵션, 일반적인 사용 사례 학습.
- Azure 포털에서 ADF를 찾아 첫 번째 ADF 작업을 생성하는 실습.
- Chapter 2: Orchestration and Control Flow
- ADF에서 데이터 처리의 기본 구성 요소 소개.
- 연결된 서비스 및 데이터셋 설정, 다양한 활동 사용, 데이터 처리 워크플로우 설계, 데이터 전송 트리거 생성 실습.
- Chapter 3: Setting Up Synapse Analytics
- 클라우드 데이터 웨어하우징과 Azure Synapse Analytics의 주요 기능 및 이점.
- Azure Synapse Analytics 연결 및 구성, 데이터 로드, 변환 프로세스 구축, 데이터 흐름 운영 학습.
- Chapter 4: Working with Data Lake and Spark Pools
- Azure Data Lake Storage Gen2의 주요 기능.
- 빅데이터 분석을 위한 멀티모달 클라우드 스토리지 솔루션.
- 분석에 사용할 데이터셋 로드 및 관리.
- Chapter 5: Working with Big Data and Databricks
- Azure의 데이터 서비스에서 분석 도구 활용.
- Azure Databricks를 사용하여 Delta Lake에서 데이터 모델 구축 및 데이터 흐름 매핑.
- HDInsights 클러스터 설정 및 델타 테이블 작업.
- Chapter 6: Data Migration – Azure Data Factory and Other Cloud Services
- AWS 및 Google Cloud에서 데이터 마이그레이션 예제.
- Microsoft의 기본 커넥터를 지원하지 않는 공급자와 작업하기 위한 ADF의 사용자 정의 활동 사용.
- Chapter 7: Extending Azure Data Factory with Logic Apps and Azure Functions
- Azure Logic Apps 및 Azure Functions와의 통합을 통해 서버리스 실행 활용.
- ETL 파이프라인 설계에 유용한 Azure 서비스 이해.
- Chapter 8: Microsoft Fabric and Power BI, Azure ML, and Cognitive Services
- 사전 구축된 Azure ML 모델을 사용하는 ADF 파이프라인 구축.
- 텍스트 데이터 분석을 위한 Azure AI를 활용한 ADF 파이프라인 생성 및 실행.
- Microsoft Fabric Data Factory의 주요 구성 요소 학습.
- Chapter 9: Managing Deployment Processes with Azure DevOps
- Azure DevOps를 사용하여 ADF의 데이터 분석 솔루션에 대한 CI 및 CD 설정.
- Visual Studio Code를 사용하여 ADF 변경 사항 배포.
- Chapter 10: Monitoring and Troubleshooting Data Pipelines
- ADF 파이프라인 관리 및 모니터링 도구 소개.
- 파이프라인 실패 시 문제 해결, 디버깅, 알림 설정, 통합 런타임 문제 식별.
- Chapter 11: Working with Azure Data Explorer
- ADF에서 Azure Data Explorer로 데이터 수집 파이프라인 설정.
- Azure Storage에서 JSON 데이터 수집 및 ADF 활동을 통한 데이터 변환 학습.
- Chapter 12: The Best Practices of Working with ADF
- ADF 프로젝트의 효율성, 보안성, 확장성을 높이는 필수 고려 사항, 전략 및 실용적인 ADF 레시피.
최대한 활용하기 위한 준비 사항
- 기본 지식: 데이터 웨어하우스에 대한 기본 지식이 필요합니다.
- Azure 구독: 책의 모든 레시피를 따라하기 위해 Azure 구독이 필요합니다. 유료 구독을 사용하는 경우, 사용 후 서비스를 일시 중지하거나 삭제하여 높은 사용 비용을 피하세요.
책에서 다루는 소프트웨어/하드웨어
- 운영 체제 요구 사항
- Azure 구독 (portal.azure.com)
- Windows, macOS, 또는 Linux
- 필요한 소프트웨어
- SQL Server Management Studio (Windows)
- Azure Data Studio (Windows, macOS, 또는 Linux)
- Power BI 또는 Microsoft Fabric 구독 계정 (Windows, macOS, 또는 Linux)
디지털 버전 사용 시 주의 사항
- 디지털 버전을 사용하는 경우, 코드를 직접 입력하거나 GitHub 저장소에서 코드를 접근하는 것이 좋습니다. 이렇게 하면 복사 및 붙여넣기와 관련된 잠재적인 오류를 피할 수 있습니다.
예제 코드 파일 다운로드
- GitHub 저장소: 이 책의 예제 코드 파일은 GitHub에서 다운로드할 수 있습니다. Azure Data Factory Cookbook Second Edition GitHub에서 확인하세요. 코드가 업데이트될 경우, 해당 GitHub 저장소에 반영됩니다.
- 기타 코드 번들: Packt의 다양한 책과 비디오에서 제공하는 다른 코드 번들도 PacktPublishing GitHub에서 확인할 수 있습니다.
컬러 이미지 다운로드
- PDF 파일: 책에서 사용된 스크린샷/다이어그램의 컬러 이미지를 포함한 PDF 파일을 제공합니다. 여기에서 다운로드할 수 있습니다.
사용된 표기법
이 책에서는 여러 가지 텍스트 표기법이 사용됩니다:
- CodeInText: 텍스트 내에서 코드 단어, 데이터베이스 테이블 이름, 폴더 이름, 파일 이름, 파일 확장자, 경로 이름, 가상 URL, 사용자 입력, 트위터 핸들을 나타냅니다. 예: “Mount the downloaded WebStorm-10*.dmg disk image file as another disk in your system.”
- 코드 블록: 코드 블록은 다음과 같이 설정됩니다:
[default] exten => s,1,Dial(Zap/1|30) exten => s,2,Voicemail(u100) exten => s,102,Voicemail(b100) exten => i,1,Voicemail(s0)
- 강조된 코드: 코드 블록의 특정 부분에 주의를 끌고자 할 때, 관련 줄이나 항목을 굵게 표시합니다:
[default] exten => s,1,Dial(Zap/1|30) exten => s,2,Voicemail(u100) exten => s,102,Voicemail(b100) exten => i,1,Voicemail(s0)
- 명령줄 입력/출력: 명령줄 입력 또는 출력은 다음과 같이 작성됩니다:
# cp /usr/src/asterisk-addons/configs/cdr_mysql.conf.sample /etc/asterisk/cdr_mysql.conf
- 굵은 글씨: 새로운 용어, 중요한 단어, 또는 화면에 표시되는 단어를 나타냅니다. 예를 들어, 메뉴나 대화 상자에서 볼 수 있는 단어는 이렇게 표시됩니다. 예: “Select System info from the Administration panel.”
Preface | Azure Data Factory Cookbook – Second Edition (packtpub.com)
Curriculum
- 10 Sections
- 5 Lessons
- 10 Weeks
- Lession 1. Getting Started with ADF4
- Lesson 2. Orchestration and Control Flow0
- Lesson 3. Setting Up Synapse Analytics0
- Lesson 4. Working with Data Lake and Spark Pools0
- Lesson 5. Working with Big Data and Databricks0
- Lesson 6. Data Migration – Azure Data Factory and Other Cloud Services0
- Lesson 7. Extending Azure Data Factory with Logic Apps and Azure Functions1
- Lesson 9. Managing Deployment Processes with Azure DevOps0
- Lesson 10. Monitoring and Troubleshooting Data Pipelines0
- Lesson 11. Working with Azure Data Explorer0