일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머스
- airflow
- CS
- 웹스크래핑
- 데이터웨어하우스
- 데이터엔지니어
- DataWarehouse
- 부트캠프
- 웹크롤링
- 데이터엔지니어링
- AWS
- 웹자동화
- 데이터베이스
- 에어플로우
- Django
- 파이썬
- 알고리즘
- WEB
- 운영체제
- Service
- 자료구조
- 취준
- SQL
- 데브코스
- 기술면접
- Amazon
- 개념정리
- 클라우드
- 관계형데이터베이스
- 개발
- Today
- Total
목록데이터엔지니어 (61)
사진과 음악을 좋아하는 개발자 지망생의 블로그
1. ETL vs ELT ETL과 ELT는 데이터 웨어하우스 환경에서 데이터를 처리하는 방법을 나타내는 용어입니다. ETL은 "Extract, Transform, Load"의 약자로, 데이터를 다양한 소스에서 추출한 다음 변환하여 데이터 웨어하우스나 데이터 마트에 로드하는 작업입니다. 예를 들어, 여러 소스 애플리케이션에서 데이터를 추출하는데 일정한 주기(예: 매 시간, 매주, 매 5분)로 배치 단위로 추출합니다. 추출한 데이터는 원시 상태로 데이터 웨어하우스 환경에 가져옵니다. 그리고 데이터를 사용자가 접근하는 곳이 아닌 스테이징 레이어에 저장합니다. 이후 변환 단계에서는 다양한 소스에서 가져온 데이터를 통일된 형태로 변환하여 사용자 액세스 레이어에 로드할 준비를 합니다. 이 변환 단계는 데이터 구조나..
1. 중앙집중화된 데이터 웨어하우스 (Centralized Data Warehouse) 구축 중앙집중화된 데이터 웨어하우스(Centralized Data Warehouse)는 하나의 데이터 웨어하우징 환경으로, 여러 구성 요소로 구성되는 것이 아니라 단일한 데이터베이스로 이루어진 환경입니다. 이러한 중앙집중화된 데이터 웨어하우스는 데이터를 한 곳에서 쉽게 찾고 사용할 수 있도록 합니다. 중앙집중화된 데이터 웨어하우스 주요 이점은 원스톱 쇼핑을 가능하게 해 줍니다. 즉, 리포팅, 비즈니스 의사결정, 분석에 필요한 모든 데이터가 한 곳에 모여있어 사용자가 효율적으로 데이터를 활용할 수 있습니다. 하지만 중앙집중화된 데이터 웨어하우스 구축은 쉬운 일이 아닙니다. 1980~1990년대에 기술적인 어려움이 많았으..
1. 데이터 웨어하우스(Data Warhouse)란? 물리적인 제품이 아닌 데이터로 채워진 큰 저장소인 데이터 웨어하우스는 데이터베이스와 관련이 있지만, 일반적으로 데이터베이스 위에 구축됩니다. 데이터 웨어하우스는 데이터를 효율적으로 저장하고 플랫폼으로 사용되며, 다양한 소스 시스템과 외부 정보원으로부터 데이터를 받습니다. 이러한 데이터는 소스 시스템에 그대로 남아있고, 데이터 웨어하우스로는 복사본이 만들어집니다. 데이터 웨어하우스는 여러 거래 및 운영 시스템에서 발생하는 다양한 데이터를 수집합니다. 이 데이터는 데이터 웨어하우스로 전송되어 저장됩니다. 수십 개의 데이터 원본을 가지고 있는 경우, 데이터 웨어하우스 환경은 더 복잡해질 수 있습니다. 데이터 웨어하우스는 단순히 데이터를 저장하는 것 뿐만 아..
1. AWS CLI 1) AWS 명령줄 인터페이스 - AWS CLI는 AWS 서비스를 관리하는 통합 도구 - 도구 하나만 다운로드하여 구성하면 여러 AWS 서비스를 명령줄에서 제어하고 스크립트를 통해 자동화 할 수 있다 ※ ASW CLI 설치 가이드 문서 최신 버전의 AWS CLI 설치 또는 업데이트 - AWS Command Line Interface 이전 버전에서 업데이트하는 경우 unzip 명령을 실행하면 기존 파일을 덮어쓸지 묻는 메시지가 표시됩니다. 스크립트 자동화와 같은 경우에 이러한 프롬프트를 건너뛰려면 unzip에 대한 -u 업데이 docs.aws.amazon.com 2) AWS CLI을 작업 수행 목록 ① 인프라 구성 관리 - 인스턴스 생성, 네트워크 구성, 스토리지 설정 등과 같은 인프라..
CI / CD 1) CI? CD? - CI (Continuous Integration, 지속적 통합) → 모든 개발자가 개발한 코드를 공유 리포지토리에 하루에도 여러번 코드를 커밋하고 병합하는 것 - CD (Continuous Delivery, 지속적 전달) → 개발팀이 짧은 주기로 소프트웨어를 개발하고 언제든지 운영환경으로 안정적으로 배포하는 것 2) CodeCommit - Amazon Web Services 호스팅되는 버전 관리 서비스 - 클라우드에서 자산 (예: 문서, 소스 코드, 바이너리 파일)을 비공개로 저장하여 관리하는 데 사용할 수 있도록 함 3) Code Commit 특징 ① Benefit from a fully managed service hosted by AWS - AWS CodeCom..
Amazon Simple Storage Service(Amazon S3) 1) Amazon S3 - 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스 - 데이터 레이크, 웹 사이트, 모바일 애플리케이션, 백업 및 복원, 아카이브, 엔터프라이즈 애플리케이션, IoT 디바이스, 빅 데이터 분석 등 다양한 사용 사례에서 원하는 양의 데이터를 저장하고 보호할 수 있다 - 특정 비즈니스, 조직 및 규정 준수 요구 사항에 맞게 데이터에 대한 액세스를 최적화, 구조화 및 구성할 수 있는 관리 기능을 제공 2) S3 기능 ① 스토리지 클래스 (Storage Classes) - S3에서는 다양한 스토리지 클래스를 제공하여 데이터를 저장하는 방식을 선택할 수 있음 - 이는 데이터의 액세스..
AWS Identity and Access Management (IAM) 1) Identity and Access Management - AWS 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스이 - AM을 사용하여 리소스를 사용하도록 인증(로그인) 및 권한 부여(권한 있음)된 대상을 제어 - AWS 계정을 생성할 때 관리자 수준의 액세스 권한을 갖는 단일 로그인 ID를 생성한다 - AWS 계정 생성 시 지정한 이메일 주소와 비밀번호로 로그인하면 루트 사용자로서 액세스할 수 있다 - 일상적인 작업에 루트 사용자를 사용하지 않을 것을 강력히 권장되며, 보안 및 권한 관리를 위해 IAM을 사용하여 세분화된 액세스 권한을 설정하는 것이 권장됨 2) IAM 특징 ① AWS 계정에 대한 공유 - IAM을..
1. Route53 1) Route53 - 아마존 웹 서비스(AWS)에서 제공하는 관리형 DNS(Domain Name System) 서비스로 가용성과 확장성이 뛰어나다 - Route53을 사용하여 도메인 등록, DNS 라우팅, 상태 확인을 조합하여 실행할 수 있다 2) Route53 특징 - Public Hosted Zone과 Private Hosted Zone이라는 두 가지 유형의 호스팅 영역을 제공 ① Public Hosted Zone (공개 호스팅 영역) - 인터넷에 공개적으로 접근 가능한 도메인에 대한 DNS 레코드를 관리 * DNS레코드: 도메인 이름과 IP 주소 간의 매핑 정보를 저장하는 데이터 항목 - 이 유형의 호스팅 영역은 인터넷 사용자가 도메인 이름을 사용하여 웹 사이트에 액세스하거나,..