일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 웹크롤링
- DataWarehouse
- 개발
- 부트캠프
- 에어플로우
- 알고리즘
- 자료구조
- 관계형데이터베이스
- Django
- Amazon
- AWS
- 개념정리
- 웹스크래핑
- 데이터웨어하우스
- CS
- 취준
- 데브코스
- Service
- 파이썬
- 운영체제
- 클라우드
- 데이터베이스
- 프로그래머스
- 데이터엔지니어링
- WEB
- airflow
- 데이터엔지니어
- 웹자동화
- 기술면접
- SQL
- Today
- Total
목록개념정리 (31)
사진과 음악을 좋아하는 개발자 지망생의 블로그
1. Redshift 권한과 보안 1 - 1. Redshift 권한과 보안 개요 Redshift는 Amazon Web Services (AWS)에서 제공하는 데이터 웨어하우스 서비스입니다. Redshift는 데이터 보안과 권한 관리를 위한 다양한 기능을 제공합니다. Redshift에서 사용자별 테이블별 권한 설정은 일반적으로 권장되지 않습니다. 이는 복잡성과 실수 가능성이 높아지기 때문입니다. 대신, 역할(Role) 또는 그룹(Group) 단위로 스키마별 접근 권한을 설정하는 것이 일반적입니다. RBAC(Role Based Access Control)은 Redshift에서 많이 사용되는 접근 권한 관리 방법 중 하나입니다. RBAC를 사용하면 역할 단위로 권한을 부여하고 사용자를 해당 역할에 추가함으로써..
COPY와 AWS IAM COPY 명령어를 사용하여 raw_data 스키마의 3개 테이블에 레코드를 적재하고, 각 테이블을 CREATE TABLE 명령으로 raw_data 스키마 아래에 생성하는 작업을 진행하려고 합니다. 이 과정에서 S3 버킷을 먼저 생성하고, Redshift가 S3에 접근할 수 있도록 역할을 생성하여 Redshift 클러스터에 지정해야 합니다. 아래는 각 단계의 개요와 필요한 작업입니다. ① S3 버킷 생성 AWS 웹 콘솔에서 S3 서비스로 이동하여 새로운 버킷을 생성합니다. 버킷 이름과 옵션을 설정하고, 필요한 경우 액세스 제어 및 구성을 구성합니다. ② Redshift에 S3 접근 권한을 부여하는 IAM 역할 생성 AWS 웹 콘솔에서 IAM 서비스로 이동합니다. 역할을 생성하고, ..
1. Redshit 설치 1 - 1. Redshift 설치 과정 데모 Redshift를 설치하고 설정하는 일반적인 과정은 다음과 같습니다 ① AWS 계정 생성 및 로그인: AWS 웹 사이트(https://aws.amazon.com)에 접속하여 새로운 AWS 계정을 생성하고 해당 계정으로 로그인합니다. ② Redshift 서비스 선택: AWS 콘솔에 로그인한 후, 서비스 메뉴에서 "Redshift"를 선택합니다. ③ 클러스터 생성: Redshift 콘솔에서 "Launch Cluster" 또는 "Create Cluster" 버튼을 클릭하여 새로운 Redshift 클러스터를 생성합니다. 이때 Redshift Serverless를 선택하고 Free Trial인지 확인하십시오. Free Trial은 일정 기간 동..
1. Redshift 특징 Redshift는 AWS에서 제공하는 데이터 웨어하우스 서비스로, 대용량 데이터 처리를 위한 특징을 가지고 있습니다. 몇 가지 주요 특징은 다음과 같습니다 대용량 데이터 처리: Redshift는 최대 2 PB의 데이터까지 처리할 수 있습니다. 처음에는 최소 160GB부터 시작하여 필요에 따라 용량을 점진적으로 증가시킬 수 있습니다. OLAP(Online Analytical Processing): Redshift는 응답 속도가 매우 빠르지는 않기 때문에 프로덕션 데이터베이스로는 적합하지 않습니다. 컬럼 기반 스토리지: Redshift는 데이터를 컬럼 기반으로 저장합니다. 이는 레코드 단위로 저장하는 것이 아니라 각 컬럼을 개별적으로 저장함을 의미합니다. 이러한 구조는 데이터 압축..
1. 데이터 웨어하우스 옵션들 1) AWS Redshift AWS Redshift은 2012년에 시작된 AWS 기반의 데이터 웨어하우스이며, 페타바이트 규모의 데이터 분산 처리를 지원합니다. SQL 쿼리를 사용하여 데이터를 처리할 수 있으며, PostgreSQL과 호환되는 문법을 제공합니다. 또한 Python 사용자 정의 함수 (UDF)를 작성하여 기능을 확장할 수도 있습니다. AWS Redshift는 처음에는 고정 비용 모델로 제공되었지만, 현 가변 비용 모델 (Redshift Serverless)도 지원하고 있습니다. 온디맨드 가격 외에도 예약 가격 옵션도 제공됩니다. 또한 CSV, JSON, Avro, Parquet 등 다양한 데이터 형식을 지원합니다. AWS Redshift는 AWS 내의 다른 서..
1. 데이터 웨어하우스 옵션별 장단점 데이터 웨어하우스 옵션은 클라우드 기반의 솔루션이 주로 사용되며, 확장 가능성과 비용 효율성이 중요한 요소입니다. 다음은 일반적인 데이터 웨어하우스 옵션들과 각각의 장단점에 대한 설명입니다: ① AWS Redshift 고정비용 옵션: 클러스터 크기에 따라 고정된 요금을 지불합니다. 확장 가능성: 스케일 아웃과 스케일 인 기능을 통해 확장 가능합니다. AWS 생태계의 통합 및 호환성을 제공합니다. 데이터 볼륨이 크고 대량의 복잡한 쿼리를 처리해야 할 때 적합합니다. ②구글 클라우드 BigQuery 가변비용 옵션: 쿼리 수행량에 따라 요금을 지불합니다. 확장 가능성: 자동으로 확장되며, 대규모 데이터셋 처리에 효과적입니다. 서버리스 아키텍처로 구성되어 관리 및 운영이 간..
1. 데이터 조직의 비전 1. 신뢰할 수 있는 데이터 데이터 조직의 비전은 신뢰할 수 있는 데이터를 보장하는 것입니다. 이를 위해 데이터 품질을 관리하고 데이터의 정확성, 일관성 및 신뢰성을 유지하는 것이 중요합니다. 데이터의 신뢰성은 조직 내에서 데이터에 기반한 의사결정을 내리고 비즈니스 성과를 개선하는 데 필수적입니다 2. 부가 가치 생성 데이터 조직은 데이터를 사용하여 부가 가치를 창출하는 것을 목표로 합니다. 데이터를 분석하고 인사이트를 도출하여 비즈니스 전략 및 운영 개선에 활용합니다. 데이터 기반의 의사결정은 효율성을 향상시키고 혁신을 촉진하는 데 도움이 됩니다. 이를 통해 경쟁 우위를 확보하고 비즈니스 성과를 향상시킬 수 있습니다. 3. Data is the new oil 이 문구는 데이터의..
이 글은 데이터 웨어하우징의 설계 엔지니어링 측면과 특히 비즈니스 요구사항을 고려하여 데이터를 구조화하고 조직화하는 방법인 차원(dimension) 모델링에 대해 이야기합니다. 데이터 웨어하우스가 어떻게 사용되는지와 비즈니스 인텔리전스(BI)와 데이터 웨어하우징이 어떻게 상호작용하는지 이야기합니다. 또한, 특정 비즈니스 인텔리전스 범주가 데이터 모델을 결정하는 데 어떻게 영향을 미치며, 그에 따른 기본 보고와 온라인 분석 처리가 차원 모델링의 중요성을 설명합니다. 1. 데이터 웨어하우스에서의 '차원 모델링' 차원 모델링은 데이터 웨어하우스의 설계 방법 중 하나로, 데이터를 차원과 척도로 구성하여 분석의 효율성과 이해도를 높이는 방법입니다. 차원 모델링은 데이터 웨어하우스에서 사용되는 중요한 원리입니다. ..