일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 개념정리
- CS
- 개발
- 에어플로우
- 자료구조
- 프로그래머스
- 관계형데이터베이스
- airflow
- 데이터엔지니어링
- 기술면접
- 취준
- 클라우드
- 웹크롤링
- Service
- SQL
- 부트캠프
- 데이터웨어하우스
- Amazon
- 웹스크래핑
- WEB
- 알고리즘
- 운영체제
- 데이터엔지니어
- 데이터베이스
- DataWarehouse
- 웹자동화
- 데브코스
- 파이썬
- Django
- AWS
- Today
- Total
목록데이터엔지니어 (61)
사진과 음악을 좋아하는 개발자 지망생의 블로그
1. 데이터 파이프라인이란? 1) ETL vs ELT 1. ETL ETL은 데이터를 외부 소스에서 추출하고, 필요한 형식으로 변환한 후, 데이터 웨어하우스에 로드하는 과정을 말합니다. 데이터 웨어하우스 외부에서 데이터를 가져와서 변환한 후에 로드하는 방식으로 동작합니다. 데이터 파이프라인, ETL, 데이터 워크플로우, DAG(Directed Acyclic Graph) 등의 용어로 설명될 수 있습니다. 2. ELT ELT는 데이터 웨어하우스 내부에 데이터를 로드한 후, 데이터를 조작하여 새로운 데이터를 생성하는 프로세스를 의미합니다. ELT는 주로 데이터 분석가들이 수행하는 작업으로, 데이터 레이크(데이터 웨어하우스 이전 단계에서 데이터를 저장하는 곳) 위에서 이러한 작업들이 발생하기도 합니다. 데이터 웨..
1. 시각화 툴이란? 시각화 툴은 데이터를 시각적으로 표현하고 분석하기 위한 도구입니다. 이 도구는 대시보드 혹은 BI (Business Intelligence) 툴로 불리기도 합니다. 주요 성과 지표(KPI), 지표, 중요한 데이터 포인트 등을 데이터를 기반으로 계산, 분석 및 표시해주는 기능을 제공합니다. 이를 통해 의사결정을 내리는 결정권자들에게 데이터 기반 의사결정(Data-Driven Decision)이나 데이터 참고 결정(Data-Informed Decision)을 가능하게 합니다. 시각화 툴은 현업 종사자들이 데이터 분석을 쉽게 수행할 수 있도록 도와줍니다. 시각화 툴은 다양한 형태의 시각화 방법을 제공합니다. 이 도구를 사용하면 데이터를 그래프, 차트, 대시보드, 지도 등 다양한 형식으로 ..
1. Snowflake 사용자 권한 설정 1 - 1. Role과 User 생성 -- 3개의 ROLE을 생성합니다 CREATE ROLE analytics_users; CREATE ROLE analytics_authors; CREATE ROLE pii_users; -- 사용자를 생성합니다 CREATE USER user PASSWORD='user99'; -- 사용자에게 analytics_users 권한을 부여합니다 GRANT ROLE analytics_users TO USER user; 'CREATE ROLE' 문을 사용하여 3개의 ROLE을 생성하고, 'CREATE USER' 문을 사용하여 사용자 'user'을 생성합니다. 마지막으로, 'GRANT ROLE' 문을 사용하여 사용자 'user'에게 'analy..
1. Snowflake 특징 소개 1 - 1. Snowflake 소개 Snowflake는 2014년에 클라우드 기반 데이터 웨어하우스로 시작되어 현재는 데이터 클라우드로 발전한 회사입니다. 2020년에 상장되었으며, 현재는 글로벌 클라우드 환경에서 동작하는 멀티클라우드 플랫폼으로 사용되고 있습니다. Snowflake는 Amazon Web Services (AWS), Google Cloud Platform (GCP), Microsoft Azure와 같은 다양한 클라우드 환경에서 실행될 수 있습니다. Snowflake는 데이터 공유와 마켓플레이스 기능을 제공하여 데이터 판매를 가능하게 해주고 있습니다. 이를 통해 조직은 자체 데이터를 외부 조직과 공유하고 판매함으로써 추가 수익을 창출할 수 있습니다. 또한,..
1. Redshift 관련 유지보수 Amazon Redshift 서비스는 주기적으로 버전 업그레이드를 위해 중단되는 유지보수 창을 가지고 있습니다. 이를 Maintenance window라고도 합니다. Maintenance window 동안에는 일시적으로 Redshift 클러스터의 가용성이 영향을 받을 수 있습니다. 이 유지보수 작업은 Redshift 클러스터의 성능 향상, 보안 패치 및 기능 개선을 위해 필요한 작업입니다. 반면에 Amazon Redshift Serverless는 자동으로 관리되는 서비스이므로 개별적인 유지보수 창이 존재하지 않습니다. 서버리스 모드에서는 AWS가 Redshift 클러스터의 유지보수 및 업그레이드를 자동으로 처리하므로 사용자는 이러한 작업을 직접 관리할 필요가 없습니다...
1. 머신러닝의 정의 머신러닝은 학습 가능한 기계 또는 알고리즘을 개발하는 분야입니다. 머신러닝은 데이터의 패턴을 인식하고 이를 토대로 학습하는 방식으로 작동합니다. 이러한 학습은 트레이닝셋이라고 불리는 데이터를 사용하여 이루어집니다. 머신러닝은 컴퓨터가 스스로 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 딥러닝은 머신러닝의 한 분야로, 신경망을 기반으로 한 기술입니다. 딥러닝은 비전(영상 인식), 자연어 처리(텍스트 및 음성 인식) 등 다양한 영역에서 활용되고 있습니다. 인공지능은 머신러닝을 포괄하는 개념으로, 기계 또는 시스템이 인간의 지능적인 작업을 수행하는 것을 의미합니다. 머신러닝은 인공지능의 일부분으로서, 데이터를 기반으로 스스로 학습하는 알고리즘과 기술을 개발하는 분야입니다..
1. Redshift Spectrum 사용 유스 케이스 Redshift Spectrum는 다음과 같은 유스 케이스에서 유용하게 활용될 수 있습니다 대용량 Fact 테이블이 S3에 파일 형태로 존재: 대용량의 데이터가 S3에 저장되어 있고, 이를 Redshift에 복사하지 않고 직접 활용하고자 할 때 Redshift Spectrum을 사용할 수 있습니다. Redshift Spectrum은 S3 파일들을 외부 테이블로 처리하여 SQL 쿼리를 수행할 수 있게 해줍니다. Redshift에 소규모 Dimension 테이블이 존재: Redshift에 저장된 작은 규모의 Dimension 테이블과 S3에 있는 Fact 테이블을 조인하고자 할 때 Redshift Spectrum을 활용할 수 있습니다. 이를 통해 Red..
1. Redshift Spectrum Redshift Spectrum은 Redshift의 확장 기능으로, S3에 저장된 파일을 SQL로 처리할 수 있도록 해줍니다. Redshift Spectrum을 사용하면 S3의 파일들을 외부 테이블로 처리하여 Redshift 테이블과 조인할 수 있습니다. 일반적으로 S3의 파일들은 외부 테이블로 처리되고, Redshift 테이블들은 차원 테이블로 사용됩니다. Redshift Spectrum을 사용하면 SQL 쿼리를 사용하여 S3의 파일들을 조회하고 분석할 수 있습니다. 이를 통해 대용량 데이터를 빠르게 처리할 수 있습니다. Redshift Spectrum은 스캔한 데이터의 양에 따라 비용이 발생하며, 1TB를 스캔할 때마다 $5의 비용이 발생합니다. Redshift ..