일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터엔지니어링
- 웹스크래핑
- 파이썬
- 데이터베이스
- airflow
- 데브코스
- 데이터엔지니어
- 웹자동화
- 에어플로우
- SQL
- Amazon
- CS
- 웹크롤링
- 자료구조
- 클라우드
- AWS
- 알고리즘
- Django
- 운영체제
- 개념정리
- WEB
- 프로그래머스
- 관계형데이터베이스
- 데이터웨어하우스
- DataWarehouse
- 부트캠프
- Service
- 취준
- 기술면접
- 개발
- Today
- Total
목록프로그래머스 (64)
사진과 음악을 좋아하는 개발자 지망생의 블로그
상황 docker-compose up -d를 실행한 후 airflow 로컬 UI에 들어갔으나 에러가 발생하여, 확인해보니 다음과 같은 에러가 발생하였다 [2023-06-20 06:52:51,575] {triggerer_job.py:348} ERROR - Triggerer's async thread was blocked for 0.52 seconds, likely by a badly-written trigger. Set PYTHONASYNCIODEBUG=1 to get more information on overrunning coroutines. Airflow에서 트리거 문제의 원인으로 여러가지(트리거의 작업 차단, 너무 많은 트리거, 콜백 실행 중 Airflow 작업자 비정상 종료, 트리거의 무한 루프,..
정확히는 다음과 같이 에러가 발생했 airflow-scheduler_1 | airflow-worker_1 | .................... airflow-worker_1 | ERROR! Maximum number of retries (20) reached. airflow-worker_1 | airflow-worker_1 | Last check result: airflow-worker_1 | $ airflow db check airflow-worker_1 | Unable to load the config, contains a configuration error. airflow-worker_1 | Traceback (most recent call last): airflow-worker_1 | File..

1. 데이터 파이프라인이란? 1) ETL vs ELT 1. ETL ETL은 데이터를 외부 소스에서 추출하고, 필요한 형식으로 변환한 후, 데이터 웨어하우스에 로드하는 과정을 말합니다. 데이터 웨어하우스 외부에서 데이터를 가져와서 변환한 후에 로드하는 방식으로 동작합니다. 데이터 파이프라인, ETL, 데이터 워크플로우, DAG(Directed Acyclic Graph) 등의 용어로 설명될 수 있습니다. 2. ELT ELT는 데이터 웨어하우스 내부에 데이터를 로드한 후, 데이터를 조작하여 새로운 데이터를 생성하는 프로세스를 의미합니다. ELT는 주로 데이터 분석가들이 수행하는 작업으로, 데이터 레이크(데이터 웨어하우스 이전 단계에서 데이터를 저장하는 곳) 위에서 이러한 작업들이 발생하기도 합니다. 데이터 웨..

1. 시각화 툴이란? 시각화 툴은 데이터를 시각적으로 표현하고 분석하기 위한 도구입니다. 이 도구는 대시보드 혹은 BI (Business Intelligence) 툴로 불리기도 합니다. 주요 성과 지표(KPI), 지표, 중요한 데이터 포인트 등을 데이터를 기반으로 계산, 분석 및 표시해주는 기능을 제공합니다. 이를 통해 의사결정을 내리는 결정권자들에게 데이터 기반 의사결정(Data-Driven Decision)이나 데이터 참고 결정(Data-Informed Decision)을 가능하게 합니다. 시각화 툴은 현업 종사자들이 데이터 분석을 쉽게 수행할 수 있도록 도와줍니다. 시각화 툴은 다양한 형태의 시각화 방법을 제공합니다. 이 도구를 사용하면 데이터를 그래프, 차트, 대시보드, 지도 등 다양한 형식으로 ..

1. Snowflake 사용자 권한 설정 1 - 1. Role과 User 생성 -- 3개의 ROLE을 생성합니다 CREATE ROLE analytics_users; CREATE ROLE analytics_authors; CREATE ROLE pii_users; -- 사용자를 생성합니다 CREATE USER user PASSWORD='user99'; -- 사용자에게 analytics_users 권한을 부여합니다 GRANT ROLE analytics_users TO USER user; 'CREATE ROLE' 문을 사용하여 3개의 ROLE을 생성하고, 'CREATE USER' 문을 사용하여 사용자 'user'을 생성합니다. 마지막으로, 'GRANT ROLE' 문을 사용하여 사용자 'user'에게 'analy..

1. Snowflake 특징 소개 1 - 1. Snowflake 소개 Snowflake는 2014년에 클라우드 기반 데이터 웨어하우스로 시작되어 현재는 데이터 클라우드로 발전한 회사입니다. 2020년에 상장되었으며, 현재는 글로벌 클라우드 환경에서 동작하는 멀티클라우드 플랫폼으로 사용되고 있습니다. Snowflake는 Amazon Web Services (AWS), Google Cloud Platform (GCP), Microsoft Azure와 같은 다양한 클라우드 환경에서 실행될 수 있습니다. Snowflake는 데이터 공유와 마켓플레이스 기능을 제공하여 데이터 판매를 가능하게 해주고 있습니다. 이를 통해 조직은 자체 데이터를 외부 조직과 공유하고 판매함으로써 추가 수익을 창출할 수 있습니다. 또한,..
1. Redshift 관련 유지보수 Amazon Redshift 서비스는 주기적으로 버전 업그레이드를 위해 중단되는 유지보수 창을 가지고 있습니다. 이를 Maintenance window라고도 합니다. Maintenance window 동안에는 일시적으로 Redshift 클러스터의 가용성이 영향을 받을 수 있습니다. 이 유지보수 작업은 Redshift 클러스터의 성능 향상, 보안 패치 및 기능 개선을 위해 필요한 작업입니다. 반면에 Amazon Redshift Serverless는 자동으로 관리되는 서비스이므로 개별적인 유지보수 창이 존재하지 않습니다. 서버리스 모드에서는 AWS가 Redshift 클러스터의 유지보수 및 업그레이드를 자동으로 처리하므로 사용자는 이러한 작업을 직접 관리할 필요가 없습니다...

1. 머신러닝의 정의 머신러닝은 학습 가능한 기계 또는 알고리즘을 개발하는 분야입니다. 머신러닝은 데이터의 패턴을 인식하고 이를 토대로 학습하는 방식으로 작동합니다. 이러한 학습은 트레이닝셋이라고 불리는 데이터를 사용하여 이루어집니다. 머신러닝은 컴퓨터가 스스로 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 딥러닝은 머신러닝의 한 분야로, 신경망을 기반으로 한 기술입니다. 딥러닝은 비전(영상 인식), 자연어 처리(텍스트 및 음성 인식) 등 다양한 영역에서 활용되고 있습니다. 인공지능은 머신러닝을 포괄하는 개념으로, 기계 또는 시스템이 인간의 지능적인 작업을 수행하는 것을 의미합니다. 머신러닝은 인공지능의 일부분으로서, 데이터를 기반으로 스스로 학습하는 알고리즘과 기술을 개발하는 분야입니다..