일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- WEB
- 개념정리
- 웹스크래핑
- 클라우드
- CS
- 부트캠프
- Service
- Amazon
- 파이썬
- 알고리즘
- AWS
- 자료구조
- 에어플로우
- SQL
- 웹크롤링
- 데이터엔지니어
- 데이터엔지니어링
- Django
- 개발
- 프로그래머스
- 데브코스
- 웹자동화
- airflow
- 데이터베이스
- 관계형데이터베이스
- 운영체제
- 데이터웨어하우스
- 기술면접
- DataWarehouse
- 취준
- Today
- Total
사진과 음악을 좋아하는 개발자 지망생의 블로그
[데이터 웨어하우스 - 중급] 2. Redshift - ⑤ Redshift 관련 기타 서비스 본문
[데이터 웨어하우스 - 중급] 2. Redshift - ⑤ Redshift 관련 기타 서비스
devculture309 2023. 5. 25. 11:221. Redshift Spectrum
Redshift Spectrum은 Redshift의 확장 기능으로, S3에 저장된 파일을 SQL로 처리할 수 있도록 해줍니다. Redshift Spectrum을 사용하면 S3의 파일들을 외부 테이블로 처리하여 Redshift 테이블과 조인할 수 있습니다. 일반적으로 S3의 파일들은 외부 테이블로 처리되고, Redshift 테이블들은 차원 테이블로 사용됩니다.
Redshift Spectrum을 사용하면 SQL 쿼리를 사용하여 S3의 파일들을 조회하고 분석할 수 있습니다. 이를 통해 대용량 데이터를 빠르게 처리할 수 있습니다. Redshift Spectrum은 스캔한 데이터의 양에 따라 비용이 발생하며, 1TB를 스캔할 때마다 $5의 비용이 발생합니다.
Redshift Spectrum을 사용하기 위해서는 Redshift 클러스터가 필요합니다. 또한, S3와 Redshift 클러스터는 같은 AWS 지역에 위치해야 합니다. 이는 데이터 전송 속도를 향상하고 최적의 성능을 보장하기 위함입니다.
Redshift Spectrum은 대규모 데이터 처리와 분석에 유용한 기능으로, S3에 저장된 데이터를 활용하여 Redshift 클러스터와 함께 사용할 수 있습니다.
Redshift Serverless는 유연한 용량 관리와 자동 스케일링 기능을 제공하여 데이터 처리 작업을 더욱 효율적으로 수행할 수 있도록 도와줍니다. 또한, 사용한 자원에 따라 비용을 지불하는 방식은 필요한 자원에 대한 비용을 더 정확하게 산정할 수 있도록 해 줍니다.
2. Redshift Serverless
Redshift Serverless는 Redshift의 다른 옵션과는 달리 사용한 만큼 비용을 지불하는 옵션입니다. 기존의 Redshift는 미리 용량을 결정하고 월정액을 지불하는 방식이었지만, Redshift Serverless는 사용한 자원에 따라 비용이 산정됩니다. 이는 BigQuery와 유사한 방식으로 동작합니다.
Redshift Serverless는 데이터 처리의 크기와 특성에 따라 자동으로 스케일링됩니다. 이는 필요한 자원을 실시간으로 조정하여 최적의 성능을 유지하며, 동시에 비용을 최소화하는 데 도움을 줍니다. 사용자는 Redshift Serverless를 통해 필요한 작업을 수행하고, 자원이 필요한 만큼 자동으로 할당되고 해제되기 때문에 관리 부담이 줄어듭니다.
Redshift Serverless는 유연한 용량 관리와 자동 스케일링 기능을 제공하여 데이터 처리 작업을 더욱 효율적으로 수행할 수 있도록 도와줍니다. 또한, 사용한 자원에 따라 비용을 지불하는 방식은 필요한 자원에 대한 비용을 더 정확하게 산정할 수 있도록 해 줍니다.
3. Athena
Athena는 AWS의 Presto 기반 서비스로, Redshift Spectrum과 유사한 기능을 제공합니다. Athena를 사용하면 S3에 저장된 데이터를 기반으로 SQL 쿼리를 수행할 수 있습니다. 이를 통해 S3를 데이터 레이크로 활용할 수 있습니다.
Athena는 서버리스 아키텍처로 동작하며, 별도의 인프라 구성이나 관리 작업이 필요하지 않습니다. 데이터를 S3에 저장하고 SQL 쿼리를 실행함으로써 데이터를 직접 탐색하고 분석할 수 있습니다. Athena는 데이터 포맷에 제한을 두지 않고 다양한 형식의 데이터를 처리할 수 있습니다. CSV, JSON, Parquet, ORC 등 다양한 형식을 지원합니다.
Athena는 데이터 레이크 아키텍처에서 중요한 역할을 수행합니다. 데이터를 S3에 저장하고 필요한 시점에 쿼리를 수행함으로써 데이터 레이크의 유연성과 확장성을 실현할 수 있습니다. 또한, Athena는 편리한 사용자 인터페이스와 강력한 쿼리 기능을 제공하여 데이터 분석 작업을 간편하게 수행할 수 있도록 도와줍니다.
4. Redshift ML
Redshift ML은 Redshift의 기능 중 하나로, SQL만을 사용하여 머신러닝 모델을 훈련하고 활용할 수 있게 해줍니다. 그러나 Redshift ML은 사실 AWS SageMaker에 의해 지원됩니다. SageMaker는 Amazon의 관리형 머신러닝 서비스로, 다양한 기능과 도구를 제공하여 머신러닝 작업을 용이하게 만들어줍니다.
Redshift ML을 사용하면 SQL을 사용하여 데이터를 통해 머신러닝 모델을 훈련할 수 있습니다. SageMaker의 Auto Pilot이라는 기능을 활용하면 최적화된 모델을 자동으로 생성할 수도 있습니다. Auto Pilot은 데이터에 대한 탐색, 특성 추출, 모델 선택, 하이퍼파라미터 튜닝 등의 작업을 자동화하여 최상의 모델을 생성합니다.
또한, Redshift ML은 이미 만들어진 모델을 활용하는 BYOM (Bring Your Own Model) 기능을 지원합니다. 이를 통해 사용자는 자체 훈련한 모델을 Redshift ML에 적용하여 예측을 수행할 수 있습니다.
Redshift ML은 SQL 기반의 쉽고 간편한 인터페이스를 제공하여 머신러닝 작업을 Redshift 데이터 웨어하우스 내에서 직접 수행할 수 있게 해줍니다.
'개발 > 데이터 웨어하우스 - 중급' 카테고리의 다른 글
[데이터 웨어하우스 - 중급] 2. Redshift - ⑦ Redshift ML 사용하기 (0) | 2023.05.25 |
---|---|
[데이터 웨어하우스 - 중급] 2. Redshift - ⑥ Redshift Spectrum으로 S3 외부 테이블 조작해보기 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 2. Redshift - ④ Redshift 고급 기능 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 2. Redshift - ③ Redshift COPY 명령으로 테이블에 레코드 적재하기 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 2. Redshift - ② Redshift 설치 및 초기 설정 (0) | 2023.05.24 |