일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 알고리즘
- 취준
- Django
- 웹크롤링
- 부트캠프
- 웹스크래핑
- 파이썬
- WEB
- 개발
- 데이터엔지니어링
- Amazon
- 프로그래머스
- 웹자동화
- 데이터엔지니어
- DataWarehouse
- 운영체제
- 개념정리
- 기술면접
- CS
- airflow
- Service
- 데이터베이스
- 관계형데이터베이스
- 자료구조
- SQL
- 에어플로우
- 클라우드
- 데이터웨어하우스
- AWS
- 데브코스
- Today
- Total
사진과 음악을 좋아하는 개발자 지망생의 블로그
[데이터 웨어하우스] 1. 데이터 웨어하우스 개념(데이터 웨어하우스, 데이터 웨어하우스를 개발하는 이유, vs. 데이터 레이크, vs. 데이터 가상화) 본문
[데이터 웨어하우스] 1. 데이터 웨어하우스 개념(데이터 웨어하우스, 데이터 웨어하우스를 개발하는 이유, vs. 데이터 레이크, vs. 데이터 가상화)
devculture309 2023. 5. 23. 00:441. 데이터 웨어하우스(Data Warhouse)란?
물리적인 제품이 아닌 데이터로 채워진 큰 저장소인 데이터 웨어하우스는 데이터베이스와 관련이 있지만, 일반적으로 데이터베이스 위에 구축됩니다.
데이터 웨어하우스는 데이터를 효율적으로 저장하고 플랫폼으로 사용되며, 다양한 소스 시스템과 외부 정보원으로부터 데이터를 받습니다. 이러한 데이터는 소스 시스템에 그대로 남아있고, 데이터 웨어하우스로는 복사본이 만들어집니다.
데이터 웨어하우스는 여러 거래 및 운영 시스템에서 발생하는 다양한 데이터를 수집합니다. 이 데이터는 데이터 웨어하우스로 전송되어 저장됩니다. 수십 개의 데이터 원본을 가지고 있는 경우, 데이터 웨어하우스 환경은 더 복잡해질 수 있습니다.
데이터 웨어하우스는 단순히 데이터를 저장하는 것 뿐만 아니라 데이터를 효율적으로 구조화하고 저장하여 분석 및 조회를 용이하게 하는 역할도 수행합니디다. 또한, 데이터 웨어하우스는 데이터를 변환, 통합 및 정제하여 의사 결정에 활용할 수 있는 형태로 제공합니다. 이러한 데이터 처리 및 분석 기능을 통해 데이터 웨어하우스는 데이터 기반의 의사 결정과 비즈니스 인텔리전스를 지원하는 중요한 플랫폼으로 사용될 수 있습니다.
1990년, 빌 인먼은 데이터 창고를 짓는 방법과 데이터를 정리, 저장하는 방법에 대한 일련의 규칙을 만들었는데요, 규칙은 다음과 같습니다.
- 통합된 환경: 데이터 웨어하우스는 다수의 소스 시스템으로부터 데이터를 통합하여 저장하는 공간입니다. 여러 시스템에서 오는 데이터를 데이터 웨어하우스로 전송합니다.
- 주체 지향적: 데이터 웨어하우스는 어떤 시스템에서 데이터가 오던지 상관없이 주체별로 데이터를 재편성해야 합니다. 이는 다양한 소스 시스템으로부터 데이터가 올 때, 해당 데이터를 사용하는 다양한 시스템과 사용자들이 필요한 형태로 데이터를 재편성하고 구성할 수 있어야 한다는 것을 말합니다.
- 시간 변이: 데이터 웨어하우스에는 현재 데이터뿐만 아니라 역사적 데이터도 저장됩니다. 이는 데이터 저장소에 과거 데이터가 포함되어 있다는 의미입니다. 시간에 따른 데이터의 변화를 파악할 수 있습니다.
- 비변동성: 데이터 웨어하우징은 가장 복잡한 규칙 중 하나입니다. 비변동성은 데이터 웨어하우스가 휘발성이 없다는 것을 의미합니다. 즉, 데이터 웨어하우스는 안정적으로 유지되며, 데이터의 변동이 발생해도 데이터 웨어하우스는 일관된 상태를 유지합니다. 이는 데이터 분석이나 전략적인 계획 수립과 같은 작업에 있어서 신뢰성과 일관성을 제공합니다.
위의 규칙들은 데이터 웨어하우스를 구축하고 데이터를 효율적으로 저장하고 정리하기 위해 필요한 원칙들입니다.
데이터 웨어하우스는 통합된 데이터 환경을 제공하여 데이터 주도적인 의사 결정을 지원하고 분석에 활용될 수 있도록 데이터를 구성합니다.
2. 데이터 웨어하우스를 개발하는 이유
데이터 웨어하우스를 만드는 데 시간과 자원, 돈을 투자하는 이유를 알아봅시다
- 데이터 중심의 결정: 데이터 웨어하우스는 경험과 직감에 의존하지 않고 데이터를 기반으로 한 결정을 지원합니다. 과거, 현재, 미래의 데이터를 종합적으로 분석하여 조직의 다양한 분야에 대한 통찰력을 제공합니다.
- 원스톱 쇼핑: 데이터 웨어하우스는 필요한 데이터를 단일 장소에 집중하여 제공합니다. 과거에는 데이터 중심의 의사 결정을 위해 데이터를 추적하는 것이 번거로웠습니다. 하지만, 데이터 웨어하우스는 모든 데이터를 통합하여 한 곳에서 손쉽게 접근할 수 있는 원스톱 쇼핑을 제공합니다. 덕분에, 분산된 데이터로부터 데이터를 추출하는 대신 데이터 웨어하우스를 통해 다양한 비즈니스 응용 프로그램에서 데이터를 손쉽게 조회하고 분석할 수 있습니다.
- 비즈니스 인텔리전스: 데이터 웨어하우스는 비즈니스 인텔리전스(BI)를 위한 중요한 플랫폼입니다. 데이터 웨어하우싱과 BI는 서로 상호작용하며 데이터 저장 및 분석을 통해 가치를 창출합니다. 데이터 웨어하우싱은 데이터 저장소를 구축하고, BI가 데이터를 활용하여 데이터 중심의 의사 결정을 하게끔 지원합니다.
따라서, 비즈니스 인텔리전스와 데이터 웨어하우싱은 서로 보완적인 역할을 하며 조직에 중요한 가치를 제공합니다. 데이터 웨어하우스를 활용하는 것은 데이터를 효율적으로 관리하고 분석하여 데이터 중심의 의사 결정과 비즈니스 성과 향상을 도모하는 데 도움이 됩니다.
3. 데이터 웨어하우스(Data Warehouse) vs. 데이터 레이크(Data Lake)
1990년대 초에 만들어진 데이터 웨어하우스와 최근의 만들어진 데이터 호수를 구분하는건 생각보다 쉽지 않습니다. 하지만, 현재 두 개념 모두 귀중한 도구입니다. 그렇다면 여러 관점에서 그 둘의 유사점과 차이점을 살펴보겠습니다.
- 아키텍처: 데이터 웨어하우스는 주로 관계형 데이터베이스 위에 구축되며, 다차원 데이터베이스나 큐브 형태로 설계될 수도 있습니다. 반면에 데이터 레이크는 빅 데이터 환경 위에 구축됩니다.
- 데이터 관리: 데이터 웨어하우스는 구조화된 데이터를 주로 다루며, 관계형 데이터베이스의 기능을 활용하여 데이터를 저장하고 분석합니다. 데이터 레이크는 비구조화된 데이터나 다양한 유형의 데이터를 관리할 수 있는 능력이 뛰어나며, 빅 데이터의 특징인 대용량, 속도, 다양성을 처리할 수 있습니다.
- 확장성과 다양성: 데이터 레이크는 대용량의 데이터를 처리하고 빠른 변화에 대응하는 능력이 있으며, 다양한 유형의 데이터를 다룰 수 있습니다. 데이터 웨어하우스는 데이터 관리와 분석에 있어서 탄탄한 환경을 제공하지만, 확장된 데이터 관리와 의사 결정 기능에는 제한이 있을 수 있습니다.
- 유사성과 상호운용성: 데이터 레이크와 데이터 웨어하우스 모두 비즈니스 인텔리전스(BI)와 상호작용하며 데이터 주도적 의사 결정을 지원할 수 있습니다. SQL과 같은 표준 데이터베이스 언어를 사용하여 전통적인 BI 작업을 수행할 수 있습니다.
요약하면, 데이터 웨어하우스는 주로 관계형 데이터베이스 위에 구축되어 구조화된 데이터를 다루는 반면에, 데이터 레이크는 빅 데이터 환경 위에 구축되어 비구조화된 데이터와 다양한 유형의 데이터를 다룰 수 있습니다. 두 개념은 비즈니스 인텔리전스와 데이터 주도적 의사 결정을 지원하며, 상호운용성을 가지고 있습니다.
4. 데이터 웨어하우스(Data Warehouse) vs. 데이터 가상화(Data Virtualization)
데이터 웨어하우스가 등장하기 전에는 추출 파일을 사용하여 데이터 중심의 의사 결정이 이루어지고, 데이터를 수집하고 재구성하는 데 많은 시간이 소요되었습니다. 1980년대 후반에 주요 컴퓨터 시스템 회사들은 분산 데이터베이스 관리 시스템을 개발했으나 실패했습니다. 분산 데이터베이스는 데이터를 여러 기본 노드에 분산 저장하는 방식으로 동작하지만 그 당시의 기술은 분산된 데이터 사용을 지원할 만큼 강력하지 않았습니다. 결국 데이터 가상화와 데이터 웨어하우스로 나뉘게 되었습니다.
데이터 가상화는 데이터 호수 외에 데이터 웨어하우징과 혼동되는 또 다른 분야 입니다. 데이터 웨어하우스와 데이터 레이크 간 비교를 해봤듯이 데이터 가상화와도 비교하며 살펴보겠습니다.
1. 데이터 웨어하우스
- 데이터 웨어하우스는 데이터의 복사본을 통합하여 분리된 환경을 만듭니다.
- 애플리케이션과 데이터베이스에서 필요한 데이터를 가져올 수 없는 경우, 필요한 데이터를 가져옵니다.
- 데이터를 중앙 집중식으로 저장하고 정제하여 비즈니스 인텔리전스 분석과 의사 결정에 활용합니다.
- 데이터의 구조가 사전에 조율되어야 하며, 데이터를 수집하고 재구성하는 데 많은 시간이 소요될 수 있습니다.
2. 데이터 가상화
- 데이터 가상화는 데이터 웨어하우징과 달리 데이터를 개별 데이터베이스에 복사하지 않습니다.
- 원래의 데이터 위치에서 데이터를 촬영하여 리포트와 분석을 위해 필요한 데이터에 접근합니다
- 읽기 전용 배포 데이터베이스로 사용될 수 있으며, 데이터를 업데이트하는 대신 인덱스를 통해 업데이트 중인 데이터를 참조합니다.
- 데이터 소스가 적고 데이터 변형이 필요하지 않거나, 쿼리 및 보고서의 응답 시간이 유연하다면 데이터 가상화가 유용할 수 있습니다.
데이터 가상화는 데이터 웨어하우징과 함께 사용되며, 비즈니스 인텔리전스 분석을 통해 데이터 기반 의사 결정을 지원하는 데 도움을 줍니다. 데이터 가상화는 데이터의 변형이 필요 없거나 데이터 소스가 제한적인 경우에 특히 유용합니다.