일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Django
- 데이터베이스
- 관계형데이터베이스
- airflow
- Amazon
- SQL
- Service
- 데브코스
- 웹스크래핑
- 데이터엔지니어링
- 기술면접
- WEB
- 웹자동화
- 파이썬
- 에어플로우
- 자료구조
- 클라우드
- 개념정리
- 프로그래머스
- 웹크롤링
- AWS
- 부트캠프
- 알고리즘
- 데이터엔지니어
- 개발
- 데이터웨어하우스
- CS
- 운영체제
- DataWarehouse
- 취준
- Today
- Total
사진과 음악을 좋아하는 개발자 지망생의 블로그
[데이터 웨어하우스 - 중급] 4. 다양한 시각화 툴 소개 본문
1. 시각화 툴이란?
시각화 툴은 데이터를 시각적으로 표현하고 분석하기 위한 도구입니다. 이 도구는 대시보드 혹은 BI (Business Intelligence) 툴로 불리기도 합니다. 주요 성과 지표(KPI), 지표, 중요한 데이터 포인트 등을 데이터를 기반으로 계산, 분석 및 표시해주는 기능을 제공합니다. 이를 통해 의사결정을 내리는 결정권자들에게 데이터 기반 의사결정(Data-Driven Decision)이나 데이터 참고 결정(Data-Informed Decision)을 가능하게 합니다. 시각화 툴은 현업 종사자들이 데이터 분석을 쉽게 수행할 수 있도록 도와줍니다.
시각화 툴은 다양한 형태의 시각화 방법을 제공합니다. 이 도구를 사용하면 데이터를 그래프, 차트, 대시보드, 지도 등 다양한 형식으로 시각적으로 표현할 수 있습니다. 이러한 시각화는 데이터의 패턴, 추세, 상관 관계 등을 빠르게 파악할 수 있도록 도와줍니다. 또한, 인터랙티브한 요소를 추가하여 사용자가 데이터를 탐색하고 상호 작용할 수 있도록 합니다.
시각화 툴은 다양한 데이터 소스와 연동하여 데이터를 가져와서 시각화할 수 있습니다. 예를 들어, 데이터베이스, 엑셀 파일, CSV 파일, 웹 API 등과 연결하여 데이터를 추출하고 시각화할 수 있습니다. 이를 통해 사용자는 실시간으로 데이터를 갱신하고 분석 결과를 업데이트할 수 있습니다.
많은 기업과 조직에서는 시각화 툴을 사용하여 데이터를 분석하고 경영 성과를 모니터링하며 의사결정을 내리고 있습니다. 시각화 툴은 데이터 분석 전문가뿐만 아니라 비전문가도 사용할 수 있도록 사용자 친화적인 인터페이스를 제공합니다. 이를 통해 비즈니스 사용자들이 데이터에 기반한 의사결정을 더욱 쉽게 할 수 있습니다.
2. 어떤 툴들이 존재하나?
시각화를 위한 다양한 툴이 존재합니다. 여기에는 일반적으로 사용되는 몇 가지 시각화 툴이 포함됩니다
- Excel 및 Google Spreadsheet: Excel은 일반적으로 가장 널리 사용되는 시각화 도구 중 하나입니다. 데이터를 테이블, 차트 및 그래프로 시각화할 수 있습니다. Google Spreadsheet는 온라인에서 협업 작업이 가능한 비슷한 기능을 제공합니다.
- Python: Python은 데이터 분석과 시각화에 많이 사용되는 프로그래밍 언어입니다. 데이터 처리 및 시각화를 위한 다양한 라이브러리인 Matplotlib, Seaborn, Plotly, Bokeh 등을 활용할 수 있습니다. Python은 데이터 특성 분석(EDA: Exploratory Data Analysis)에 특히 유용합니다.
- Looker (Google): Looker는 Google의 데이터 시각화 및 비즈니스 인텔리전스 플랫폼입니다. 사용자가 데이터를 시각화하고 대시보드를 생성하며, 데이터에 대한 인사이트를 발견하고 공유할 수 있도록 지원합니다.
- Tableau (Salesforce): Tableau는 데이터 시각화 및 비즈니스 인텔리전스 도구로 유명한 회사인 Salesforce의 제품입니다. 사용자는 직관적인 인터페이스를 통해 다양한 시각화를 생성하고 대화식 대시보드를 구축할 수 있습니다.
- Power BI (Microsoft): Power BI는 마이크로소프트의 비즈니스 인텔리전스 도구입니다. 데이터를 시각화하고 대시보드를 만들며, 데이터의 흐름과 트렌드를 이해하고 공유할 수 있습니다. Excel과의 통합도 가능합니다.
- Apache Superset (오픈소스): Apache Superset은 오픈소스 비즈니스 인텔리전스 플랫폼으로, 데이터 시각화와 대시보드 기능을 제공합니다. 사용자는 다양한 시각화 옵션을 활용하여 데이터를 분석하고 인사이트를 얻을 수 있습니다.
- Mode Analytics, Redash: Mode Analytics와 Redash는 데이터 시각화 및 대시보드 도구로서, 사용자가 데이터를 시각화하고 공유할 수 있도록 돕습니다.
- Google Data Studio: Google Data Studio는 Google의 클라우드 기반 시각화 도구입니다. 다양한 데이터 소스를 연결하고 대시보드를 만들어 데이터를 시각화할 수 있습니다.
- AWS Quicksight: AWS Quicksight는 아마존 웹 서비스(AWS)
2 - 1. Looker
Looker는 2012년에 미국 캘리포니아 산타크루즈에서 시작된 시각화 및 비즈니스 인텔리전스 플랫폼입니다. 2019년 6월에 구글에 의해 26억 달러에 인수되어 현재는 구글 클라우드의 일부로 운영되고 있습니다.
Looker의 특징은 다음과 같습니다.
- LookML: Looker는 자체 개발한 언어인 LookML을 사용하여 데이터 모델을 생성합니다. LookML은 SQL을 기반으로한 선언적인 언어로, 데이터 소스와의 연결, 필드 정의, 관계 설정 등을 포함합니다. 이를 통해 사용자는 데이터 모델을 정의하고 사용자 정의 대시보드 및 보고서를 생성할 수 있습니다.
- 내외부 고객 대시보드: Looker는 내부 고객 뿐만 아니라 외부 고객을 위한 대시보드 작성을 지원합니다. 이는 고객과의 데이터 공유 및 협업을 용이하게 합니다.
- 다양한 기능: Looker는 다양한 기능을 제공하여 사용자들이 데이터를 시각화하고 분석할 수 있습니다. 이에는 대시보드 작성, 인터랙티브 필터링, 시각화 옵션, 데이터 탐색 기능, 예약된 보고서, 협업 기능 등이 포함됩니다.
- 라이센스 정책: Looker는 고가의 라이센스 정책을 가지고 있습니다. 이는 기업이나 조직이 Looker를 사용하기 위해서는 라이센스 구매가 필요하다는 의미입니다. 그러나 이에 비해 다양한 기능과 유연성을 제공하여 데이터 분석 및 시각화에 높은 가치를 제공할 수 있습니다.
Looker는 데이터 분석 전문가나 비즈니스 사용자가 데이터를 시각화하고 인사이트를 발견할 수 있는 강력한 도구입니다. 구글의 인수 이후 구글 클라우드와의 통합으로 더욱 강력한 기능과 확장성을 제공하고 있습니다.
2 - 2. Tableau
Tableau는 2002년에 미국 캘리포니아 마운틴뷰에서 시작되어 2013년에 상장되었습니다. 2019년 6월에는 세일즈포스에 의해 157억 달러에 인수되었습니다.
Tableau의 주요 특징은 다음과 같습니다.
- 다양한 제품군: Tableau는 다양한 제품군을 보유하고 있습니다. 이 중 일부 제품은 무료로 사용할 수 있습니다. Tableau Desktop은 전문가를 위한 데이터 시각화 및 분석 도구이며, Tableau Server는 대규모 조직에서 데이터를 공유하고 협업하는 데 사용됩니다. 또한 Tableau Public은 데이터 시각화를 온라인으로 공유하는 무료 플랫폼입니다.
- 강력한 대시보드 작성: Tableau는 다양한 시각화 기능을 제공하여 사용자들이 강력하고 효과적인 대시보드를 작성할 수 있습니다. 사용자는 드래그 앤 드롭 인터페이스를 사용하여 데이터를 시각화 요소로 배치하고 필터링, 조합, 상호 작용 등을 추가할 수 있습니다.
- 학습 곡선: Tableau는 다양한 기능과 활용 방법을 제공하기 때문에 제대로 활용하려면 학습 시간이 필요할 수 있습니다. Tableau를 전문적으로 사용하려면 기능 및 기능 확장을 익히는데 시간과 노력이 필요할 수 있습니다.
- 시장 리더: Looker가 등장하기 전까지 Tableau는 오랫동안 시각화 및 비즈니스 인텔리전스 분야에서 시장 리더로 인정받았습니다. 사용자 친화적인 인터페이스, 강력한 시각화 기능, 다양한 데이터 소스 연결 등을 통해 많은 기업과 조직에서 Tableau를 선택하여 데이터 분석과 시각화에 활용하고 있습니다.
Tableau는 사용자들이 데이터를 시각화하고 인사이트를 도출하는 데 매우 강력한 도구입니다. 사용자는 직관적인 인터페이스를 통해 데이터를 탐색하고 시각적으로 표현하여 데이터 기반의 의사결정을 지원할 수 있습니다.
2 - 3. ReDash
ReDash는 오픈소스로 시작하여 https://github.com/getredash/redash 에서 제공되는 데이터 시각화 및 대시보드 도구입니다. 이를 기반으로 한 회사도 동일한 이름으로 존재합니다.
ReDash는 Apache Superset과 상당히 유사한 기능을 제공합니다. 그러나 ReDash는 더 강력한 쿼리 에디터를 제공하고 있지만 사용자 권한 관련 기능은 부족할 수 있습니다.
또한, 2020년에는 Databricks라는 회사에 의해 인수되었습니다. Databricks는 클라우드 기반 데이터 분석 및 인공지능 플랫폼을 제공하는 회사로, ReDash의 인수를 통해 데이터 시각화 및 대시보드 기능을 강화하고 Databricks 플랫폼과 통합할 수 있게 되었습니다.
ReDash는 사용자들이 데이터를 시각화하고 대시보드를 생성하여 데이터 분석 및 의사결정을 지원하는 데 사용될 수 있는 강력한 오픈소스 도구입니다.
2 - 4. Mode Analytics
Mode Analytics는 2013년에 샌프란시스코에서 창업된 데이터 분석 도구입니다. Mode Analytics의 웹사이트는 https://mode.com/에서 확인할 수 있습니다.
Mode Analytics는 SQL, R, Python 등을 기반으로 데이터 분석을 수행할 수 있습니다. 사용자들은 이러한 프로그래밍 언어를 활용하여 데이터를 쿼리하고 분석하며, 결과를 시각화할 수 있습니다.
Mode Analytics는 조금 더 테크니컬한 인력을 대상으로한 애널리틱스 기능을 제공합니다. 사용자들은 고급 분석 및 모델링 작업을 수행할 수 있으며, 다양한 데이터 소스와의 연동도 가능합니다.
Mode Analytics는 KPI 대시보드보다는 탐색적 데이터 분석(EDA, Exploratory Data Analysis)에 가까운 기능을 제공합니다. 사용자들은 데이터를 탐색하고 시각화하여 인사이트를 발견하고 데이터에 대한 이해를 도모할 수 있습니다.
종합적으로, Mode Analytics는 SQL, R, Python 등을 사용하여 데이터 분석을 수행하고 탐색적 데이터 분석을 위한 기능을 제공하는 도구입니다. 테크니컬한 사용자들이 데이터를 탐색하고 분석하기 위해 활용할 수 있습니다.
3. 어떤 시각화 툴을 선택할 것인가?
시각화 툴을 선택할 때는 여러 요소를 고려해야 합니다. Looker와 Tableau는 현재 가장 인기 있는 시각화 툴 중 일부입니다. 두 툴 모두 처음 사용하는 데에는 시간이 필요하며, 중요한 포인트는 셀프서비스 대시보드를 만드는 능력입니다.
Tableau는 가격이 더 저렴하고 투명하며, 무료 버전도 제공되어 공부할 수 있습니다. 따라서 예산이 제한된 경우에는 Tableau가 좋은 선택일 수 있습니다.
셀프서비스 대시보드를 만드는 능력은 중요한 요소입니다. 대부분의 질문을 셀프서비스 대시보드로 해결할 수 있다면 성공적인 시각화 도구 사용이 가능합니다. 사용하기 쉬운 도구일수록 더 많은 현업 인력이 직접 대시보드를 만들 수 있으며, 데이터 민주화와 데이터 탈중앙화를 실현할 수 있습니다. 데이터 품질과 데이터 거버넌스의 중요성이 점점 더 커지고 있기 때문에 이러한 측면을 고려하는 것이 중요합니다.
Looker는 이러한 측면에서 더 나은 선택일 수 있지만, 가격이 매우 비싸다는 단점이 있습니다. 따라서 예산과 요구사항을 고려하여 결정해야 합니다.
최종적으로, 선택할 시각화 툴은 예산, 기능 요구사항, 사용자들의 능력 및 조직의 데이터 거버넌스 전략 등을 고려하여 판단해야 합니다. Tableau는 가격 면에서 유리하고, Looker는 셀프서비스 대시보드와 데이터 민주화 측면에서 강점을 가지고 있습니다. 따라서 이러한 요소들을 고려하여 선택하는 것이 좋습니다.
4. Supserset 소개
Superset은 Airbnb에서 시작된 오픈소스 데이터 시각화 및 대시보드 도구입니다. 이 프로젝트는 Airflow를 개발한 Maxim인 사람과 함께 시작되었습니다. Superset의 GitHub 페이지는 https://github.com/apache/superset에서 확인할 수 있습니다. 현재 Airbnb에서는 Superset을 전사적으로 대시보드 도구로 사용하고 있으며, Dropbox에서는 데이터 탐색 대시보드로 활용하고 있습니다.
Superset은 오픈소스 프로젝트로 시작되었지만, 상용화된 서비스도 시작되었습니다. Maxim은 직접 창업하여 Preset이라는 회사를 설립하였습니다. Preset은 Superset을 기반으로 한 상용 도구 및 서비스를 제공합니다. Preset의 웹사이트는 https://preset.io/에서 확인할 수 있습니다. 여기에서 무료 어카운트를 생성하여 Superset을 실습해 볼 수도 있습니다.
Superset은 사용자들이 데이터를 시각화하고 대시보드를 생성하는 데에 활용할 수 있는 강력한 오픈소스 도구입니다. Airbnb의 경험과 함께 지속적으로 발전하고 있으며, Preset을 통해 상용 도구 및 서비스로도 제공되고 있습니다. Superset은 데이터 시각화 및 대시보드 작성을 위한 다양한 기능과 유연성을 제공하여 데이터 분석가와 비즈니스 사용자들이 데이터를 쉽게 탐색하고 의사결정을 내릴 수 있도록 도와줍니다.
4 - 1. Superset이란?
Superset은 데이터 시각화 및 대시보드 작성을 위한 오픈소스 도구입니다. 다음과 같은 주요 특징을 가지고 있습니다.
- 다양한 형태의 시각화: Superset은 다양한 형태의 시각화를 지원합니다. 막대 그래프, 원 그래프, 선 그래프, 히트맵 등 다양한 시각화 유형을 선택하여 데이터를 효과적으로 표현할 수 있습니다.
- 손쉬운 인터페이스: Superset은 사용자 친화적인 인터페이스를 제공하여 데이터 시각화 및 대시보드 작성을 쉽게 수행할 수 있습니다. 시각화를 위한 필요한 설정과 조작을 직관적으로 수행할 수 있어 사용자들이 빠르게 결과물을 얻을 수 있습니다.
- 대시보드 공유: Superset은 생성한 대시보드를 다른 사용자와 공유할 수 있는 기능을 제공합니다. 대시보드의 URL을 공유하거나 대시보드를 웹사이트에 내장하여 다른 사람들과 데이터를 공유할 수 있습니다.
- 엔터프라이즈 수준의 보안과 권한 제어: Superset은 엔터프라이즈 수준의 보안과 권한 제어 기능을 제공합니다. 사용자들에게 적절한 데이터 및 대시보드에 대한 접근 권한을 할당할 수 있으며, 데이터의 보안을 유지할 수 있습니다.
- SQLAlchemy와의 연동: Superset은 SQLAlchemy와 연동하여 다양한 데이터베이스를 지원합니다. 이를 통해 사용자는 다양한 데이터 소스로부터 데이터를 가져와 시각화 및 분석에 활용할 수 있습니다.
- Druid.io와의 연동: Superset은 Druid.io와 연동하여 실시간 데이터의 시각화를 지원합니다. Druid.io는 대용량의 데이터 스트림을 처리하고 실시간으로 데이터를 분석하는 엔진으로, Superset을 통해 실시간 데이터의 시각화를 수행할 수 있습니다.
- API와 플러그인 아키텍처: Superset은 API와 플러그인 아키텍처를 제공하여 확장성을 갖추고 있습니다. 사용자들은 필요에 따라 Superset을 확장하거나 기능을 추가할 수 있습니다.
4 - 2. Superset 구조와 용어
Superset은 다음과 같은 구조와 용어를 가지고 있습니다.
- Flask와 React JS: Superset은 웹 애플리케이션 프레임워크인 Flask와 JavaScript 라이브러리인 React JS로 구성되어 있습니다. Flask는 백엔드를 담당하며 데이터 처리와 라우팅을 처리합니다. React JS는 사용자 인터페이스를 구성하고 대시보드 및 시각화를 렌더링합니다.
- 메타데이터 데이터베이스: Superset은 기본적으로 sqlite를 메타데이터 데이터베이스로 사용합니다. 메타데이터 데이터베이스는 Superset의 구성, 대시보드 및 데이터셋에 대한 정보를 저장하는 용도로 사용됩니다.
- Redis 캐싱 레이어: Superset은 Redis를 캐싱 레이어로 사용하여 쿼리 결과 및 대시보드 데이터를 캐시하여 성능을 향상시킵니다. Redis는 빠른 데이터 액세스와 캐싱 기능을 제공하는 인메모리 데이터베이스입니다.
- SqlAlchemy: Superset은 SqlAlchemy를 사용하여 백엔드 데이터베이스에 접근합니다. SqlAlchemy는 관계형 데이터베이스와 상호작용하기 위한 Python SQL 툴킷입니다.
- Database와 Dataset: Superset에서 "Database"는 관계형 데이터베이스를 나타냅니다. 예를 들어, Redshift, MySQL, PostgreSQL 등이 될 수 있습니다. "Dataset"은 Superset에서 사용되는 테이블을 나타냅니다. 데이터셋은 특정 데이터베이스 내의 테이블이며, 데이터를 시각화하고 대시보드에 사용될 수 있습니다.
- Dashboard와 Chart: "Dashboard"는 Superset에서 하나 이상의 "Chart"로 구성됩니다. 대시보드는 여러 개의 차트 및 시각화 요소를 포함하고 사용자에게 통찰력을 제공하는 기능을 수행합니다. 차트는 특정 데이터셋에서 가져온 데이터를 시각적으로 표현한 것입니다.
이러한 구조와 용어를 통해 Superset은 데이터베이스와 데이터셋을 관리하고, 대시보드와 차트를 생성하여 데이터 시각화를 수행합니다.
'개발 > 데이터 웨어하우스 - 중급' 카테고리의 다른 글
[데이터 웨어하우스 - 중급] 5. 데이터 파이프라인 (0) | 2023.06.05 |
---|---|
[데이터 웨어하우스 - 중급] 3. Snowflake - ② Snowflake 사용자 권한 설정 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 3. Snowflake - ① Snowflake 특징 소개, 무료 시험판 실행, 실습을 위한 초기 환경 설정 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 2. Redshift - ⑧ Redshift 중지/제거하기 (0) | 2023.05.25 |
[데이터 웨어하우스 - 중급] 2. Redshift - ⑦ Redshift ML 사용하기 (0) | 2023.05.25 |