2023-08-02
**Tableau
1. 태블로
사용시 필요할 수 있는 Excel 파일으 공유합니다.
- 데이터를 분석 및 시각화하는 BI(Business Intelligence) Solution
- BI는 비지니스를 운영하면 얻은 데이터를 수집, 저장, 분석해서 성과를 최적화하는 프로세스와 방법을 의미하는 용어
데이터를 활용하여 최선의 의사 결정을 내리고 비지니스 목표를 달성하게 만드는 모든 과정과 방법
- 비지니스 인사이트 도출을 위한 필수 도구
빅데이터가 널리 활용되면 데이터 기반의 분석과 이를 이용한 의사 결정이 거의 모든 산업군에서 사용
ERP(Enterprise Resource Planning - 전사적 자원 관리) 나 CRM(Customer Relationship Management 고객 관계 관리) 등에 활용
엑셀에서 방대한 양의 데이터를 살펴보는 것이 어려워서 BI Solution을 도입
데이터 시각화가 편리
- 액셀과 태블로
액셀에 비해서 전처리 작업이 편리하고 시각화 기능이 뛰어나고 커뮤니티 활성도가 높음.
- 태블로 와 MS BI
태블로가 비용이 많이 드는 대신에 기능은 우월
- public 버젼 설치 https://public.tableau.com/app/discover
Discover
Explore stunning data visualizations and the talented community that creates them on Tableau Public.
public.tableau.com
2. Excel 데이터 가져오기
- 메인 화면에서 MicroSoft Excel을 클릭후 파일을 선택
- 시트의 데이터를 가져오기 : 왼쪽 에서 드래그 앤 드롭
3. UI
- 왼쪽에 사이드 바가 존재하는데 데이터와 분석으로 나누어져 있습니다.
태블로에서는 데이터를 분류할 때 차원과 측정 값으로 분류
-> 차원은 계산이 안되는 필드
-> 측정 값은 계산이 가능한 필드
데이터를 나누는 또 다른 방법은 연속형과 불 연속형으로 분류
- 선반 및 카드
페이지 선반 : 데이터를 애니메이션으로 재생하여 데이터의 흐름 확인
필터 선반 : 데이터를 원하는 것만 추출
마크 카드 : 색상이나 크기
- 열 및 행 선반 : 가로와 세로 기준을 설정
- View : Canvas - 시각화의 결과물
- 왼쪽 하단 : 데이터의 원본을 설정하는 곳
- 시트 탭 : 시트 선택
4. 기본 사용법
- 주문 시트의 대분류 별 매출을 막대 그래프로 시각화
4.1) 필요한 필드를 열과 행 선반으로 설정
- 사이드바에서 대분류를 열 선반으로 드래그
- 사이드바에서 매출을 행 선반으로 드래그
4.2) 막대 색상을 변경
- 대분류 필드를 마크 카드의 색상으로 드래그
- 특정 필드를 색상으로 설정한 경우 색상을 변경하고자 하면 [색상]을 클릭하고 변경
4.3) 각 막대에 매출액의 값을 출력
- 사이드 바에서 [매출]을 선택하고 마크 카드의 레이블에 드래그 앤 드롭
4.4) y 축 서식 변경
- y 축 위에서 마우스 오른쪽 클릭 [서식..]을 클릭하고 변경
4.5) 패널 서식을 변경
- y 축 위에서 마우스 오른쪽을 클릭하고 [서식...] 을 클릭하고 패널을 선택 후 변경
4.6) 계산된 필드 생성
- 필드 이름은 수익률이고 수익을 매출로 나눈 값
사이드 바의 빈 자리에서 마우스 오른쪽을 클릭하고 [계산된 필드 만들기]를 선택
이름 :
수익률
계산식은
SUM([수익]) / SUM([매출])
- 수익률 필드를 행에 올려 놓으면 교체 or 추가가 가능
4.7) 매개변수 생성
- 매출과 수익률을 필요에 따라 출력하기
- 사이드바의 빈자리를 눌러서 매개 변수 만들기를 클릭!
- 사이드 바에 빈자리를 눌러서 매출과 수익률 매개변수를 생성함
확인을 누르면!
매개변수가 생성되었씀다!
- 매개변수는 단독으로 사용될 수 없어서 [계산된 필드]를 생성!
매개변수의 계산된 필드 생성!
다음과 같이 완성 합니다.
- 매출 또는 수익률 선택 필드를 행 선반으로 드래그
- 계산된 필드로 만든 [매출 또는 수익률] 필드를 마크 카드의 레이블로 드래그
- 매개변수로 만든 [매출 또는 수익률] 을 선택하고 마우스 오른쪽을 눌러서 [매개 변수 표시]를 선택하면 오른쪽 창에 매출 이나 수익률을 선택할 수 있는 컨트롤러가 생겨, 선택을 하면 된다.
5. Line Chart
5.1 개요)
- 시계열 데이터를 시각화 할 때 많이 활용
- 시계열 데이터 : 시간의 흐름에 따라 기록되는 데이터
- 데이터의 상승이나 하락 등과 같은 추세를 쉽게 파악할 수 있습니다.
- 금융 쪽에서 주가의 흐름을 보여주고자 할 때 사용
- 시계열 데이터를 X 축으로 측정 값을 Y축에 표현
5.2) 대분류 항목의 매출 추세를 확인
- 태블로에서 슈퍼 스토어 파일을 가져와서 주문 시트를 사용할 수 있도록 설정
- 라인 차트를 만들기 위해서 [마크] 선반의 유형을 라인으로 변경
- 시계열 데이터 [주문날짜]를 열 선반으로 드래그
주문날짜의 데이터 간격을 연속형 [월]로 설정 <-> 불 연속형도 존재
주문날짜 항목의 오른쪽 추가 메뉴 버튼을 눌러서 설정
- 측정 값인 매출을 행 선반에 드래그 앤 드롭
- 매출을 대분류 별로 나누서 해주기 위해 색상별로 나누어 삽입
- 하나의 화면에 3가지 모두 출력되어 가독성이 떨어진다면 이를 분리 시킬 수 있다.
- 이 경우는 [대분류]를 행 선반에 드래그 하는데, 매출 위가 아니라 매출 옆에 배치.
- 라인차트를 만들 때는 값을 명확하게 보여주기 위해서 마커를 사용하기도 합니다.
[마크] 카드에서 [색상]을 선택한 후 [효과] 항목의 [마커]를 선택
- 추세선 : 라인 차트를 만들었을 때 이 데이터를 가지고 단순 선형 회귀 분석을 한 결과를 보여주는 선
사이드 바에서 [분석] 탭을 클릭하고 [모델] 항목의 [추세선]을 view 영역에 드래그 하면 된다.
추세선을 드래그 하면 로그, 지수, 다항식, 거듭 제곱 등의 항목이 보입니다.
데이터의 편차가 클 때는 데이터의 편차를 줄이기 위해서 데이터를 표준화나 정규화를 하게 됩니다.
어떤 정규화를 하는게 좋을 지 판단하는데 사용하면 된다.
6.막대 차트
1)그룹 막대 차트
=>기본 막대 차트에서 항목이 추가돼 여러 데이터를 함께 비교가 가능한 막대 차트
=>특정 데이터가 상-중-하 형태로 분류가 되어 있고 그 범주 안에 다시 하위 범주에 따라 분류하고자 할 때 사용
=>대분류 별 중분류 간의 매출 합계를 막대 그래프로 표현
열에 대분류를 배치하고 행에 매출을 배치
대분류를 [마크] 카드의 색상으로 드래그
매출을 [마크] 카드의 레이블로 드래그
중분류를 열에 추가
Y축을 클릭하면 정렬을 할 수 있는 아이콘이 출력됩니다.
2)누적 막대 차트
=>2가지 이상의 데이터를 동시에 확인해야 하는 경우 사용하는데 각 제품 별 월 별 매출에서 채널별 매출을 분석하고 하는 사용
=>누적 값을 표현
=>제품 대분류 별 배송 형태의 매출의 비중을 확인
[배송 형태]를 [마크] 카드의 색상에 드래그 앱 드롭
[배송 형태]를 [마크] 카드의 레이블에 드래그 앱 드롭
3)비율 막대 차트
=>세부 항목 또는 측정 값을 비율로 표현할 때 활용하는 차트
=>세부 항목의 비율에 따라 높낮이가 다르게 표현되는 차트
=>제품 대분류별 배송 형태의 비율을 표시
행에 있는 [합계(매출)] 의 추가 메뉴를 눌러서 [퀵테이블 계산]을 클릭하고 [구성 비율] 선택
7.라인/막대 이중 차트
1)개요
=>막대 차트 와 라인 차트를 활용해서 서로 다른 2가지 정보를 하나의 축으로 확인하는 것이 가능해서 지표 비교 하거나 연동을 유용하게 사용할 수 있습니다.
=>매출 과 수익률을 같이 출력해보면 매출의 추세 와 수익률의 추세로 비교해 볼 수 있습니다.
=>데이터 구성
시계열 1개 와 2개의 측정 값을 이용
2)월 별 매출 과 수익률을 막대 와 라인 차트를 이용해서 출력
[주문 날짜] 필드를 열 선반으로 드래그
열에 있는 [주문 날짜] 의 추가 메뉴를 눌러서 불연속형 [월]을 선택
계산 필드를 만들 때는 사이드 바의 빈 칸에서 마우스 오른쪽을 누른 후 [계산된 필드 만들기]를 선택하고 필드 이름 과 수식을 설정(수익률로 이름을 만들고 수익의합/매출의합 으로 계산): 이름은 수익률 이고 수식은 SUM([수익]) / SUM([매출])
[매출] 과 [수익률] 필드를 행 선반으로 드래그(2개의 차트가 개별적으로 출력)
2개의 라인 차트가 있을 때 하나로 합치고자 하는 경우는 두번째 차트의 Y축을 선택하고 마우스 오른쪽을 누르고 [이중 축]을 선택
값이나 이름을 출력하고자 할 때는 출력하고자 하는 필드를 [마크] 카드의 레이블에 드래그 앤 드롭을 하면 됩니다.
[수익률]을 레이블에 드롭
비율 같은 경우는 서식을 백분율로 변경해서 출력하는 것이 좋습니다.
[합계 매출]의 라인을 막대 그래프로 변경하기 위해서 [마크] 카드에서 [합계 매출]을 선택하고 마크 유형을 막대로 변경
매출액을 표시하기 위해서 [매출] 필드를 선택하고 레이블에 드래그 앤 드롭
레이블의 위치를 수정하고자 하는 경우는 [마크] 카드의 [레이블]을 클릭한 후 [맞춤]을 수정
8.Tree Map - Higlight Table 이라고도 부름
1)개요
=>하나의 차원 과 하나의 측정 값으로도 만들 수 있는 간단한 차트
차원은 여러 개 일 수 있습니다.
Heat Map은 색상의 농도로 크기를 표시하고 Tree Map 은 너비로 크기를 표시합니다.
Heat Map 은 상관 분석 에서 많이 이용하고 Tree Map 은 값의 크기를 알고자 할때 주로 이용합니다.
=>고려 사항
크기의 편차가 큰 경우 사용
파이 차트, 도넛 차트 그리고 Tree Map 은 대략적인 크기로 비교하기 때문에 편차가 작으면 크기 비교가 어렵습니다.
편차가 작을 때는 라인 차트 나 라인/막대 차트를 이용
항목이 5개 이상일 때 효과적
항목의 개수가 적으면 막대 차트가 더 효율적(파이 차트 나 도넛 차트도 항목의 개수가 적을 때 효과적)
=>데이터 구성
레이블로 사용할 차원 1개 와 색상 과 크기로 사용할 측정 값 1 개 또는 2개
2)세그먼트 와 대분류 별로 매출의 합계를 트리 맵으로 구현
=>세그먼트 와 매출을 선택(다중 선택을 할 때 CTRL 키를 이용)
=>오른쪽 상단의 표시 형식에서 트리 맵을 선택
=>세그먼트의 항목이 3개 뿐이라서 보기가 안 좋음
=>여러 개의 필드를 묶어서 하나의 필드처럼 사용하기 - 계층 만들기
대분류, 중분류, 제품이름으로 하나의 계층을 생성
=>만들어진 계층을 [마크] 카드의 색상으로 드래그
=>[마크] 카드에서 계층을 만든 항목은 왼쪽에 + 버튼이 있어서 + 버튼을 눌러서 세부 항목까지 출력하는 것이 가능
계층 순서대로 세분화 시킬 수 있으므로 계층을 만들 때는 순서를 고려해서 만들어야 합니다.
9.Word Cloud - Tag Cloud
1)개요
=>텍스트의 크기 나 색상으로 값을 시각화하는 도구
=>자연어 처리에서는 단어의 빈도 수를 가지고 워드 클라우드를 생성하는데 태블로에서는 빈도 수 보다는 측정 값을 가지고 크기 나 색상을 결정
자연어 처리에서는 키워드 분석(이슈) 이나 연관 분석(특정 단어와 연관해서 자주 출현하는 것을 찾아내는 분석)에 이용
자연어 처리에서는 단어의 모임만 있으면 가능한데 태블로에서는 텍스트 형식의 차원 과 측정 값이 필요
태블로에서는 2개의 측정 값을 이용해서 색상 과 크기를 별도로 적용하는 것이 가능
2)도시 별 매출에 대한 워드 클라우드 생성
=>[도시] 필드를 [마크] 카드 위의 레이블로 설정
=>[매출] 필드를 [마크] 카드 위의 크기로 설정
=>현재는 Tree Map 의 형태인데 워드 클라우드로 변경하기 위해서 [마크] 의 유형을 텍스트로 변경
=>매출을 이용해서 색상을 설정하고자 하면 [매출] 필드를 [마크] 카드의 [색상] 으로 드래그
=>도시 항목의 개수가 너무 많아서 화면에 너무 많은 단어가 출력되고 편차가 크기 때문에 크기가 너무 작은 데이터가 많습니다.
이런 경우에는 몇 개의 단어만 추출해서 출력을 해야 합니다.
태블로에서는 이렇게 데이터를 골라내는 것을 필터라고 합니다.
[도시] 필드를 필터 선반으로 드래그
3)Use Case
=>대부분은 단어의 모임에서 단어의 출현 빈도를 표시하고자 할 때 사용
10.Area Chart
1)개요
=>시계열에 따른 누적 데이터의 구성을 보여 줄 때 효과적
=>색상을 이용해서 영역의 비율이나 비중을 표현
=>시간의 추이에 따라 어느 제품군에서 가장 큰 매출을 만들어내는지 또는 고객 분석을 할 때 성별, 지역별, 연령별로 어느 항목에서 비중이 증감하는지 등을 파악할 때 사용
=>1개의 시계열 데이터 와 1개의 차원 그리고 측정 값이 필요
=>시간의 흐름에 따른 콘텐츠 별 시청 수 와 같은 데이터를 영역 차트로 만들고자 하는 경우 날짜 와 시청자 수 그리고 콘텐츠 유형 같은 데이터를 가지고 열에는 날짜를 행에는 시청자 수를 색상에 콘텐츠를 설정
공장에서 생산 라인이나 작업자에 따른 날짜 별 생산량 추이를 보고자 하는 경우에도 사용하면 효율적
2)주문 날짜 별로 대분류에 따른 매출의 변화
=>사이드바에서 필요한 필드를 전부 선택: 주문날짜, 대분류, 매출
=>오른쪽의 표현 형식에서 영역 차트를 선택
=>[대분류] 필드를 [마크] 카드 위의 [레이블] 로 드래그
=>날짜 기준이 년도로 되어 있는데 이를 조정: [열] 선반의 [주문 날짜] 필드 앞의 버튼을 클릭해서 변경이 가능
=>영역 차트에서는 격자 눈금이 별로 도움이 되지 않으므로 눈금선 제거
워크 시트(캔버스)의 빈 영역을 선택하고 마우스 오른쪽을 클릭해서 [서식 ..]을 선택하고 행 탭에서 상단 오른쪽의 선택 한 후 [격자선] 없음을 선택
=>날짜 범위 설정
시계열을 자동으로 선택하도록 하는 경우 실제 데이터 와 날짜가 맞지 않는 경우가 발생할 수 있음
이런 경우에는 날짜의 범위를 수정해야 하는데 날짜의 범위를 수정할 때 날짜 축 위에서 마우스 오른쪽을 누르고 [축 편집]을 선택하고
=>날짜 서식 지정
분기 별로 출력하는 경우 년도 분기 분기번호 형태로 출력되는데 이를 수정
X 축에서 마우스 오른쪽을 누르고 [서식..] 을 선택한 후 [축] 탭에서 [눈금]의 [날짜]를 클릭한 후 [사용자 지정]을 선택하고 yyyy q 분기 로 설정
11.Scatter Chart
1)개요
=>행 과 열 선반에 1개 이상의 측정 값을 배치해서 데이터가 어떻게 분포되어 있는지 파악하는 차트
=>색상 과 크기를 이용해서 다른 측정 값을 추가로 표현하는 것이 가능
=>분포 위치를 표현하거나 상관 관계를 파악할 때 유용
=>분포를 표현하는 경우는 수익성 과 매출이 높은 회원을 동시에 파악하거나 수익률 또는 반품률 같이 대비되는 데이터를 동시에 파악해서 영업 사원의 정확한 실적을 파악하는 경우에 사용
군집 분석(데이터를 그룹화하기 위한 분석 - 그룹이 라벨링되어 있지 않은 경우 사용)을 할 때 몇 개의 군집으로 만드는 것이 효율적일지 파악할 때 도 사용
=>상관 분석을 해서 상관 계수를 구하기 전에 둘 사이의 상관 관계가 있는 것인지 파악을 하는 것이 먼저입니다.
=>1개의 차원 필드와 2개 이상의 측정 값 필드가 필요(4개 까지 사용)
2)실습: 도시별 수익 과 매출의 분포를 확인
=>마크 유형을 원으로 설정
=>매출 필드를 열 선반으로 설정
=>수익 필드를 행 선반으로 설정
=>합계가 적용되어 있어서 하나의 점으로 표시
=>[도시] 필드를 마크 카드의 위의 세부정보에 드래그 앤 드롭
=>[할인율] 필드를 마크 카드의 색상 위로 드래그 앤 드롭
=>측정 값을 데이터로 사용할 때 기본 함수가 합계 인데 이를 수정
마크에 있는 필드를 선택하고 추가 메뉴를 클릭해서 수정이 가능합니다.
=>[수량] 필드를 마크 카드 위의 크기로 드래그 앤 드롭
'LG 헬로비전 DX DATA SCHOOL > Tableau' 카테고리의 다른 글
Tableau 입문 4 (0) | 2023.08.07 |
---|---|
Tableau 입문 3 (0) | 2023.08.04 |
Tableau 입문 2 (0) | 2023.08.03 |