#2. Data Analysis/#2.4. Tableau

[태블로] #2. 스타벅스 칼로리 분석 (워드클라우드, 박스플롯)

지지킴 2025. 4. 23. 16:13

✈️오늘의 분석 거리

지난번 스타벅스 분석 #1에 이은 심화 분석을 진행하겠습니다.

1. 상세 메뉴별 칼로리 분석 (근데 이제 워드클라우드를 곁들인...)
2. 메뉴 카테고리 별로 칼로리 분포 상태와 이상치 분석 (박스 플롯)

0. 테이블 정보

[테이블1] 스타벅스 메뉴 정보 / [테이블2] 스타벅스 매장 정보

 

 

1.  상세 메뉴 별 칼로리 분석 (텍스트 분석)

 

사용한 스타벅스 메뉴 정보를 보면 메뉴 종류가 약 140가지가 되는데요, 이 메뉴들의 칼로리를 알아보고 싶습니다. 자세한 칼로리를 알기보단 대강적인 칼로리 크기를 한 눈에 파악하면 좋겠는데요, 이럴 땐 워드클라우드를 사용할 수 있습니다. 워드클라우드는 방대한 키워드 속에서 분석 목적에 따라 핵심 키워드를 표현하는데 유용한 시각화입니다.

 

태블로에서 워드클라우드를 표현할 땐, 열과 행을 사용하지 않습니다. 만약 칼로리가 많을 수록 글자 크기를 크게, 붉게 표현하고, 칼로리가 적을 수록 글자 크기를 적게, 파랗게 표현하고 싶다면 칼로리에 따른 크기와 색상을 조절하면 됩니다. 이때 좌측의 마크 선반을 사용할 수 있습니다. 먼저 메뉴명을 텍스트로 표현 > 칼로리(합계, 평균 상관없습니다)를 색상, 텍스트 크기로 표현하면 위와 같은 워드 클라우드 분석이 완료 됩니다. 제주 까망 크림 프라푸치노가 칼로리가 가장 높은 것을 한 눈에 알 수 있습니다!

 


2. 메뉴 카테고리 별 칼로리 분포 분석

메뉴 카테고리 별 칼로리의 자세한 분포를 분석하고 싶습니다. 서로 다른 데이터 군을 한 눈에 쉽고 자세하게 비교하고 싶을 땐 박스플롯을 사용할 수 있습니다. 박스플롯은 데이터의 분포와 이상치를 파악하기에 적합한 분석 방식입니다. 워드클라우드가 서로 다른 데이터군을 텍스트로, 탐색적으로 분석하는 것이었다면, 박스플롯은 수치로, 통계적으로 분석하는 방식입니다.

 

위의 분석을 통해 메뉴 카테고리의 메뉴들의 칼로리 분포 + 카페인 양까지 알 수 있습니다. 그리고 이상치도 알 수 있습니다. 프라푸치노 카테고리에서 두가지 이상치가 보이네요. 아래의 이상치는 에스프레소 프라푸치노, 위의 이상치는 제주까망프라푸치노 입니다.  박스플롯을 해석하려면 먼저 박스플롯에 대해 알아야 합니다. 박스플롯은 경첩, IQR, 수염, 중앙값으로 구성되어 있으며, 각각의 의미는 다음과 같습니다.

경첩 위쪽 경첩 (Q3) 상위 25% 지점
박스의 위쪽 경계선
아래쪽 경첩 (Q1) 하위 25% 지점 값
박스의 아래쪽 경계선
IQR Q3 - Q1 
데이터의 50%가 포함된 범위
IQR 값이 클수록 데이터의 분포가 넓고, 작을수록 분포가 좁음
수염 상한 수염 Q3 + 1.5*IQR
상한 수염보다 큰 값은 이상치로 간주
하한 수염 Q1 -1.5*IQR
하한 수염보다 작은 값은 이상치로 간주
중앙값 데이터의 중간값(50% 지점)

 

 

(좌) 프라푸치노 카테고리의 박스플롯/ (우) 메뉴 카테고리별 박스 플롯

위의 박스플롯 설명을 토대로 스타벅스 메뉴의 카테고리별 박스 플롯을 해석해보겠습니다

✅IQR (박스 크기)

IQR이 큰 것으로 보이는 카테고리는 기타제조음료, 티바나, 콜드브루커피이며, 이 카테고리의 칼로리 데이터는 분산되어 있다는 것을 의미합니다. 반면, IQR이 작은 것으로 보이는 카테고리는 스타벅스주스와 프라푸치노, 브루드커피 입니다. 이는 데이터의 50%가 좁은 구간에 몰려있음을 의미합니다. 즉,데이터가 중앙값 근처에 밀집해 있어서 변동성이 적고 안정적인 분포를 가지고 있다는 의미입니다.

 

✅이상치

상한 수염과 하한 수염을 넘어 이상치로 존재하는 데이터는 프라푸치노 카테고리에서만 확인 됩니다. 제주까망프라푸치노는 600kcal, 에스프레소 프라푸치노는 140kcal 입니다. 이들은 프라푸치노 카테고리의 상한 수염(460kcal)과 하한 수염(185kcal)의 범위를 벗어나 이상치로 분류가 되었습니다. 

 

✅중앙값 + 수염 길이 = 비대칭성(Skewness) 파악하기

박스 안의 옅은 회색/진회색의 경계선이 중앙값입니다. 중앙값은 데이터의 중심을 나타내며, 데이터가 어느 방향으로 치우쳐있는지를 알 수 있습니다. 수염의 길이데이터의 극단적인 값들이 존재하는지를 알려줍니다. 즉 수염의 길이를 확인함으로써 데이터에 비대칭성이 있는지 여부를 판단할 수 있습니다. 

비대칭 분포 오른쪽으로 치우친 경우 - 중앙값이 Q1에 더 가까움
- 박스의 오른쪽 부분이 길어짐
- 오른쪽 수염도 길 수 있음
- 큰 값이 일부 존재해 평균을 끌어올림 (평균 > 중앙값)
왼쪽으로 치우친 경우 - 중앙값이 Q3에 더 가까움
- 박스의 왼쪽이 더 김
- 작은 값이 많아 평균이 낮아짐 (평균 < 중앙값)
대칭 분포 - 데이터가 고르게 분포되어 있음
- 정규 분포, 안정적인 분포

 

예를 들어 콜드브루커피는 중앙값이 Q1쪽에 가까운 오른쪽 비대칭 모양을 띕니다. 이는 IQR안에서 Q1쪽에 더 많은 데이터가 몰려있다는 것을 의미하며, Q1~중앙값 사이의 데이터 밀도가 높다는 것을 말합니다. 또한 콜드브루커피 카테고리는 오른쪽 수염이 길게 나타납니다. 이는 일부 큰 값들이 전체 평균을 올린다고 볼 수 있겠습니다.


3. 정리

  • 워드클라우드: 방대한 키워드 속에서 분석 목적에 따라 핵심 키워드를 표현하는데 유용한 텍스트 분석
  • 박스플롯: 서로 다른 데이터 군을 한 눈에 쉽고 자세하게 비교할 수 있음. 데이터의 분포, 이상치를 파악하기에 적합. 수치/통계적 분석.

 

<참고>