데이터분석을 위한 사고력을 기르는 것이 중요하다.
Ontology
이 작업을 하고 리서치를 진행한다. 대분류/중분류를 먼저 나누고 난 후 검색을 진행한다.
회사 안에 있는 기술팀이 있다. 기술자들이 하는 것은 분석이 아니다. 프로그램을 짜서 프로세스를 프로그램으로 만드는 사람이기 때문에, 분석해야 할 키워드를 우리가 줘야한다. 그러기 위해서는 우리도 조금의 코딩 실력이 필요하다.
SPC 브랜드에서의 면접 질문이 “세가지 브랜드 모두 살릴 수 있는 방안은?”이라는 게 있었다. 이거는 즉 이 브랜드에 대해서 많이 알고 고민했는지를 확인하는 질문이다.
소셜분석
“Sometrend” AI 리포트작성 기능이 있다. 블로그나 기사 검색량을 이용해서 요약을 해주는 서비스이다. 언급량 분석, 소셜에서 얼마나 영향력이 있는지 분석해준다. 대시보드를 구성하는 UI,UX을 도움받을 수 있다. 중요도를 확인하는 용도이다. 텍스트 분석에서는 빈도수 체크를 많이 한다. 많이 나올 수록 중요하다고 취급한다. 네이버 트렌드, 구글 트렌드도 있다. 기본적인 보고서 쓸 때 사용되는 서비스이다. 검색량, 키워드 분석한다.
소상공인들에게 유입량 분석을 보여주는 것이 구글 애널리틱스다. 대기업들은 자체적으로 분석 기술이 있지만, 홈페이지를 들어오는 사람들이 어떤 경로로 들어왔는지 소상공인들에게 데이터를 제공한다. 장바구니에 넣어놓고 물건을 구매안했을 때, 리워드 비율이 되게 좋다고 한다. 이게 애널리틱스 직군들이다. 로그값들을 이용해서 몇시에 가장 많이 들어오는지, 어느 사이트에 오래 머무는지, 어떤 경로로 들어오는지 확인하고, 다른 것들을 분석하고, 마케팅에 활용하는 것에 쓰인다.
IT회사는 가고 싶고, 어려운 것 까지는 못하겠다, 기본 베이스는 하고 싶다 → 구글 애널리틱스 자격증 따기를 추천한다.
대기업에서는 IT팀이 다 있어서, 아이디어 제공하면 개발자가 해준다. 대기업 제외하면 200-300명 회사들이 많은데 이런 회사가 큰 회사다. 데이터분석 플랫폼 회사들이 있는데 플랫폼만 만들어서 제공하는 회사를 찾아보면 인원수가 5인 미만이 중소 벤처로 보고, 200명 이상 회사는 큰 회사로 취급한다. 연봉이 작아도 고생 1-2년하면 스카웃 다 해간다. IT 쪽에서는 알아주는 회사이기 때문이다. AI 플랫폼, 데이터분석 플랫폼을 제공하는 회사들에 들어가면 프로그래머는 다 따로 있고, 분석가랑 통계 사람들이 따로 있다. 5인 미만 회사에 가면 헬스케어가면 대박나는 케이스가 많다. AI 도입으로 많이 수혜받는 분야가 헬스케어이다.
www.bigzami.com 빅재미 카페 배달매출과 날씨의 상관관계 분석사례
과정 마지막에 보고서 제출할 때 이정도 퀄리티는 되어야 한다.
파생변수: 새로운 컬럼, 필요한 변수를 생성
그래프 분석 후 제대로 분석이 됐는지 확인하기 위해 통계 사용 (검정통계량, 자유도, P-Value, 신뢰구간, 상관계수)
보고서에는 통계지표를 넣어야 한다. 하지만 세일즈 분석만 한다고 하면 차트만 해서 유의미한 부분만 분석하고 끝낼 수도 있다. 우리가 하는 일은 “우리 무슨 분석 해볼까?”를 고민하는 일, 카페 음료도 어떻게 했으면 좋겠는지, 매출분석할 때 추론이 된다면 가설에 맞게끔 분석할 수 있는 필드를 만들었으면 좋겠다고 제안하는 일이다. 카드회사에 들어가고 싶은데, 은행 금융권인데 자기 카드에 소비패턴 나오는데 다른 것도 나왔으면 좋겠다고 제안하면 된다. 내가 봤을 때 유의미한 이런 정보도 넣었으면 좋겠다라고 말하는 일이다. 업종 분류 더 해서 생활패턴을 더 자세히 했으면 좋겠어요. 배달음식 많으면 어떤 것을 줄이고, 저쪽을 늘리고 하면 좋을 것 같아요~ 라는 제안을 하기가 중요하다. 이 회사만의 상품을 분석하고 나아지려고 하는 문제를 데이터로서 증명할 수 있다~라는 말을 해야한다.
최대한 쓰는 컬럼만 남겨둔다.
숫자 → 계산가능하기 때문에 데이터타입을 숫자로 변경해야한다.
카페매출데이터셋에서 이 자료만 가지고 왔으면 좋겠어 라는 코드를 써야한다. (데이터 추출작업, 쿼리언어, SQL)
회사 내에 데이터셋이 있는데 필요한 데이터를 가져오세요. 라고 한다면 SQL을 사용해야한다. SQL은 공부하는 언어가 아니라 그냥 아는 언어이다. 데이터베이스는 어렵지만 SQL 중에서 질의언어는 쉽다. 요즘은 데이터 추출을 전산팀에서 안해준다. 회사에서는 그냥 데이터 다 준다. SQL은 필수스킬이다. SQL은 자격증 따야한다.
성별에 따르는 학생의 점수는 영향이 있을까? 데이터 분석
숫자이지만 문자화해야하는 것이 나이 같은 데이터다.
- 피벗테이블 삭제할때 위에거 뭐라 오류나니까 그냥 빈셀 복사해서 붙여넣기
- 보고서 레이아웃 - 모든 항목 레이블 반복
- 값 필드 ‘표준편차’ 설정
편차가 큰 곳들을 확인하려고 한다.
원칙적으로는 다 비교해가면서 차트를 만들어야 한다. 전체 항목들이 점수에 영햐을 미치는지 확인한다.
차트 복붙 Ctrl+D
열 자리 옮기기 줄 선택 - Shift 눌러서 - 옮기기 (양방향 Arrow 나올때)
인덱스키 = 번호 컬럼
A1, A2 에 각각 1,2 입력하고, 두개 셀 선택해서 오른쪽 하단 십자가 커서 나오면 더블클릭하면 쭉 순서대로 기입된다.
엑셀 데이터분석 기능 추가하기
파일 - 옵션 - 추가기능 - 분석 선택 후 - 이동 - 확인
아래는 기술통계값
왜도 / 첨도값
데이터 편향성을 분석해야한다. 여자 남자 데이터 중에서 여자 값이 너무 많으면 편향되어 나타나게 되어있다.
고객 분석 데이터에서 첨도(Kurtosis)와 왜도(Skewness)가 중요한 이유는, 이 두 지표가 고객 행동의 분포 특징을 파악하는 데 도움을 주기 때문입니다. 고객 데이터는 보통 소비 패턴, 방문 빈도, 구매 금액 등 여러 측면에서 다양한 분포를 보이는데, 이를 정확하게 분석하기 위해 첨도와 왜도를 이해하는 것이 매우 중요합니다.
1. 왜도(Skewness) – 고객 행동의 비대칭성 파악
왜도는 데이터가 평균을 중심으로 대칭적인지, 아니면 한쪽으로 치우쳐 있는지를 알려줍니다. 즉, 고객 행동에서 특정한 비대칭적인 패턴이 있는지 파악하는 데 매우 유용합니다.
양의 왜도: 고객 중에서 소수가 매우 높은 구매나 지출을 하는 경우를 나타냅니다. 이는 VIP 고객이나 프리미엄 고객의 행동일 수 있습니다. 예시: 대부분의 고객이 중간 정도의 구매를 하지만, 소수의 고객이 매우 많은 금액을 소비하는 경우.
음의 왜도: 고객 중에서 대부분이 낮은 지출을 하고, 소수가 지출을 거의 하지 않거나, 예외적으로 극단적인 행동을 보이는 경우를 나타냅니다. 예시: 대부분의 고객이 구매를 잘 하지 않지만, 일부가 매우 낮은 금액을 소비하거나 드문드문 구매하는 경우.
고객 분석에서 중요한 이유:
왜도는 고객 그룹 내에서 특정 행동 패턴이 한쪽으로 쏠려 있는지를 알려줍니다. 예를 들어, 특정 고객층이 지출을 많이 하거나 특정 제품에 관심이 집중된다면, 왜도를 통해 그 현상을 정확히 파악하고, 마케팅 전략을 집중 타겟팅할 수 있습니다.
2. 첨도(Kurtosis) – 극단적인 행동 탐지
첨도는 데이터 분포에서 극단적인 행동(꼬리 부분)이 얼마나 자주 나타나는지를 나타냅니다. 고객 데이터에서 첨도는 극단적인 소비나 행동 패턴을 찾아내는 데 중요한 역할을 합니다.
높은 첨도: 극단적인 고객 행동이 자주 발생하는 경우를 의미합니다. 일부 고객이 매우 극단적인 구매 행동(매우 큰 구매액, 자주 구매 등)을 보일 때 나타납니다. 예시: 일부 고객들이 아주 많은 돈을 자주 쓰는 경우가 많으면 첨도가 높습니다. 이러한 고객은 특별한 관리가 필요하거나, VIP 마케팅의 주요 대상이 될 수 있습니다.
낮은 첨도: 극단적인 행동이 드물게 발생하는 경우입니다. 고객 대부분이 비슷한 행동을 보이고, 매우 큰 지출이나 자주 구매하는 고객이 거의 없는 경우를 의미합니다. 예시: 대부분의 고객이 평균적인 지출을 하고, 극단적인 소비가 거의 없다면, 첨도가 낮습니다. 이 경우는 대체로 안정적인 고객 행동 패턴을 나타냅니다.
고객 분석에서 중요한 이유:
첨도는 극단적인 고객 행동을 분석하고, 이를 통해 VIP 고객을 식별하거나, 이상치 탐지에 유용합니다. 만약 첨도가 높다면, 매우 높은 지출을 하는 고객이 존재할 가능성이 크므로, 이들에게 집중적인 마케팅을 할 수 있습니다. 반면, 첨도가 낮으면 평균적인 소비 패턴이 주를 이루고, 보다 균일한 마케팅이 효과적일 수 있습니다.
3. 첨도와 왜도가 고객 분석에서 중요한 이유 요약
고객 행동의 불균형 파악: 왜도를 통해 고객들이 한쪽으로 치우친 행동을 하고 있는지 확인할 수 있습니다. 예를 들어, 특정 연령대나 소득 그룹이 주로 지출하거나, 특정 상품을 주로 구매하는 고객이 있는지 파악할 수 있습니다.
극단적인 고객 행동 탐지: 첨도는 고객 중 극단적인 행동(예: 매우 높은 지출이나 빈번한 방문)을 하는 소수 고객을 찾아내는 데 도움을 줍니다. 이러한 고객을 식별해 특별한 혜택을 제공하거나, 맞춤형 VIP 마케팅 전략을 구상할 수 있습니다.
마케팅 전략 최적화: 왜도와 첨도는 어떤 고객을 타겟팅해야 할지 또는 전체 고객을 대상으로 어떤 전략을 세워야 할지를 결정하는 데 중요한 역할을 합니다. 비대칭적으로 행동하는 고객을 타겟팅하는 맞춤형 전략을 통해 마케팅 효율성을 높일 수 있습니다.
이상치 탐지: 왜도와 첨도는 일반적인 소비 패턴에서 벗어난 고객의 행동(이상치)을 탐지하는 데도 유용합니다. 예를 들어, 평소에는 낮은 지출을 하던 고객이 갑자기 큰 구매를 하거나, 정반대로 자주 구매하던 고객이 갑자기 이탈할 경우 이러한 변화를 쉽게 감지할 수 있습니다.
결론
첨도와 왜도는 고객 분석 데이터에서 비대칭적인 행동과 극단적인 소비 패턴을 이해하는 데 중요한 도구입니다. 이 두 지표를 활용하여 고객군의 특성을 더 깊이 분석하고, 맞춤형 마케팅 전략을 세울 수 있습니다. 고객의 행동이 고르게 분포되어 있지 않더라도, 그 불균형과 극단적인 행동 패턴 자체가 마케팅에서 중요한 정보일 수 있습니다.
빅데이터는 대부분 정규분포를 따른다. 빅데이터는 정규성 검증을 안하는 것을 원칙으로 하지만, 원칙은 그렇지만 여전히 데이터 분석은 원칙과 별개로 반드시 해야한다. 빅데이터 검증에서 안하는 것은 정규성, pvalue, 왜도 다루지 않는다. 빅데이터만 전문으로 하는 IT회사는 아예 안한다. 데이터 넣고 눈으로보고 연관성있는지 확인하고 다 프로그램으로 돌려버린다.
피벗테이블 행, 값, 열에 끌어다가 놓기
차트 누르고 삽입 - 슬라이서를 누른다.
한페이지에 차트와 데이터 들어오게 하려면 인쇄페이지 설정하기
여백 두고 인쇄하기
보고서 받는 사람을 생각해서 보고서 인쇄까지 신경쓰기
코딩은 최근 GPT를 통해서 이론만 안다면 할 수 있게 되었다. 기술보다 중요한 것은 데이터를 넣기 전에, 데이터를 어떻게 완성할 것인가에 대해 많은 고민을 해야한다.
ctr+shift+내리기 버튼 아래까지 잡힌다
최빈값: 가장 많이 나오는 값
서열척도와 명목척도는 데이터를 구분하는 두 가지 방식이다.
1. 명목척도 (Nominal Scale): 명목척도는 이름만 붙이는 것이라고 생각하면 된다. 이 척도는 서열이나 순서가 없는 데이터들이다.
예시: 축구팀 이름 (A팀, B팀, C팀) 혈액형 (A형, B형, O형, AB형) 선호하는 색상 (빨강, 파랑, 초록)
특징: 순서가 없다. 어떤 팀이나 혈액형이 더 높거나 낮은 게 없다. 그냥 분류하는 역할을 한다.
2. 서열척도 (Ordinal Scale): 서열척도는 순서가 있는 데이터다. 등수나 순위를 매길 수 있는 자료들인데, 차이가 얼마인지 정확하게는 모른다.
예시: 영화 순위 (1위, 2위, 3위) 만족도 조사 (매우 만족, 만족, 보통, 불만족) 학년 (1학년, 2학년, 3학년)
특징: 순서가 있다. 누가 1등인지, 누가 더 만족하는지 알 수 있다. 하지만 1등과 2등 사이의 차이가 얼마나 큰지는 모를 수 있다. 1등이 2등보다 조금 더 잘했는지, 많이 잘했는지는 알 수 없다.
엑셀로는 표준화 작업이 너무 힘들다. 집계할 때는 웹사이트를 만들라고 제안한다.
뉴스기사 모아놓은 데이터 사이트 - 빅카인즈
'커리어 노트 📈 > KPMG 교육' 카테고리의 다른 글
Project 기획 및 관리 (1) MySQL (0) | 2024.11.15 |
---|---|
Business AI 개론 및 IT 산업 혁신 (5) (12) | 2024.11.11 |
Business AI 개론 및 IT 산업 혁신 (4) (9) | 2024.11.11 |
Business AI 개론 및 IT 산업 혁신 (2) (0) | 2024.10.22 |
Business AI 개론 및 IT 산업 혁신 (1) (0) | 2024.10.22 |