IT 직군에서는 30대 이상의 신입을 잘 뽑지 않는 경향이 있다. IT 직군은 커뮤니케이션 능력을 중시하며, 따라서 나이와도 관련이 있다. 어떤 일을 하든 경험을 많이 쌓고 커뮤니케이션 능력을 기르는 것이 중요하다. 자신이 지원하는 회사가 본인과 잘 맞는지, 자신이 잘할 수 있는 부분이 무엇인지 파악하는 과정이 필요하다. 기술 영업은 기술의 스펙을 설명하고 프레젠테이션하는 역할을 한다.
인공지능은 비용의 문제이다. 충분한 자원과 데이터셋이 있으면 문제를 해결할 수 있지만, 경제적 성과가 미비한 이유는 투자 대비 효율이 낮기 때문이다. AI 도입에는 큰 비용이 들며, 예를 들어 데이터셋을 준비하는 데만 1억 원이 소요된다. 대기업은 투자 대비 효과성을 증명하고 AI를 도입하지만, 중소기업은 이런 검증 과정 없이 진행하기 때문에 오히려 중소기업에서 AI 활용이 더 활발하다. 대기업은 기존 시스템을 AI로 대체하는 것이 어렵고 기존 시스템이 이미 잘 운영되고 있기 때문에 굳이 AI로 바꿀 필요가 없다. 반면, 대기업이 AI를 적극적으로 사용하는 분야는 콜센터(CS 센터)이다. 콜업무는 비용이 많이 들며, 전문화가 덜 되어 있고, 직원들의 회사에 대한 충성도가 낮기 때문에 AI를 도입해 효율성을 높이려는 시도가 많다.
AI는 열전도 분석 등을 통해 제조 공장에서의 활용 방안을 찾는 등 특정 분야에 적용되고 있다. 대기업의 경우 기존 시스템을 유지하면서 AI를 적용하기 어려운 반면, 중소기업은 AI 도입을 통해 효율성을 높이는 방법을 많이 사용하고 있다.
AI의 원리 중 하나는 오차 값을 줄여가는 것이다. 기계 학습에서는 파이썬의 다양한 패키지, 예를 들어 scikit-learn 같은 패키지를 학습하는 것이 필요하다.
- 자연어 처리 과정 예시
- 문장: "나는 강아지에게 간식을 줬어."
- 전처리: 불용어 제거 및 글자 치환
- 토큰화: "나", "는", "강아지", "에게", "간식", "줬어" 등으로 나눔
- 벡터화: 단어를 수치로 변환 (예: [0, 0.5, 1.1, 0.55, 0.1])
이러한 과정을 통해 AI가 데이터를 학습하고 처리할 수 있게 된다.
벡터DB는 벡터 데이터를 효율적으로 저장하고 검색할 수 있는 데이터베이스로, 색인을 통해 빠르게 데이터를 찾을 수 있다. 올해 가장 주목받는 기술 중 하나가 벡터 데이터이다. GPT 시스템에서는 질문의 벡터 값과 데이터베이스의 벡터 값 간의 유사도를 비교하여, 확률적으로 가장 많이 일치하는 벡터 값을 조합해 답을 생성한다.
기획자는 사용자 인터페이스(UI)도 함께 고려해야 한다. 예를 들어, 손가락이 자주 사용하는 위치에 인터페이스를 배치할 것인지, 아이콘 해상도가 디스플레이의 용도에 따라 다르기 때문에 이를 어떻게 최적화할 것인지 등을 결정해야 한다. 디자이너의 작업 비용이 줄어드는 만큼, 데이터 분석가들이 서비스 설계 시 이러한 부분을 염두에 두는 것도 중요하다.
시스템 설계 시에는 해당 시스템이 어디에서 서비스될 것인지 고려해야 한다. 예를 들어, 로컬 환경에서 사용할 것인지, 웹사이트나 모바일, PC 환경에서 사용할 것인지, 네트워크는 와이파이인지, 보안 환경은 어떤지에 따라 설계 환경이 달라진다.
AI는 개인화된 서비스 제공이 핵심이다. 개별 사용자에게 맞춘 맞춤형 서비스를 제공하는 것이 AI의 주요 목적이다.
EDA(탐색적 데이터 분석)는 데이터를 시각적으로 탐색하고 분석하는 방법론이다. EDA의 대표적인 도구로는 차트와 같은 시각화 도구가 있으며, 이 중 하나가 Churn Analysis이다.
1. EDA(Exploratory Data Analysis, 탐색적 데이터 분석)
EDA는 데이터를 본격적으로 분석하기 전에 데이터의 주요 특징을 시각화하거나 요약하여 파악하는 과정입니다. 이는 데이터를 분석하기 전에 데이터를 이해하고, 숨겨진 패턴이나 문제점을 발견하여 분석 모델을 설계하는 데 중요한 첫 단계입니다.
EDA에서 자주 사용하는 방법들:
- 기술통계 (Descriptive Statistics):기본 통계량: 데이터의 요약 통계 정보인 평균, 중앙값, 최빈값, 분산, 표준편차 등을 계산합니다.예: Churn Analysis에서 고객의 나이 평균, 요금 평균, 이탈률 등을 계산하여 주요 통계를 파악합니다.
- 분포 분석: 히스토그램 등으로 데이터가 어떻게 분포되어 있는지 확인합니다.예: 고객의 연령대가 특정 구간에 집중되어 있는지, 요금이 특정 구간에 몰려 있는지 등을 확인할 수 있습니다.
- 시각화(Visualization) 차트와 그래프: 데이터를 시각적으로 표현해 분석하는 방법입니다. 시각화는 EDA의 핵심 요소 중 하나로, 데이터를 쉽게 이해하고 주요 패턴이나 트렌드를 빠르게 파악할 수 있습니다. 이 과정에서 다양한 그래프와 차트가 사용됩니다.
- 히스토그램: 데이터의 분포를 살펴볼 때 사용.
예: 고객 연령대 분포 - 상자 그림(Boxplot): 데이터의 범위와 이상치(Outliers)를 시각적으로 나타냄.
예: 특정 변수(요금제)의 이상치를 탐지 - 산점도(Scatter Plot): 두 변수 간의 관계를 시각화하여 패턴을 파악.
예: 데이터 사용량과 이탈 여부 간의 관계를 시각화 - 바 차트(Bar Chart): 범주형 변수의 빈도를 시각화할 때 사용.
예: 요금제별 가입자 수를 비교 - 히트맵(Heatmap): 여러 변수 간의 상관관계를 시각적으로 표현하는데, 상관계수를 색상으로 나타냅니다. 히트맵은 상관관계 분석에서 자주 사용되며, 데이터의 관계를 빠르게 이해하는 데 매우 유용합니다.
- 상관관계 분석(Correlation Analysis):변수 간 상관관계를 분석하여 어떤 변수가 다른 변수와 얼마나 연관되어 있는지를 파악합니다. 상관계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 양의 상관관계가, -1에 가까울수록 음의 상관관계가 있음을 의미합니다.이 과정에서 히트맵(Heatmap)을 사용하여 상관관계를 시각적으로 표현할 수 있습니다. 히트맵은 상관관계를 색상으로 나타내므로, 색상이 진할수록 강한 상관관계를, 색상이 연할수록 약한 상관관계를 의미합니다.
예: 월 요금과 이탈률의 상관관계, 데이터 사용량과 이탈 여부 간의 상관관계를 히트맵으로 시각화하여 빠르게 파악할 수 있습니다.
2. Churn Analysis (가입자 이탈 분석)
Churn Analysis는 고객의 이탈을 분석하고 예측하는 과정으로, 통신회사 같은 서비스 제공 기업에서 자주 사용하는 분석 기법입니다. 이탈 고객을 줄이는 것이 수익 유지에 중요한 역할을 하므로, 다양한 데이터 분석 기법을 활용하여 이탈 패턴을 파악하고, 이를 통해 전략을 수립하는 것이 목표입니다.
Churn Analysis에서 사용하는 EDA 방법:
- 이탈률 분석: 데이터에서 이탈 고객의 비율(Churn Rate)을 분석합니다. 이는 전체 고객 중 이탈한 고객이 차지하는 비율을 나타냅니다.예: 특정 연령대나 요금제에서 이탈률이 높은지를 분석합니다.이탈 고객의 특성 분석:이탈한 고객의 특성을 분석합니다. 예를 들어, 이탈한 고객들의 평균 연령, 월 요금, 서비스 사용 기간 등을 파악합니다.
예: 이탈 고객들이 평균적으로 요금을 적게 쓰는지, 데이터 사용량이 적은지 등을 파악하여 이탈 원인을 추정할 수 있습니다.
- 이탈 원인 파악: EDA를 통해 다양한 변수를 분석하여 이탈의 원인을 찾아냅니다. 예를 들어, 고객 불만이 많은 고객들이 이탈하는지, 통화 품질이 낮은 고객들이 이탈할 가능성이 높은지 등을 파악합니다.예: 산점도나 바 차트를 사용하여 고객의 월 요금과 이탈 여부 간의 관계를 시각화합니다.변수 간 상관관계 분석 및 히트맵 활용:여러 변수들 간의 상관관계를 분석하여 어떤 변수가 이탈에 가장 큰 영향을 미치는지 파악합니다. 이 과정에서 히트맵(Heatmap)을 사용하여 변수 간 상관관계를 시각적으로 표현할 수 있습니다. 히트맵을 통해 월 요금, 데이터 사용량, 고객 불만 건수 등과 이탈 여부 간의 상관관계를 색상으로 표현하면, 이탈에 중요한 변수가 무엇인지 쉽게 확인할 수 있습니다.
예: 히트맵을 통해 요금과 이탈률, 데이터 사용량과 이탈 여부 간의 상관관계를 시각적으로 표현하고, 가장 중요한 상관관계를 가진 변수를 쉽게 파악할 수 있습니다.
3. 기술통계 (Descriptive Statistics)
기술통계는 데이터를 요약하고 주요 통계적 정보를 제공하는 방법입니다. 이를 통해 데이터를 요약하여 평균, 중앙값, 분산, 표준편차 등의 통계적 정보를 계산할 수 있습니다. 기술통계는 데이터를 빠르게 이해하고, 데이터가 어떤 특성을 가지고 있는지 파악하는 데 중요한 역할을 합니다.
다만, 기술통계가 너무 통계학적일 경우, 이해하기 어렵거나 구체적인 인사이트 도출이 힘들 수 있습니다. 이 때문에, 히트맵이나 차트와 같은 시각화 도구를 함께 사용하여 데이터를 더 쉽게 해석하는 것이 중요합니다.
결론:
EDA는 데이터를 분석하기 전에 탐색하고 시각화하여 데이터의 특징과 패턴을 파악하는 과정입니다. 이 과정에서 기술통계와 차트를 통해 데이터를 시각적으로 분석하고, 히트맵을 사용하여 변수 간의 상관관계를 한눈에 파악할 수 있습니다. 특히 Churn Analysis에서는 고객 이탈 원인을 파악하고, 이탈 예측 모델을 설계하는 데 EDA가 중요한 역할을 합니다.
가입자 이탈 분석에서, 전화 서비스 여부가 이탈에 미치는 영향을 확인하기 위한 가설은 “가입자의 전화 서비스 여부는 이탈에 영향을 미칠 것이다”이다. 그러나 분석 결과, 전화 서비스를 가입했을 때와 하지 않았을 때의 이탈 비율이 각각 50:50으로 동일해 연관성이 없다고 결론짓는다.
피어슨 상관계수는 변수 간의 연관도를 확인하는 지표로, 이를 시각화한 도구 중 하나가 히트맵이다. 히트맵은 X값이 Y값과 얼마나 연관성이 있는지를 시각적으로 보여준다. 예를 들어, X값으로 기온, 강수량, 우산 지참 여부, 성별 등을 두고 Y값으로 물품 구매를 설정했을 때, X값들 중에서 Y와 가장 높은 상관성을 가지는 변수를 찾는다. 이를 통해 다중공선성을 제거한다.
히트맵을 통해 확인하는 것은 X값들 간의 상관성이 아닌, X와 Y 간의 연관성이다.
이상치의 경우, 데이터 수가 적은 경우에는 민감하게 다뤄야 하지만, 데이터가 테라바이트 단위로 충분히 큰 경우에는 이상치가 있어도 크게 신경 쓰지 않아도 된다.
분석질의어
분석 질의어를 통해 어떤 분석을 수행할지 결정하며, 예를 들어 통신사별로 이탈자와 가입자 수를 표로 정리할 수 있다.
분석질의어를 통해서 어떤 분석을 할건지 판단, 통신사별 이탈자, 가입자, 표로 해봐야한다.
- 통신회사에서 가입자이탈을 분석하고자 할 때 필요한 독립변수는?
- 각 항목별 전략수립 세부방안
- 각 항목별 분석 질의어
- 최대한 세부적으로 자세하게 질의
- SQL로 변경
- Q&A로 변경
- 통신사별 연도별 이탈자, 가입자 표 작성
- 기술통계 요청
1. 통신회사에서 가입자 이탈 분석 시 필요한 독립변수
- 가입자 정보 (예: 나이, 성별, 지역)
- 서비스 종류 (예: 전화, 인터넷, 데이터 요금제 등)
- 고객 만족도 지표 (예: 서비스 품질, 고객 지원 등)
- 월 평균 사용량 등
2. 각 항목별 전략 수립 세부 방안
- 고객 세그멘테이션을 통해 특정 그룹에 맞춘 이탈 방지 전략 개발
- 서비스 품질 개선 및 고객 맞춤형 프로모션 제공 등
3. 각 항목별 분석 질의어
“어떤 서비스 유형의 가입자 이탈률이 가장 높은가?”
“가입자의 나이에 따라 이탈률에 차이가 있는가?”
4. 분석 과정
SQL 쿼리로 데이터를 추출하고, 각 질의에 대한 결과를 도출한다.질의 결과를 기반으로 Q&A 형식으로 분석 내용을 정리한다.
5. 데이터 시각화
- 통신사별 연도별 이탈자 및 가입자 수를 표로 작성해 추세를 확인한다.
- 기술 통계를 통해 평균, 분산, 표준편차 등을 계산하여 데이터의 특성을 파악한다.
이러한 과정을 통해 통신사에서의 가입자 이탈 분석을 체계적으로 수행할 수 있다.
‘필드’ (항목, 제목, 카테코리)라고 지피티한테 말하면 더 잘 나온다. 제목별 분석작업에 대해 세밀하게 나눠달라.
Ctrl+D 차트가 복제됨
과연 위 차트에서는 평균값이 진짜 평균값이라고 할 수 있을까?
히스토그램 분석 결과, 가장 빈번하게 나타나는 구간은 11,000원에서 12,800원이다. 히스토그램이 왼쪽으로 치우쳐 있으며, 왼쪽의 극단적인 값이 전체 데이터에 영향을 미친다. 평균은 11,000원이지만, 중앙값을 대표값으로 삼기는 적절하지 않다. 통계적으로 어떤 값을 대표값으로 선택하느냐에 따라 결과가 달라진다. 데이터의 패턴을 파악하기 위해 히스토그램을 먼저 사용하며, 산점도와 히스토그램은 모든 데이터 보는 기본 베이스이다.
모집단과 표본집단
빅데이터는 표본집단이 아니라 모집단과 비슷하다. 모집단을 대표하는지 검증할 필요가 없다. 데이터량이 충분히 많으면, 굳이 그런 검증을 하지 않아도 된다. 요즘에는 국민조사를 전수조사가 아닌 샘플조사로 대신하고 있다. 이는 결과가 비슷비슷하게 나왔기 때문이다.
예를 들어, 통조림 데이터에서 100개를 뽑아 5개가 불량이면, 이는 있을 수 있는 일이라고 판단한다. 불량률 5%는 수학자가 정한 기준으로, 95% 신뢰구간 안에 들어간다. 최근에는 추리통계보다 기술통계를 하는 경향이 강하다. 모집단과 표본집단의 특성이 같은지 검증하는 데 너무 많은 시간을 들일 필요가 없다. 많은 수학 공식에 얽매이기보다는 95% 신뢰구간을 고려하는 게 더 효율적이다. 기술통계에 집중하는 사람들은 이런 검증 과정을 생략하지만, 통계 전공자들은 추리통계도 수행한다.
데이터 간 연관성을 분석할 때 p-value를 확인하는 것이 필수적이다. 이는 고전적 회귀분석에서 중요한 요소다. 알고리즘 중에는 선형회귀라는 고전적인 방식이 있다. XGBoost는 그보다 발전된 기법이며, 빅데이터 분석에 사용되는 XGBoost는 선형회귀를 반드시 포함해야 한다. 내가 만든 모델이 좋은지 검증할 때 이 기법이 포함되어야 한다.
새로운 학설이나 기법을 내 데이터에 적용할 수 있는지 알아보려면, 외국 논문이나 문서를 참조해야 하므로 영어 실력이 중요하다.
'커리어 노트 📈 > KPMG 교육' 카테고리의 다른 글
Project 기획 및 관리 (1) MySQL (0) | 2024.11.15 |
---|---|
Business AI 개론 및 IT 산업 혁신 (5) (12) | 2024.11.11 |
Business AI 개론 및 IT 산업 혁신 (4) (9) | 2024.11.11 |
Business AI 개론 및 IT 산업 혁신 (3) (5) | 2024.11.11 |
Business AI 개론 및 IT 산업 혁신 (1) (0) | 2024.10.22 |