👩🏻‍💻 AI 과정/AI & DT 교육 34

비즈니스 애널리틱스 II (7) 분류 분석 및 평가

분류 분석(Classification Analysis)분류 분석은 머신러닝에서 가장 중요한 알고리즘 중 하나이며, 이산적인 값(Discrete Value) 을 예측하는 데 사용된다. 즉, 데이터가 특정 그룹(클래스)에 속하는지 여부를 판단하는 것이 핵심이다.예를 들어:이메일이 스팸(1)인지 아닌지(0) 분류하는 문제환자가 암에 걸렸는지(Yes) 아닌지(No) 예측하는 모델고객이 이탈할 가능성이 높은지(High) 아닌지(Low) 예측하는 분석실무 활용 예제:✅ 금융 산업 → 신용 카드 사기 탐지 (Fraud Detection)✅ 이커머스 → 고객이 상품을 구매할 가능성이 있는지 예측✅ 의료 분야 → 환자가 특정 질병을 가질 확률 예측✅ 제조업 → 제품의 불량 여부 예측분류 모델은 비즈니스 의사 결정을 내리..

비즈니스 애널리틱스 II (6) 회귀분석, XGBoost 등 최신 빅데이터 기법

회귀 분석(Regression Analysis)회귀 분석은 머신러닝과 통계학에서 가장 기본적이면서도 중요한 기법이다. 데이터의 패턴을 학습하여, 연속형 값(숫자)을 예측하는 데 사용된다. 머신러닝 모델 중에서도 가장 해석이 쉬우며, 데이터가 어떻게 변화하는지 설명하는 데 탁월하다.회귀 분석이 중요한 이유는 "변수 간의 관계를 파악하고 미래 값을 예측" 하는 데 있다. 예를 들어, 고객의 소비 습관을 분석하고 마케팅 전략을 세울 때, 매출을 예측하는 모델이 필요하다. 단순한 가정이 아니라, 데이터 기반의 의사 결정을 내릴 수 있도록 도와주는 것이 회귀 분석의 역할이다.실제 비즈니스에서의 활용 범위는 매우 넓다.✅ 부동산 - 아파트 크기에 따른 가격 예측✅ 금융 - 고객 신용 점수 기반 대출 승인 여부 예측..

비즈니스 애널리틱스 II (5) 분산, 공분산, PCA, 추천시스템

분산, 공분산, 상관계수특징 추출은 데이터를 간단하게 만들면서도 중요한 정보를 뽑아내는 과정이다. 쉽게 말해, 데이터를 잘 살펴보고 비슷한 성질을 가진 것들을 한 방향으로 묶어주는 작업이라고 생각하면 된다. 이 과정을 통해 데이터의 본질을 더 잘 파악하거나 분석하기 쉽게 만들 수 있다.벡터는 어떤 변수에 대해 크기와 방향을 가진 것을 뜻한다. 데이터 분석에서는 벡터를 이용해 변수들 간의 관계를 표현하거나, 비슷한 방향을 가진 데이터끼리 묶는 데 사용한다. 즉, 데이터가 어떤 방향성을 가지고 있는지 확인해서 그룹을 나눌 때 벡터가 중요한 역할을 한다.PCA(주성분 분석)는 데이터를 차원 축소하면서도 중요한 정보를 최대한 유지하는 방법이다. 데이터를 살펴보면 어떤 방향으로 가장 많이 퍼져 있는지를 알 수 있..

비즈니스 애널리틱스 II (4) PCA와 차원축소, AutoML, 데이터스케일링, Fit & Transform

Data Grouping 군집x변수가 많을수록 데이터는 분석하기에 유리해진다고 한다. 최근의 문제는 기존에 갖고 있는 변수가지고는 한계가 있는데 그 이유는 개인화된 데이터이기 때문이다. 방문한 접속 빈도수가 얼마나 되고, 가족 수가 몇명인지, 우리 물건을 어떻게 사갈까 세그멘테이션은 가능하지만, 개개인이 뭘 살지는 예측하기가 어렵다. 얼마나 버는지, 가족구성원, 경제상황, 건강상태 세부적인 내용을 모르기 때문에 그룹안에 넣어버리면 초개인화는 불가능하다. 세그멘테이션이라는 군집으로 안되는 것들을 어떻게 더 세그멘테이션 할 수 있는지 찾아야 한다. 리뷰의 내용을 가지고 개인화한다고 하면 국물이 흘렸다고 리뷰를 자주쓴다면 청결함, 까칠함, 우선시하는 것들을 볼 수 있다. 이런 것들까지 분석하는 최고의 도구가 ..

비즈니스 애널리틱스 II (3) K-means, 유사도 계산, 단위 벡터

SPSS/SASS 통계 소프트웨어spss에서 세그멘테이션, RFM, kmeans 할 수 있다.spss는 통계전문 소프트웨어 / 드래그앤드롭만 해도 해준다. / 시각화가 안되서 별도의 툴로 해야한다.RFM 분석 : 접근 빈도성으로 고객을 분류해주는 방법론통계만 전문적으로 하는 리서치 회사들한테 별거 아닌데도 외주로 줄만큼 회사 내부에서는 분석관련한 작업을 거의 하지 않는다. 분석안하고 판매 집계 작업만 한다. 심도 있는 분석인 회사에서 하지 않는다.이제는 SPSS나 SASS 처럼 비용을 내지 않는 파이썬으로 작업이 가능하다는 것이다. 기술반이면 오늘 벡터나 넘파이 (한달내내한다), 리스트 얘기하고 있을거다. 넘파이를 정확히 알고 있는지 질문공세를 엄청한다. 아무리 포트폴리오를 해놨다고 해도 신뢰가 백프로 ..

비즈니스 애널리틱스 II (2) 넘파이, 군집분석(K-means), 클러스터링

수업 진도9시~10시: 넘파이 마무리(행열곱셈, 회귀방정식의 기본식 이해)10시~11시: 군집분석(k-means) 기초: 넘파이 인덱스를 알야야 볼수 있어요.11시~1시: 고객클러스터링 파이썬2시~4시: 상관계수, 클러스터링, 인사이트 도출[클러스터링기초] https://github.com/codestates/ds-blog/issues/126[실습기초_고객분류세그멘테이션, 쉽게나옴]https://www.kaggle.com/code/kushal1996/customer-segmentation-k-means-analysis[읽기]https://brunch.co.kr/@kkokkodaec/32[수학적으로 해석]https://gem763.github.io/machine%20learning/K-means-clust..

비즈니스 애널리틱스 II (1) 랭체인, 판다스 AI 보고서 작성, 생성형 BI, Numpy

(교재) 나도 하는 파이썬 데이터 분석비즈니스 애널리틱스 II 과정에서는 머신러닝 관련한 기술을 다뤘다.08. 랭체인_판다스 Ai합쳐서.ipynb (GitHub)import matplotlib.pyplot as pltplt.rcParams['font.family'] ='Malgun Gothic'plt.rcParams['axes.unicode_minus'] =False!pip install -U langchain-openaiimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom scipy.stats import skew, kurtosisfrom langchain_openai import Chat..

비즈니스 애널리틱스 I (3) 텍스트 분할 & 임베딩, 벡터 유사도 분석, 형태소 분석, 네이버 쇼핑몰 데이터 RAG

정크 사이즈 > 정크 오버랩chunk_size와 chunk_overlap은 텍스트 데이터를 일정 크기(chunk_size)로 나누는 과정에서 겹치는 부분의 크기(chunk_overlap)를 설정하는 매개변수이다. 이는 주로 텍스트 분할 작업에서 사용되며, 텍스트 처리 및 분석, 특히 자연어 처리(NLP) 모델에 데이터를 입력하기 전에 텍스트를 잘게 쪼개는 데 유용하다.예시: chunk_size=5, chunk_overlap=1입력 텍스트가 다음과 같다고 가정: "abcdefg"['abcde', 'bcdef', 'cdefg'] 프로그래머들은 계속 숫자 바꿔가면서 테스트를 한다.글자가 계속 겹치면서 나온다는 의미이다. 단어가 기존의 형태소 분석에서 두글자씩을 청크라고 하면 오버랩은 두개씩 해줘야 다 나올 수..

비즈니스 애널리틱스 I (2) 네이버 API 활용을 통한 데이터 수집, 전처리, 분석, 시각화

네이버 API 검색import requestsimport pandas as pd# 네이버 개발자 센터에서 발급받은 클라이언트 ID와 시크릿을 입력합니다.client_id = 'Your ID'client_secret = 'Your Password'query = '직장인'url = 'https://openapi.naver.com/v1/search/shop.json' # 쇼핑몰# 요청 헤더에 인증 정보를 추가합니다.headers = { 'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}params = { "query": query, "display": 100}# API에 GET 요청을 보냅니다.response ..

비즈니스 애널리틱스 I (1) 추천시스템, 파이썬 자료구조, 네이버 API 연결

추천시스템비슷한 취향의 사람을 연결해주는 것이다. 넷플릭스라면 유사도가 비슷한 사람이 본 것을 보여준다. 우리가 구현을 못하는 이유는 실제 데이터가 없으면 구현을 못한다. 파이썬이 제공하는 모듈로는 택도 없다. 파이썬이 제공하는 모듈로 추천시스템을 구현안한다. 일반 모듈로는 못쓴다. 거기다가 플러스해서 붙여야한다. 그런 부분들은 추천으로 해서 잘 됐는지는 실제 데이터가 필요하다. 추천시스템은 데이터를 가지고 어떤 알고리즘을 쓰는지가 중요하다. 시중에 나와있는 알고리즘이 아닌 다른 요소들을 찾아내야 한다. 넷플릭스는 사용자 취향에 따라서 추천해주는데 한국이라면 계절도 있고 다른 요소들도 있다.설계라는 것은 엄청 나게 많이 알아야 할 수 있는 것이다. 쓸데 없는 설계는 안하는게 낫다. 이론으로 완전 무장하면..