👩🏻‍💻 AI 과정 50

비즈니스 애널리틱스 II (7) 분류 분석 및 평가

분류 분석(Classification Analysis)분류 분석은 머신러닝에서 가장 중요한 알고리즘 중 하나이며, 이산적인 값(Discrete Value) 을 예측하는 데 사용된다. 즉, 데이터가 특정 그룹(클래스)에 속하는지 여부를 판단하는 것이 핵심이다.예를 들어:이메일이 스팸(1)인지 아닌지(0) 분류하는 문제환자가 암에 걸렸는지(Yes) 아닌지(No) 예측하는 모델고객이 이탈할 가능성이 높은지(High) 아닌지(Low) 예측하는 분석실무 활용 예제:✅ 금융 산업 → 신용 카드 사기 탐지 (Fraud Detection)✅ 이커머스 → 고객이 상품을 구매할 가능성이 있는지 예측✅ 의료 분야 → 환자가 특정 질병을 가질 확률 예측✅ 제조업 → 제품의 불량 여부 예측분류 모델은 비즈니스 의사 결정을 내리..

비즈니스 애널리틱스 II (6) 회귀분석, XGBoost 등 최신 빅데이터 기법

회귀 분석(Regression Analysis)회귀 분석은 머신러닝과 통계학에서 가장 기본적이면서도 중요한 기법이다. 데이터의 패턴을 학습하여, 연속형 값(숫자)을 예측하는 데 사용된다. 머신러닝 모델 중에서도 가장 해석이 쉬우며, 데이터가 어떻게 변화하는지 설명하는 데 탁월하다.회귀 분석이 중요한 이유는 "변수 간의 관계를 파악하고 미래 값을 예측" 하는 데 있다. 예를 들어, 고객의 소비 습관을 분석하고 마케팅 전략을 세울 때, 매출을 예측하는 모델이 필요하다. 단순한 가정이 아니라, 데이터 기반의 의사 결정을 내릴 수 있도록 도와주는 것이 회귀 분석의 역할이다.실제 비즈니스에서의 활용 범위는 매우 넓다.✅ 부동산 - 아파트 크기에 따른 가격 예측✅ 금융 - 고객 신용 점수 기반 대출 승인 여부 예측..

비즈니스 애널리틱스 II (5) 분산, 공분산, PCA, 추천시스템

분산, 공분산, 상관계수특징 추출은 데이터를 간단하게 만들면서도 중요한 정보를 뽑아내는 과정이다. 쉽게 말해, 데이터를 잘 살펴보고 비슷한 성질을 가진 것들을 한 방향으로 묶어주는 작업이라고 생각하면 된다. 이 과정을 통해 데이터의 본질을 더 잘 파악하거나 분석하기 쉽게 만들 수 있다.벡터는 어떤 변수에 대해 크기와 방향을 가진 것을 뜻한다. 데이터 분석에서는 벡터를 이용해 변수들 간의 관계를 표현하거나, 비슷한 방향을 가진 데이터끼리 묶는 데 사용한다. 즉, 데이터가 어떤 방향성을 가지고 있는지 확인해서 그룹을 나눌 때 벡터가 중요한 역할을 한다.PCA(주성분 분석)는 데이터를 차원 축소하면서도 중요한 정보를 최대한 유지하는 방법이다. 데이터를 살펴보면 어떤 방향으로 가장 많이 퍼져 있는지를 알 수 있..

비즈니스 애널리틱스 II (4) PCA와 차원축소, AutoML, 데이터스케일링, Fit & Transform

Data Grouping 군집x변수가 많을수록 데이터는 분석하기에 유리해진다고 한다. 최근의 문제는 기존에 갖고 있는 변수가지고는 한계가 있는데 그 이유는 개인화된 데이터이기 때문이다. 방문한 접속 빈도수가 얼마나 되고, 가족 수가 몇명인지, 우리 물건을 어떻게 사갈까 세그멘테이션은 가능하지만, 개개인이 뭘 살지는 예측하기가 어렵다. 얼마나 버는지, 가족구성원, 경제상황, 건강상태 세부적인 내용을 모르기 때문에 그룹안에 넣어버리면 초개인화는 불가능하다. 세그멘테이션이라는 군집으로 안되는 것들을 어떻게 더 세그멘테이션 할 수 있는지 찾아야 한다. 리뷰의 내용을 가지고 개인화한다고 하면 국물이 흘렸다고 리뷰를 자주쓴다면 청결함, 까칠함, 우선시하는 것들을 볼 수 있다. 이런 것들까지 분석하는 최고의 도구가 ..

비즈니스 애널리틱스 II (3) K-means, 유사도 계산, 단위 벡터

SPSS/SASS 통계 소프트웨어spss에서 세그멘테이션, RFM, kmeans 할 수 있다.spss는 통계전문 소프트웨어 / 드래그앤드롭만 해도 해준다. / 시각화가 안되서 별도의 툴로 해야한다.RFM 분석 : 접근 빈도성으로 고객을 분류해주는 방법론통계만 전문적으로 하는 리서치 회사들한테 별거 아닌데도 외주로 줄만큼 회사 내부에서는 분석관련한 작업을 거의 하지 않는다. 분석안하고 판매 집계 작업만 한다. 심도 있는 분석인 회사에서 하지 않는다.이제는 SPSS나 SASS 처럼 비용을 내지 않는 파이썬으로 작업이 가능하다는 것이다. 기술반이면 오늘 벡터나 넘파이 (한달내내한다), 리스트 얘기하고 있을거다. 넘파이를 정확히 알고 있는지 질문공세를 엄청한다. 아무리 포트폴리오를 해놨다고 해도 신뢰가 백프로 ..

비즈니스 애널리틱스 II (2) 넘파이, 군집분석(K-means), 클러스터링

수업 진도9시~10시: 넘파이 마무리(행열곱셈, 회귀방정식의 기본식 이해)10시~11시: 군집분석(k-means) 기초: 넘파이 인덱스를 알야야 볼수 있어요.11시~1시: 고객클러스터링 파이썬2시~4시: 상관계수, 클러스터링, 인사이트 도출[클러스터링기초] https://github.com/codestates/ds-blog/issues/126[실습기초_고객분류세그멘테이션, 쉽게나옴]https://www.kaggle.com/code/kushal1996/customer-segmentation-k-means-analysis[읽기]https://brunch.co.kr/@kkokkodaec/32[수학적으로 해석]https://gem763.github.io/machine%20learning/K-means-clust..

ImageNet 등장배경, 관계성 정리

ImageNet은 컴퓨터 비전(Computer Vision)과 인공지능(AI) 연구의 발전 과정에서 파생된 대규모 이미지 데이터셋이다.1. 컴퓨터 비전의 발전과 데이터셋의 중요성컴퓨터가 이미지를 이해하려면 이미지 내 객체를 인식하고 분류하는 능력이 필요하다. 초창기(1960~2000년대 초)에는 컴퓨터가 패턴을 직접 학습하기 어려웠기 때문에 전통적인 컴퓨터 비전 알고리즘(예: 에지 검출, SIFT, HOG 등)이 사용되었다. 하지만 이러한 방법은 데이터가 많아질수록 한계가 있었다.전통적 기법: 사람이 직접 특징(Feature)을 추출해야 했으며, 데이터셋이 제한적이었다.머신 러닝(2000년대): 데이터가 많아질수록 더 좋은 성능을 내기 시작했으며, 학습을 통해 특징을 자동으로 추출할 수 있는 모델이 필요..

허깅페이스 주요 역할과 사용법

허깅페이스는 자연어 처리(NLP) 및 AI 모델을 쉽게 활용하고 배포할 수 있도록 하는 플랫폼이다. Transformers 라이브러리, Datasets, Tokenizers, Spaces 등의 다양한 기능을 제공한다. 사용 방법은 크게 사전 학습된 모델 사용, 파인튜닝(Fine-tuning), 데이터셋 활용, 모델 배포로 나눌 수 있다.  🔹 Hugging Face의 주요 역할1. 사전 학습된 모델 제공 (Pretrained Models)대표적으로 BERT, GPT, T5, RoBERTa, Llama 등의 모델이 있음.이미 학습된 모델을 가져와서 새로운 데이터에 맞게 추가 학습(파인튜닝, Fine-tuning) 가능 → 전이 학습을 쉽게 할 수 있도록 지원함. 2. 모델 배포 및 공유 (Model Hu..

[딥러닝 프로젝트] LSTM 기반 운동 동작 인식: 미디어파이프 활용

이 프로젝트는 MediaPipe와 LSTM(Long Short-Term Memory) 모델을 활용하여 사람의 운동 동작(등, 스쿼트, 옆구리)을 인식하는 시스템을 구축하는 것을 목표로 하였다. 주요 단계는 데이터 수집 및 전처리, 모델 학습, 그리고 실시간 동작 인식으로 구성된다.✅ MediaPipe → 실시간 관절 좌표 추출✅ LSTM 모델 → 운동 동작을 시계열 데이터로 학습✅ OpenCV → 웹캠 영상 처리 및 GUI 구성✅ NumPy & Pandas → 데이터 전처리 및 저장코드 및 데이터: https://github.com/haewon1219/lstm-motion-recognition1. 데이터 수집과 전처리motion_data.py 스크립트는 OpenCV를 활용하여 웹캠에서 실시간으로 프레임을..

파이썬 자료구조 - 튜플, 딕셔너리, set, 리스트, 클래스, 객체지향언어 특징

1. 리스트(List)리스트는 여러 값을 하나의 변수에 순서대로 저장할 수 있는 데이터 구조입니다. 리스트는 가변적이며, 중복된 값도 저장할 수 있습니다.표현 방법: [ ] 대괄호를 사용합니다.특징:순서(인덱스)가 있다: 요소는 인덱스를 통해 접근할 수 있습니다.가변성(Mutable): 리스트의 요소를 추가, 삭제, 수정할 수 있습니다.중복 허용: 리스트는 같은 값을 여러 번 포함할 수 있습니다.사용 예시:fruits = ['apple', 'banana', 'cherry'] fruits.append('orange') # 요소 추가 print(fruits) # 출력: ['apple', 'banana', 'cherry', 'orange'] 2. 튜플(Tuple)튜플은 리스트와 비슷하지만, 값이 **불변(im..