본문 바로가기

데이터 AI 인사이트 👩🏻‍💻50

비즈니스 애널리틱스 II (7) 분류 분석 및 평가 분류 분석(Classification Analysis)분류 분석은 머신러닝에서 가장 중요한 알고리즘 중 하나이며, 이산적인 값(Discrete Value) 을 예측하는 데 사용된다. 즉, 데이터가 특정 그룹(클래스)에 속하는지 여부를 판단하는 것이 핵심이다.예를 들어:이메일이 스팸(1)인지 아닌지(0) 분류하는 문제환자가 암에 걸렸는지(Yes) 아닌지(No) 예측하는 모델고객이 이탈할 가능성이 높은지(High) 아닌지(Low) 예측하는 분석실무 활용 예제:✅ 금융 산업 → 신용 카드 사기 탐지 (Fraud Detection)✅ 이커머스 → 고객이 상품을 구매할 가능성이 있는지 예측✅ 의료 분야 → 환자가 특정 질병을 가질 확률 예측✅ 제조업 → 제품의 불량 여부 예측분류 모델은 비즈니스 의사 결정을 내리.. 2025. 2. 13.
비즈니스 애널리틱스 II (6) 회귀분석, XGBoost 등 최신 빅데이터 기법 회귀 분석(Regression Analysis)회귀 분석은 머신러닝과 통계학에서 가장 기본적이면서도 중요한 기법이다. 데이터의 패턴을 학습하여, 연속형 값(숫자)을 예측하는 데 사용된다. 머신러닝 모델 중에서도 가장 해석이 쉬우며, 데이터가 어떻게 변화하는지 설명하는 데 탁월하다.회귀 분석이 중요한 이유는 "변수 간의 관계를 파악하고 미래 값을 예측" 하는 데 있다. 예를 들어, 고객의 소비 습관을 분석하고 마케팅 전략을 세울 때, 매출을 예측하는 모델이 필요하다. 단순한 가정이 아니라, 데이터 기반의 의사 결정을 내릴 수 있도록 도와주는 것이 회귀 분석의 역할이다.실제 비즈니스에서의 활용 범위는 매우 넓다.✅ 부동산 - 아파트 크기에 따른 가격 예측✅ 금융 - 고객 신용 점수 기반 대출 승인 여부 예측.. 2025. 2. 13.
비즈니스 애널리틱스 II (5) 분산, 공분산, PCA, 추천시스템 분산, 공분산, 상관계수특징 추출은 데이터를 간단하게 만들면서도 중요한 정보를 뽑아내는 과정이다. 쉽게 말해, 데이터를 잘 살펴보고 비슷한 성질을 가진 것들을 한 방향으로 묶어주는 작업이라고 생각하면 된다. 이 과정을 통해 데이터의 본질을 더 잘 파악하거나 분석하기 쉽게 만들 수 있다.벡터는 어떤 변수에 대해 크기와 방향을 가진 것을 뜻한다. 데이터 분석에서는 벡터를 이용해 변수들 간의 관계를 표현하거나, 비슷한 방향을 가진 데이터끼리 묶는 데 사용한다. 즉, 데이터가 어떤 방향성을 가지고 있는지 확인해서 그룹을 나눌 때 벡터가 중요한 역할을 한다.PCA(주성분 분석)는 데이터를 차원 축소하면서도 중요한 정보를 최대한 유지하는 방법이다. 데이터를 살펴보면 어떤 방향으로 가장 많이 퍼져 있는지를 알 수 있.. 2025. 2. 10.
비즈니스 애널리틱스 II (4) PCA와 차원축소, AutoML, 데이터스케일링, Fit & Transform Data Grouping 군집x변수가 많을수록 데이터는 분석하기에 유리해진다고 한다. 최근의 문제는 기존에 갖고 있는 변수가지고는 한계가 있는데 그 이유는 개인화된 데이터이기 때문이다. 방문한 접속 빈도수가 얼마나 되고, 가족 수가 몇명인지, 우리 물건을 어떻게 사갈까 세그멘테이션은 가능하지만, 개개인이 뭘 살지는 예측하기가 어렵다. 얼마나 버는지, 가족구성원, 경제상황, 건강상태 세부적인 내용을 모르기 때문에 그룹안에 넣어버리면 초개인화는 불가능하다. 세그멘테이션이라는 군집으로 안되는 것들을 어떻게 더 세그멘테이션 할 수 있는지 찾아야 한다. 리뷰의 내용을 가지고 개인화한다고 하면 국물이 흘렸다고 리뷰를 자주쓴다면 청결함, 까칠함, 우선시하는 것들을 볼 수 있다. 이런 것들까지 분석하는 최고의 도구가 .. 2025. 2. 10.
비즈니스 애널리틱스 II (3) K-means, 유사도 계산, 단위 벡터 SPSS/SASS 통계 소프트웨어spss에서 세그멘테이션, RFM, kmeans 할 수 있다.spss는 통계전문 소프트웨어 / 드래그앤드롭만 해도 해준다. / 시각화가 안되서 별도의 툴로 해야한다.RFM 분석 : 접근 빈도성으로 고객을 분류해주는 방법론통계만 전문적으로 하는 리서치 회사들한테 별거 아닌데도 외주로 줄만큼 회사 내부에서는 분석관련한 작업을 거의 하지 않는다. 분석안하고 판매 집계 작업만 한다. 심도 있는 분석인 회사에서 하지 않는다.이제는 SPSS나 SASS 처럼 비용을 내지 않는 파이썬으로 작업이 가능하다는 것이다. 기술반이면 오늘 벡터나 넘파이 (한달내내한다), 리스트 얘기하고 있을거다. 넘파이를 정확히 알고 있는지 질문공세를 엄청한다. 아무리 포트폴리오를 해놨다고 해도 신뢰가 백프로 .. 2025. 2. 10.
비즈니스 애널리틱스 II (2) 넘파이, 군집분석(K-means), 클러스터링 수업 진도9시~10시: 넘파이 마무리(행열곱셈, 회귀방정식의 기본식 이해)10시~11시: 군집분석(k-means) 기초: 넘파이 인덱스를 알야야 볼수 있어요.11시~1시: 고객클러스터링 파이썬2시~4시: 상관계수, 클러스터링, 인사이트 도출[클러스터링기초] https://github.com/codestates/ds-blog/issues/126[실습기초_고객분류세그멘테이션, 쉽게나옴]https://www.kaggle.com/code/kushal1996/customer-segmentation-k-means-analysis[읽기]https://brunch.co.kr/@kkokkodaec/32[수학적으로 해석]https://gem763.github.io/machine%20learning/K-means-clust.. 2025. 2. 10.
ImageNet 등장배경, 관계성 정리 ImageNet은 컴퓨터 비전(Computer Vision)과 인공지능(AI) 연구의 발전 과정에서 파생된 대규모 이미지 데이터셋이다.1. 컴퓨터 비전의 발전과 데이터셋의 중요성컴퓨터가 이미지를 이해하려면 이미지 내 객체를 인식하고 분류하는 능력이 필요하다. 초창기(1960~2000년대 초)에는 컴퓨터가 패턴을 직접 학습하기 어려웠기 때문에 전통적인 컴퓨터 비전 알고리즘(예: 에지 검출, SIFT, HOG 등)이 사용되었다. 하지만 이러한 방법은 데이터가 많아질수록 한계가 있었다.전통적 기법: 사람이 직접 특징(Feature)을 추출해야 했으며, 데이터셋이 제한적이었다.머신 러닝(2000년대): 데이터가 많아질수록 더 좋은 성능을 내기 시작했으며, 학습을 통해 특징을 자동으로 추출할 수 있는 모델이 필요.. 2025. 2. 6.
허깅페이스 주요 역할과 사용법 허깅페이스는 자연어 처리(NLP) 및 AI 모델을 쉽게 활용하고 배포할 수 있도록 하는 플랫폼이다. Transformers 라이브러리, Datasets, Tokenizers, Spaces 등의 다양한 기능을 제공한다. 사용 방법은 크게 사전 학습된 모델 사용, 파인튜닝(Fine-tuning), 데이터셋 활용, 모델 배포로 나눌 수 있다.  🔹 Hugging Face의 주요 역할1. 사전 학습된 모델 제공 (Pretrained Models)대표적으로 BERT, GPT, T5, RoBERTa, Llama 등의 모델이 있음.이미 학습된 모델을 가져와서 새로운 데이터에 맞게 추가 학습(파인튜닝, Fine-tuning) 가능 → 전이 학습을 쉽게 할 수 있도록 지원함. 2. 모델 배포 및 공유 (Model Hu.. 2025. 2. 6.
[딥러닝 프로젝트] LSTM 기반 운동 동작 인식: 미디어파이프 활용 이 프로젝트는 MediaPipe와 LSTM(Long Short-Term Memory) 모델을 활용하여 사람의 운동 동작(등, 스쿼트, 옆구리)을 인식하는 시스템을 구축하는 것을 목표로 하였다. 주요 단계는 데이터 수집 및 전처리, 모델 학습, 그리고 실시간 동작 인식으로 구성된다.✅ MediaPipe → 실시간 관절 좌표 추출✅ LSTM 모델 → 운동 동작을 시계열 데이터로 학습✅ OpenCV → 웹캠 영상 처리 및 GUI 구성✅ NumPy & Pandas → 데이터 전처리 및 저장코드 및 데이터: https://github.com/haewon1219/lstm-motion-recognition1. 데이터 수집과 전처리motion_data.py 스크립트는 OpenCV를 활용하여 웹캠에서 실시간으로 프레임을.. 2025. 2. 6.
파이썬 자료구조 - 튜플, 딕셔너리, set, 리스트, 클래스, 객체지향언어 특징 1. 리스트(List)리스트는 여러 값을 하나의 변수에 순서대로 저장할 수 있는 데이터 구조입니다. 리스트는 가변적이며, 중복된 값도 저장할 수 있습니다.표현 방법: [ ] 대괄호를 사용합니다.특징:순서(인덱스)가 있다: 요소는 인덱스를 통해 접근할 수 있습니다.가변성(Mutable): 리스트의 요소를 추가, 삭제, 수정할 수 있습니다.중복 허용: 리스트는 같은 값을 여러 번 포함할 수 있습니다.사용 예시:fruits = ['apple', 'banana', 'cherry'] fruits.append('orange') # 요소 추가 print(fruits) # 출력: ['apple', 'banana', 'cherry', 'orange'] 2. 튜플(Tuple)튜플은 리스트와 비슷하지만, 값이 **불변(im.. 2025. 1. 28.
비즈니스 애널리틱스 II (1) 랭체인, 판다스 AI 보고서 작성, 생성형 BI, Numpy (교재) 나도 하는 파이썬 데이터 분석비즈니스 애널리틱스 II 과정에서는 머신러닝 관련한 기술을 다뤘다.08. 랭체인_판다스 Ai합쳐서.ipynb (GitHub)import matplotlib.pyplot as pltplt.rcParams['font.family'] ='Malgun Gothic'plt.rcParams['axes.unicode_minus'] =False!pip install -U langchain-openaiimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom scipy.stats import skew, kurtosisfrom langchain_openai import Chat.. 2025. 1. 26.
비즈니스 애널리틱스 I (3) 텍스트 분할 & 임베딩, 벡터 유사도 분석, 형태소 분석, 네이버 쇼핑몰 데이터 RAG 정크 사이즈 > 정크 오버랩chunk_size와 chunk_overlap은 텍스트 데이터를 일정 크기(chunk_size)로 나누는 과정에서 겹치는 부분의 크기(chunk_overlap)를 설정하는 매개변수이다. 이는 주로 텍스트 분할 작업에서 사용되며, 텍스트 처리 및 분석, 특히 자연어 처리(NLP) 모델에 데이터를 입력하기 전에 텍스트를 잘게 쪼개는 데 유용하다.예시: chunk_size=5, chunk_overlap=1입력 텍스트가 다음과 같다고 가정: "abcdefg"['abcde', 'bcdef', 'cdefg'] 프로그래머들은 계속 숫자 바꿔가면서 테스트를 한다.글자가 계속 겹치면서 나온다는 의미이다. 단어가 기존의 형태소 분석에서 두글자씩을 청크라고 하면 오버랩은 두개씩 해줘야 다 나올 수.. 2025. 1. 26.
비즈니스 애널리틱스 I (2) 네이버 API 활용을 통한 데이터 수집, 전처리, 분석, 시각화 네이버 API 검색import requestsimport pandas as pd# 네이버 개발자 센터에서 발급받은 클라이언트 ID와 시크릿을 입력합니다.client_id = 'Your ID'client_secret = 'Your Password'query = '직장인'url = 'https://openapi.naver.com/v1/search/shop.json' # 쇼핑몰# 요청 헤더에 인증 정보를 추가합니다.headers = { 'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}params = { "query": query, "display": 100}# API에 GET 요청을 보냅니다.response .. 2025. 1. 26.
비즈니스 애널리틱스 I (1) 추천시스템, 파이썬 자료구조, 네이버 API 연결 추천시스템비슷한 취향의 사람을 연결해주는 것이다. 넷플릭스라면 유사도가 비슷한 사람이 본 것을 보여준다. 우리가 구현을 못하는 이유는 실제 데이터가 없으면 구현을 못한다. 파이썬이 제공하는 모듈로는 택도 없다. 파이썬이 제공하는 모듈로 추천시스템을 구현안한다. 일반 모듈로는 못쓴다. 거기다가 플러스해서 붙여야한다. 그런 부분들은 추천으로 해서 잘 됐는지는 실제 데이터가 필요하다. 추천시스템은 데이터를 가지고 어떤 알고리즘을 쓰는지가 중요하다. 시중에 나와있는 알고리즘이 아닌 다른 요소들을 찾아내야 한다. 넷플릭스는 사용자 취향에 따라서 추천해주는데 한국이라면 계절도 있고 다른 요소들도 있다.설계라는 것은 엄청 나게 많이 알아야 할 수 있는 것이다. 쓸데 없는 설계는 안하는게 낫다. 이론으로 완전 무장하면.. 2025. 1. 26.
딥러닝 학습 순서 딥러닝 학습은 기초 수학 → 프로그래밍 → 신경망 원리 → 컴퓨터 비전 → 고급 모델 구현의 순서로 진행하는 것이 효과적이다. 각각의 단계를 차례대로 익히고, 이론과 실습을 병행하면서 이해도를 높이는 것이 중요하다. 1. 기본적인 수학 개념딥러닝의 기반은 수학이다. 데이터를 다루고 모델을 훈련시키기 위해 반드시 알아야 한다.선형대수: 벡터, 행렬 연산, 행렬 곱, 전치 등을 이해해야 한다.미분과 편미분: 딥러닝 모델에서 손실 함수(오차)를 줄이기 위한 경사 하강법(Gradient Descent)을 이해하는 데 필요하다.확률과 통계: 데이터의 분포를 이해하고, 모델의 성능 평가에 사용된다.학습 방법: 간단한 예제를 통해 벡터 연산, 경사 하강법, 확률 분포를 계산해보는 연습을 한다. 2. 파이썬과 라이브러.. 2025. 1. 16.
K-Nearest Neighbors (KNN) K-Nearest Neighbors(KNN)는 거리 기반 학습 알고리즘으로, 새 데이터 포인트의 분류(Classification)나 회귀(Regression)를 위해 가장 가까운 K개의 데이터 포인트를 참고한다. 비지도 학습처럼 보일 수 있지만, 주로 지도 학습(Supervised Learning)에 속한다.KNN은 학습 단계에서 모델을 생성하지 않고 데이터를 그대로 저장한다. 새로운 데이터 포인트를 분류하거나 값을 예측할 때, 기존 데이터를 기준으로 거리를 계산하여 가장 가까운 이웃 K개의 데이터를 참고한다. 이 이웃들의 다수결이나 평균을 바탕으로 결과를 예측한다. KNN 작동 원리KNN은 새로운 데이터 포인트가 주어졌을 때, 학습 데이터 중 가장 가까운 K개의 이웃을 찾아 이웃의 정보를 기반으로 결과.. 2025. 1. 14.
[GPT랑 공부하기] 이미지 데이터 분석: 기술통계, KNN 분류, 커머스 활용과 네이버 API 연계 인사이트 👩  : 이미지에서 기술통계란?💻 : 이미지에서 기술통계는 이미지 데이터를 요약하고 설명하는 데 사용되는 통계적 기법입니다. 이를 통해 이미지의 주요 특성과 분포를 정량적으로 이해할 수 있습니다. 다음은 이미지에서 기술통계가 적용되는 주요 방법과 개념들입니다:1. 픽셀 값의 기술통계이미지는 픽셀 값의 배열로 구성됩니다. 기술통계는 픽셀 값 분포를 요약하는 데 사용됩니다.최소값 및 최대값: 이미지에서 가장 어두운 픽셀과 가장 밝은 픽셀의 값.평균값: 픽셀 값의 평균으로, 이미지의 전반적인 밝기를 나타냄.중앙값: 픽셀 값의 중앙값으로, 이상치의 영향을 줄임.표준편차: 픽셀 값의 변동성을 나타냄.왜도(Skewness) 및 첨도(Kurtosis): 픽셀 값 분포의 비대칭성과 뾰족함 정도를 측정.2. 히스토그.. 2025. 1. 14.
[GPT랑 공부하기] 컴퓨터 비전과 OpenCV 라이브러리 👩  : 컴퓨터 비전이 뭐야?💻  : 컴퓨터 비전(Computer Vision)은 컴퓨터가 이미지나 영상을 분석하고 이해할 수 있도록 하는 인공지능(AI)의 한 분야입니다. 인간이 눈을 통해 세상을 보고 인지하는 방식처럼, 컴퓨터가 디지털 이미지를 입력받아 그 안에 담긴 정보를 추출하고 해석하는 것을 목표로 합니다.주요 개념과 목표컴퓨터 비전의 핵심은 디지털 이미지나 영상 데이터를 처리하여 유의미한 정보를 생성하는 것입니다. 이를 통해 다음과 같은 작업이 가능해집니다:이미지 인식: 이미지 안의 객체를 식별(예: 얼굴, 자동차, 동물 등).객체 탐지(Object Detection): 이미지나 영상에서 특정 객체의 위치와 종류를 탐지.세그멘테이션(Segmentation): 이미지나 영상을 픽셀 단위로 나.. 2025. 1. 14.
[데이터분석 커리어패스] 어떤 커리어가 나에게 맞을까? 1. 데이터 분석가 (Data Analyst)데이터 직무 중에서 가장 기본 입문 포지션이다. 데이터 분석가는 데이터를 수집하고 정리하며, 이를 바탕으로 기업이 더 나은 의사 결정을 내릴 수 있도록 돕는다. 주로 Excel과 대시보드 작업이 중심이며, 머신러닝 모델은 다루지 않는다. 하는 일: 보고서 작성, 트렌드 분석, 비즈니스 질문에 대한 답변 제공. 주요 도구: Excel, SQL, Tableau/Power BI, Python(기본 통계 및 데이터 정리). 추천 이유: 데이터를 통해 이야기하는 것을 좋아한다면 시작하기 좋은 포지션이다. 2. 데이터 과학자 (Data Scientist)데이터 분석가의 역할을 확장하여 머신러닝과 고급 통계를 활용해 복잡한 문제를 해결한다.  하는 일: 고객 행동 예측 모.. 2025. 1. 10.
[파이썬] Run 안될 때 확인 방법 (가상환경 확인, Print, Run Python File) 어제까지만 해도 문제 없던 코드가 Run을 눌렀을 때 자꾸 에러가 뜨는 것이다 ㅠㅠ 그래서 결국 도움을 요청해서 알아내긴 했는데 여전히 해결되지 않은 에러가 뜨면 스스로 해결하지 못해서 답답하다.Terminal에서 사용하고 있는 가상환경에 들어가야만 작동이 되니, 일단 먼저 conda activate 가상환경이름 을 해주었는지 확인하자. 요즘 파이토치, 미디어파이프를 활용해서 프로젝트를 했었는데, VS Code로 실행하다보면 버전을 못따라가서 충돌하기도 한다고 한다. 그래서 에러가 몇 열에서 나는지 확인하고, print('-----')을 중간에 삽입하여 어디까지 실행이 되는지 확인한다.  그리고 Run에서 'Run Python File'로 돌려보았다.  그랬더니 안되던게 되는 매직이...ㅠㅠ 다음에 안되.. 2024. 12. 29.
디지털 이노베이션 및 빅테크 AI Business 전략 (3) 허깅페이스, 멀티모달, 컴퓨터 비전 허깅페이스 트랜스포메이션 vs OpenAI Fine-tuningPyTorch허깅페이스의 트랜스포머를 가져와서 사용한다.LLM 모델은 진짜 많다.GPT 코드는 오픈되어 있다. 깃 사이트에서 다운받아서 사용할 수 있다. 자원(GPU..)의 한계때문에 못받는거다. 받아서 쓰면 좋은 이유가 토큰이 안든다.어떤 기술 한 가지를 선택하게 된다면 왜 이 기술을 쓰게 되었는지 비교 차트를 보여주면서 거론해줘야 한다. 품질 확인을 위한 기본 체크리스트 - PM 업무데이터 형식 확인 (JSON)PM을 목표로 한다면 프로그래머들과 이야기 하기위해 하는 과정이라고 생각해라. 프로그래머들은 다 안된다고 할 것이다. 돈과 시간이 없으니까 안되는 것이다. Chat GPT에 질문하여 답 얻기랭체인에 없는 자료는 어떻게 할까? 부성순.. 2024. 12. 6.
디지털 이노베이션 및 빅테크 AI Business 전략 (2) 오픈 AI 임베딩, RAG, 파싱, requests 모듈, 웹데이터 구조 ESG 누구나 할 수 있는 것. 기술로도 특화된 것도 아니고, 데이터를 수집한 것도 아니다. ESG문서들은 문서자체에 들어가는 단어들이 전문적인 용어다. 중소기업 있는 사람들이 그 용어를 쓸 수 없다. ESG는 산업군별로 다르다. 이건 전처리가 아니라 데이터 싸움이다. 자동차 부품이라고 하면 현대차에 납품해야하는 중소기업이 ESG라는 환경에 맞추지 않고 납품해서 문제가 생겼다. 품질관리에서 가이드를 맞추면 된다. 자기네도 맞춰야하니까.기술 베이스를 끌고 가는 거니까.. 프로그래밍을 안해도 프로젝트를 하는 거니까.. 한번 스타트를 빠르게 하면 계속 한다.. 지금은 다같이 모르는 상황이고 기술은 새로운게 계속 나오고.. 작년은 LLM쪽 연구원, 전문가만 하라고 했다 형태소 분석과 기초적인 것만 해라고 가르쳤.. 2024. 12. 6.
인공지능과 생성형 AI (8) 인코딩 방식, Faiss, csv 로더기 뉴스기사는 중요하게 쓰일 수 있다. 법제가 포함되어있거나, 식품같은 경우는 식약처 표준이 바뀐것도 기사에 뜬다. 각각의 카테고리가 있다. 그런 자료들을 요약해서 카드 뉴스를 만들 수도 있다. 바뀐 법령이 나오면 요약본이 필요하다. 기존의 정책과 어떤게 바뀌었고, 어떤게 남아있는지 (숫자가 아님)를 알아야 해서 요약본이 중요하다. 스페이스 하나도 다른 단어로 인지한다. 오픈 AI의 단어셋이 있어서 가능하지만, 예전에는 이거는 상상도 못한 일이었다. 하지만 지금도 고전적인 방식으로 문장 분석을 많이 한다. 고전적인 방식은 안녕, 나는, 산책 모두 형태소로 쪼갠다. 구글 ‘KONLPY 파이썬’ 검색, 형태소 단위로 글자를 쪼갤 수 있도록 모든 단어를 등록해놓은 패키지이다. 카이스트에서 이걸 했다. 일일이 단어.. 2024. 12. 6.
[참고사이트] 보고서 작성 보고서 작성 예시 확인하기https://www.kbfg.com/kbresearch/index.do KB경영연구소 www.kbfg.com 2024. 12. 6.