본문 바로가기

데이터 AI 인사이트 👩🏻‍💻/KPMG 교육34

비즈니스 애널리틱스 II (7) 분류 분석 및 평가 분류 분석(Classification Analysis)분류 분석은 머신러닝에서 가장 중요한 알고리즘 중 하나이며, 이산적인 값(Discrete Value) 을 예측하는 데 사용된다. 즉, 데이터가 특정 그룹(클래스)에 속하는지 여부를 판단하는 것이 핵심이다.예를 들어:이메일이 스팸(1)인지 아닌지(0) 분류하는 문제환자가 암에 걸렸는지(Yes) 아닌지(No) 예측하는 모델고객이 이탈할 가능성이 높은지(High) 아닌지(Low) 예측하는 분석실무 활용 예제:✅ 금융 산업 → 신용 카드 사기 탐지 (Fraud Detection)✅ 이커머스 → 고객이 상품을 구매할 가능성이 있는지 예측✅ 의료 분야 → 환자가 특정 질병을 가질 확률 예측✅ 제조업 → 제품의 불량 여부 예측분류 모델은 비즈니스 의사 결정을 내리.. 2025. 2. 13.
비즈니스 애널리틱스 II (6) 회귀분석, XGBoost 등 최신 빅데이터 기법 회귀 분석(Regression Analysis)회귀 분석은 머신러닝과 통계학에서 가장 기본적이면서도 중요한 기법이다. 데이터의 패턴을 학습하여, 연속형 값(숫자)을 예측하는 데 사용된다. 머신러닝 모델 중에서도 가장 해석이 쉬우며, 데이터가 어떻게 변화하는지 설명하는 데 탁월하다.회귀 분석이 중요한 이유는 "변수 간의 관계를 파악하고 미래 값을 예측" 하는 데 있다. 예를 들어, 고객의 소비 습관을 분석하고 마케팅 전략을 세울 때, 매출을 예측하는 모델이 필요하다. 단순한 가정이 아니라, 데이터 기반의 의사 결정을 내릴 수 있도록 도와주는 것이 회귀 분석의 역할이다.실제 비즈니스에서의 활용 범위는 매우 넓다.✅ 부동산 - 아파트 크기에 따른 가격 예측✅ 금융 - 고객 신용 점수 기반 대출 승인 여부 예측.. 2025. 2. 13.
비즈니스 애널리틱스 II (5) 분산, 공분산, PCA, 추천시스템 분산, 공분산, 상관계수특징 추출은 데이터를 간단하게 만들면서도 중요한 정보를 뽑아내는 과정이다. 쉽게 말해, 데이터를 잘 살펴보고 비슷한 성질을 가진 것들을 한 방향으로 묶어주는 작업이라고 생각하면 된다. 이 과정을 통해 데이터의 본질을 더 잘 파악하거나 분석하기 쉽게 만들 수 있다.벡터는 어떤 변수에 대해 크기와 방향을 가진 것을 뜻한다. 데이터 분석에서는 벡터를 이용해 변수들 간의 관계를 표현하거나, 비슷한 방향을 가진 데이터끼리 묶는 데 사용한다. 즉, 데이터가 어떤 방향성을 가지고 있는지 확인해서 그룹을 나눌 때 벡터가 중요한 역할을 한다.PCA(주성분 분석)는 데이터를 차원 축소하면서도 중요한 정보를 최대한 유지하는 방법이다. 데이터를 살펴보면 어떤 방향으로 가장 많이 퍼져 있는지를 알 수 있.. 2025. 2. 10.
비즈니스 애널리틱스 II (4) PCA와 차원축소, AutoML, 데이터스케일링, Fit & Transform Data Grouping 군집x변수가 많을수록 데이터는 분석하기에 유리해진다고 한다. 최근의 문제는 기존에 갖고 있는 변수가지고는 한계가 있는데 그 이유는 개인화된 데이터이기 때문이다. 방문한 접속 빈도수가 얼마나 되고, 가족 수가 몇명인지, 우리 물건을 어떻게 사갈까 세그멘테이션은 가능하지만, 개개인이 뭘 살지는 예측하기가 어렵다. 얼마나 버는지, 가족구성원, 경제상황, 건강상태 세부적인 내용을 모르기 때문에 그룹안에 넣어버리면 초개인화는 불가능하다. 세그멘테이션이라는 군집으로 안되는 것들을 어떻게 더 세그멘테이션 할 수 있는지 찾아야 한다. 리뷰의 내용을 가지고 개인화한다고 하면 국물이 흘렸다고 리뷰를 자주쓴다면 청결함, 까칠함, 우선시하는 것들을 볼 수 있다. 이런 것들까지 분석하는 최고의 도구가 .. 2025. 2. 10.
비즈니스 애널리틱스 II (3) K-means, 유사도 계산, 단위 벡터 SPSS/SASS 통계 소프트웨어spss에서 세그멘테이션, RFM, kmeans 할 수 있다.spss는 통계전문 소프트웨어 / 드래그앤드롭만 해도 해준다. / 시각화가 안되서 별도의 툴로 해야한다.RFM 분석 : 접근 빈도성으로 고객을 분류해주는 방법론통계만 전문적으로 하는 리서치 회사들한테 별거 아닌데도 외주로 줄만큼 회사 내부에서는 분석관련한 작업을 거의 하지 않는다. 분석안하고 판매 집계 작업만 한다. 심도 있는 분석인 회사에서 하지 않는다.이제는 SPSS나 SASS 처럼 비용을 내지 않는 파이썬으로 작업이 가능하다는 것이다. 기술반이면 오늘 벡터나 넘파이 (한달내내한다), 리스트 얘기하고 있을거다. 넘파이를 정확히 알고 있는지 질문공세를 엄청한다. 아무리 포트폴리오를 해놨다고 해도 신뢰가 백프로 .. 2025. 2. 10.
비즈니스 애널리틱스 II (2) 넘파이, 군집분석(K-means), 클러스터링 수업 진도9시~10시: 넘파이 마무리(행열곱셈, 회귀방정식의 기본식 이해)10시~11시: 군집분석(k-means) 기초: 넘파이 인덱스를 알야야 볼수 있어요.11시~1시: 고객클러스터링 파이썬2시~4시: 상관계수, 클러스터링, 인사이트 도출[클러스터링기초] https://github.com/codestates/ds-blog/issues/126[실습기초_고객분류세그멘테이션, 쉽게나옴]https://www.kaggle.com/code/kushal1996/customer-segmentation-k-means-analysis[읽기]https://brunch.co.kr/@kkokkodaec/32[수학적으로 해석]https://gem763.github.io/machine%20learning/K-means-clust.. 2025. 2. 10.
비즈니스 애널리틱스 II (1) 랭체인, 판다스 AI 보고서 작성, 생성형 BI, Numpy (교재) 나도 하는 파이썬 데이터 분석비즈니스 애널리틱스 II 과정에서는 머신러닝 관련한 기술을 다뤘다.08. 랭체인_판다스 Ai합쳐서.ipynb (GitHub)import matplotlib.pyplot as pltplt.rcParams['font.family'] ='Malgun Gothic'plt.rcParams['axes.unicode_minus'] =False!pip install -U langchain-openaiimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom scipy.stats import skew, kurtosisfrom langchain_openai import Chat.. 2025. 1. 26.
비즈니스 애널리틱스 I (3) 텍스트 분할 & 임베딩, 벡터 유사도 분석, 형태소 분석, 네이버 쇼핑몰 데이터 RAG 정크 사이즈 > 정크 오버랩chunk_size와 chunk_overlap은 텍스트 데이터를 일정 크기(chunk_size)로 나누는 과정에서 겹치는 부분의 크기(chunk_overlap)를 설정하는 매개변수이다. 이는 주로 텍스트 분할 작업에서 사용되며, 텍스트 처리 및 분석, 특히 자연어 처리(NLP) 모델에 데이터를 입력하기 전에 텍스트를 잘게 쪼개는 데 유용하다.예시: chunk_size=5, chunk_overlap=1입력 텍스트가 다음과 같다고 가정: "abcdefg"['abcde', 'bcdef', 'cdefg'] 프로그래머들은 계속 숫자 바꿔가면서 테스트를 한다.글자가 계속 겹치면서 나온다는 의미이다. 단어가 기존의 형태소 분석에서 두글자씩을 청크라고 하면 오버랩은 두개씩 해줘야 다 나올 수.. 2025. 1. 26.
비즈니스 애널리틱스 I (2) 네이버 API 활용을 통한 데이터 수집, 전처리, 분석, 시각화 네이버 API 검색import requestsimport pandas as pd# 네이버 개발자 센터에서 발급받은 클라이언트 ID와 시크릿을 입력합니다.client_id = 'Your ID'client_secret = 'Your Password'query = '직장인'url = 'https://openapi.naver.com/v1/search/shop.json' # 쇼핑몰# 요청 헤더에 인증 정보를 추가합니다.headers = { 'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}params = { "query": query, "display": 100}# API에 GET 요청을 보냅니다.response .. 2025. 1. 26.
비즈니스 애널리틱스 I (1) 추천시스템, 파이썬 자료구조, 네이버 API 연결 추천시스템비슷한 취향의 사람을 연결해주는 것이다. 넷플릭스라면 유사도가 비슷한 사람이 본 것을 보여준다. 우리가 구현을 못하는 이유는 실제 데이터가 없으면 구현을 못한다. 파이썬이 제공하는 모듈로는 택도 없다. 파이썬이 제공하는 모듈로 추천시스템을 구현안한다. 일반 모듈로는 못쓴다. 거기다가 플러스해서 붙여야한다. 그런 부분들은 추천으로 해서 잘 됐는지는 실제 데이터가 필요하다. 추천시스템은 데이터를 가지고 어떤 알고리즘을 쓰는지가 중요하다. 시중에 나와있는 알고리즘이 아닌 다른 요소들을 찾아내야 한다. 넷플릭스는 사용자 취향에 따라서 추천해주는데 한국이라면 계절도 있고 다른 요소들도 있다.설계라는 것은 엄청 나게 많이 알아야 할 수 있는 것이다. 쓸데 없는 설계는 안하는게 낫다. 이론으로 완전 무장하면.. 2025. 1. 26.
디지털 이노베이션 및 빅테크 AI Business 전략 (3) 허깅페이스, 멀티모달, 컴퓨터 비전 허깅페이스 트랜스포메이션 vs OpenAI Fine-tuningPyTorch허깅페이스의 트랜스포머를 가져와서 사용한다.LLM 모델은 진짜 많다.GPT 코드는 오픈되어 있다. 깃 사이트에서 다운받아서 사용할 수 있다. 자원(GPU..)의 한계때문에 못받는거다. 받아서 쓰면 좋은 이유가 토큰이 안든다.어떤 기술 한 가지를 선택하게 된다면 왜 이 기술을 쓰게 되었는지 비교 차트를 보여주면서 거론해줘야 한다. 품질 확인을 위한 기본 체크리스트 - PM 업무데이터 형식 확인 (JSON)PM을 목표로 한다면 프로그래머들과 이야기 하기위해 하는 과정이라고 생각해라. 프로그래머들은 다 안된다고 할 것이다. 돈과 시간이 없으니까 안되는 것이다. Chat GPT에 질문하여 답 얻기랭체인에 없는 자료는 어떻게 할까? 부성순.. 2024. 12. 6.
디지털 이노베이션 및 빅테크 AI Business 전략 (2) 오픈 AI 임베딩, RAG, 파싱, requests 모듈, 웹데이터 구조 ESG 누구나 할 수 있는 것. 기술로도 특화된 것도 아니고, 데이터를 수집한 것도 아니다. ESG문서들은 문서자체에 들어가는 단어들이 전문적인 용어다. 중소기업 있는 사람들이 그 용어를 쓸 수 없다. ESG는 산업군별로 다르다. 이건 전처리가 아니라 데이터 싸움이다. 자동차 부품이라고 하면 현대차에 납품해야하는 중소기업이 ESG라는 환경에 맞추지 않고 납품해서 문제가 생겼다. 품질관리에서 가이드를 맞추면 된다. 자기네도 맞춰야하니까.기술 베이스를 끌고 가는 거니까.. 프로그래밍을 안해도 프로젝트를 하는 거니까.. 한번 스타트를 빠르게 하면 계속 한다.. 지금은 다같이 모르는 상황이고 기술은 새로운게 계속 나오고.. 작년은 LLM쪽 연구원, 전문가만 하라고 했다 형태소 분석과 기초적인 것만 해라고 가르쳤.. 2024. 12. 6.
인공지능과 생성형 AI (8) 인코딩 방식, Faiss, csv 로더기 뉴스기사는 중요하게 쓰일 수 있다. 법제가 포함되어있거나, 식품같은 경우는 식약처 표준이 바뀐것도 기사에 뜬다. 각각의 카테고리가 있다. 그런 자료들을 요약해서 카드 뉴스를 만들 수도 있다. 바뀐 법령이 나오면 요약본이 필요하다. 기존의 정책과 어떤게 바뀌었고, 어떤게 남아있는지 (숫자가 아님)를 알아야 해서 요약본이 중요하다. 스페이스 하나도 다른 단어로 인지한다. 오픈 AI의 단어셋이 있어서 가능하지만, 예전에는 이거는 상상도 못한 일이었다. 하지만 지금도 고전적인 방식으로 문장 분석을 많이 한다. 고전적인 방식은 안녕, 나는, 산책 모두 형태소로 쪼갠다. 구글 ‘KONLPY 파이썬’ 검색, 형태소 단위로 글자를 쪼갤 수 있도록 모든 단어를 등록해놓은 패키지이다. 카이스트에서 이걸 했다. 일일이 단어.. 2024. 12. 6.
인공지능과 생성형 AI (7) ChatGPT API API를 무조건 해야하는 시기이다.IT사람들이랑 함께 일하게 될텐데, 이 사람들은 모르는게 있으면 검색하라고 한다. 베이스가 전혀 없는 상태에서는 검색해도 뭔지 모르겠지만, 지피티나 구글에 검색해서 한번에 못알아듣더라도 용어를 설명을 보고보고본다면 점점 알게될 것이다. 현실적으로 IT사람들은 검색해서 보면 되는걸 자꾸 물어보는게 짜증난다고 한다.재미니는 속도가 빠르지만 그럼에도 불구하고 후발주자이기 때문에 LLM 부분은 지피티를 통해서 하는 경우가 많다. 지피티로 코딩을 해봐야하기 때문에 해봐야한다.지피티로 코딩하는 작업을 할거다.아나콘다 프롬프트에 그대로 작성한다.설치가 안되어있으면 없다고 뜬다.import openai print(openai.version) 0.28.0버전이 지금 아래 버전이라서 조금.. 2024. 12. 5.
인공지능과 생성형 AI (6) 랭체인, LLM, LCEL 적은비용, 많은 기능, 최적화랭체인 쪽은 책, 인터넷 강의도 별로다. 이 책이 제일 좋다. - LangChain 한국어 튜토리얼 (위키독스)https://wikidocs.net/book/14314 - LangChain 한국어 튜토리얼🇰🇷" data-og-description="**추천**은 공유할 수 있는 무료 전자책을 집필하는데 정말 큰 힘이 됩니다. **"추천"** 한 번씩만 부탁 드리겠습니다🙏🙏 ✅ **랭체인 한국어 튜토리얼 강의** …" data-og-host="wikidocs.net" data-og-source-url="https://wikidocs.net/book/14314" data-og-url="https://wikidocs.net/book/14314" data-og-image=".. 2024. 12. 5.
인공지능과 생성형 AI (5) 가상환경 셋팅, 랭체인 로더기 1112_가상환경의 이해.pptx구글에 “가상환경(Virtual Machine)” 검색오늘 작업환경 셋팅할 예정이고, 왜 클라우드를 해야하는지 알게 될 것이다.파이썬에서 가장 힘든 것은 의존도가 높아져서 뭔가가 바뀌면 덩달아서 내가 하는 것보다 바뀐거에 쫓아다녀야 한다. 하나가 바뀌는게 아니라 연관되어있는 릴레이션이 꽤 많다. 이런 릴레이션 의존성이 너무 높아서 하나를 설치하고 나머지 의존되어있는게 문제있으면 전체 프로그램이 안돌아가는게 생겨버린다. pandas, numpy, open cv 다 하다보면 몽땅 다 안되는 경우가 생긴다. 그러면 어떻게 하느냐? 구조를 잘 만들어야 한다. 그것을 가상환경이라고 한다. 내가 원하는 모듈만 버전별로 만들어 놓는다. 이거를 안 맞춰놓으면 잘되던 프로그램이 아예 안돌.. 2024. 12. 5.
인공지능과 생성형 AI (4) Tkinter 패키지, GUI 구현, 파이썬 (함수 / 패키지 / 모듈) SQL에서 데이터베이스 테이블 만들고, 파이썬에서 Tkinter 패키지 사용해서 GUI 만들어서 정보 맞는지 연결한다.먼저 MYSQL Workbench에서 e-commerce라는 데이터베이스를 생성하고, users라는 테이블을 만들어서 id와 password를 입력했다. 다음으로 Visual Studio Code를 실행해서 Tkinter 패키지를 사용하여 GUI를 구현한다.mysql.connector는 MySQL 데이터베이스와 파이썬 프로그램 간의 연결을 가능하게 하는 라이브러리다. 이를 통해 Python 코드에서 MySQL 데이터베이스에 접근하고 SQL 쿼리를 실행할 수 있는 기능을 제공한다.데이터베이스와 연결하기 위해 connect() 함수를 사용하고, SQL 명령을 수행하기 위해 cursor()를 .. 2024. 12. 5.
인공지능과 생성형 AI (3) 디렉토리, 터미널, pathlib 모듈 파일 및 디렉토리의 이해 - 터미널, 파일탐색기, 파이썬 C드라이브 - 하드디스크 (물리적 저장)cd: change directory파일탐색 와일드카드란? ‘’ * “ 뒤에 모든 것을 찾아라.해시테이블은 파일 이름을 알고 있을 때 바로 그 파일을 빠르게 찾는 데 좋고, 인덱스는 특정 조건에 맞는 파일들을 빠르게 찾는 데 좋다.캐시메모리: CPU가 자주 사용하는 데이터를 저장하는 작고 빠른 메모리다. 컴퓨터가 더 빠르고 효율적으로 일할 수 있게 한다. 바로바로 꺼내 쓸 수 있다.  4개월 간의 세일즈 분석 위 내용들은 API, 크롤링 할때 필요하다. 파일과 데이터가 쌓여있고 한개로 합쳐서 봐야하기 때문에 폴더 관리는 계속 필요할 것이다. Path가 이런일을 한다.폴더 내의 파일을 가져오는 방법을 두 가지,.. 2024. 12. 5.
인공지능과 생성형 AI (2) Gemini API, 멀티턴, temperature gpt의 원리 - 질문, 응답 옵션구글 재미니 + 초간단 챗봇 (UI)다른 사용자가 쓰게 하려면 웹과 앱에 설치해서 인터넷이라는 연결로 구동해야한다. 그런데 웹,앱 개발까지 하라고 하니까 프로토타입을 만들어서 개발자에게 넘겨주는 식으로 한다.엡(그라디오), 웹(스트림잇) - 진짜 만드는 것은 아니고 프로토타입용이다. 기능이 많이 떨어지지만 굉장히 쉽다.1)API 허락받아서 JSON같은 걸로 가져올 수 있고,2)크롤링 (웹 스크래핑) 웹언어를 이해하고, 구조를 이해해서 내가 원하는 자료를 가져오는 기술이다. 이거 하려면 웹의 구조를 알아야 한다. 웹언어를 따로 공부해야한다. 우리가 입력하는 웹사이트 주소는 도메인 네임이고, 이거는 컴퓨터가 IP주소를 인식한다.DNS → 43.1.7.어쩌고저쩌고공간을 사놓는.. 2024. 12. 5.
인공지능과 생성형 AI (1) PPT 보고서 공유폴더 - eda관련 기초 파일 참조GPT 파이썬 코드 작성해줘데이터는 보험청구와 관련한 데이터 정보,  y값은 charges0   age       1338 non-null   int64   1   sex       1338 non-null   object  2   bmi       1338 non-null   float64 3   children  1338 non-null   int64   4   smoker    1338 non-null   object  5   region    1338 non-null   object  6   charges   1338 non-null   float64dtypes: float64(2), int64(2), object(3)데이터의 하단 5개 보기데이터의 전체 크기.. 2024. 12. 5.
기초 통계 및 경영 통계 (3) 파이썬 [앞으로의 진도]gpt → gpt API 프로그램으로 챗봇엑셀작업 (산점도, 히스토그램 - 기술통계, 피벗테이블) → 파이썬 기술통계 (오늘 진도)SQL (질의언어, 조인구문 중요), 파워 BI 시각화파이썬 기초문법 (pandas 기초 문법)서버에 있는 자료 (SQL)를 불러와서 자료분석 (혼자 / 여러사람 - 화면설계도 해야함 화면이 웹상 또는 로컬인지 고민해야함) 파일참고: 2. 파이썬에서 mysql 자료 조회.ipynb칸아카데미 통계 자료 좋다 - 통계쪽 갈 사람들은 확인하기https://ko.khanacademy.org/math/statistics-probability/analyzing-categorical-data Khan Academy ko.khanacademy.org파이썬은 범주형인지 숫자형.. 2024. 12. 3.
기초 통계 및 경영 통계 (2) 파이썬 파이썬 & Power BI 연동 가능하다. py 확장자는 그래픽은 따로 화면을 띄어야하는데, 주피터노트북은 그럴 필요가 없다. 주피터노트북에서 Power BI 구성할 수 있고, 권장한다. 주피터는 대답 작업 각각 나오고, 에디터 중에서도 질문 답 질문 답을 한눈에 볼 수 있어서 보고서 작성에 용이하다. 질의응답해서 포트폴리오 할때 작업을 많이 한다. 전문 프로그래머가 아니면 주피터노트북을 많이 사용한다. 특히 데이터 분석 쪽에서. 파이썬 소프트웨어에서 Power BI 리포트를 생성해낼 수 있다는 것이다. 언어끼리 다 연결해서 쓸 수 있다. 태블로에 대한 시각화를 사용할 수 있다. PyGWailker 다운받으면 된다. 모듈이 있다. 모듈을 갖다놓고 나서 사용하면 태블로와 같이 시각화 전문 프로그램으로 쓴 .. 2024. 12. 3.
기초 통계 및 경영 통계 (1) 파이썬 나라장터 https://www.g2b.go.kr/index.jsp조달시스템에 입찰할 때 들어가는 사이트이다. 내가 입찰할 사업거리가 있는지 찾을 수 있다. 프로그램으로 볼 수 있는 것이 API다. 추후에 조달청과 연결되어있는 API는 작업해볼 것을 권장한다. 조달사이트만 계속 들어가서 확인한다. API모르면 직접 들어가서 계속 확인해봐야한다.크롤링이 요즘 좋아졌다. 웹 크롤링도 지피티가 잘 짜준다. 추후에 API나 크롤링을 할때 분석하고자 하는 데이터에 맞게 API와 크롤링을 해보는 것이 좋다. 조달청에도 API다 있다. 없으면 못하는 것이다.RFP 제안요청서 - 이 서류를 쓰는 것도 고역이다. 사업에 대한 것을 잘 알아야 하기 때문이다. RFP를 쓰는 사람이 명확히 알고 있으면 잘 쓰지만, 생성형 AI.. 2024. 12. 2.
Project 기획 및 관리 (6) 고객 군집별 구매력 예측, 엑셀 시트 하나로 합치기 삼성브라이틱스AIhttps://www.brightics.ai/Power BI처럼 드래그를 해서 머신러닝 분석도 할 수 있고, 시각화도 할 수 있고, 인사이트 도출할 수 있는 소프트웨어 플랫폼이다. 삼성에서 제공하는 플랫폼이다. IT와 관련한 시스템들을 작성한 뒤에 보고서를 작성하는게 있어서 참고할 것이다.클러스터링 방법이 한 방법일 뿐이다. 공간안에 뿌려지는 데이터가 벡터이고, 벡터가 2차원이나 3차원차원으로 갈 수 있다. 변수끼리의 거리 예를 들면 A(1,3), B(5,7) 이런게 있다고 하면 이거 두개 거리를 구하는 방법은 여러가지가 있다. 절댓값 방법으로 뺄 수 도 있고, |5-1|^2 + |3+7|^2 방법론이 있다. 거리가 비슷한 것 끼리 모인 것이 클러스터링이다.Segmentation 군집화 .. 2024. 12. 2.