👩🏻‍💻 AI 과정 50

비즈니스 애널리틱스 II (1) 랭체인, 판다스 AI 보고서 작성, 생성형 BI, Numpy

(교재) 나도 하는 파이썬 데이터 분석비즈니스 애널리틱스 II 과정에서는 머신러닝 관련한 기술을 다뤘다.08. 랭체인_판다스 Ai합쳐서.ipynb (GitHub)import matplotlib.pyplot as pltplt.rcParams['font.family'] ='Malgun Gothic'plt.rcParams['axes.unicode_minus'] =False!pip install -U langchain-openaiimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom scipy.stats import skew, kurtosisfrom langchain_openai import Chat..

비즈니스 애널리틱스 I (3) 텍스트 분할 & 임베딩, 벡터 유사도 분석, 형태소 분석, 네이버 쇼핑몰 데이터 RAG

정크 사이즈 > 정크 오버랩chunk_size와 chunk_overlap은 텍스트 데이터를 일정 크기(chunk_size)로 나누는 과정에서 겹치는 부분의 크기(chunk_overlap)를 설정하는 매개변수이다. 이는 주로 텍스트 분할 작업에서 사용되며, 텍스트 처리 및 분석, 특히 자연어 처리(NLP) 모델에 데이터를 입력하기 전에 텍스트를 잘게 쪼개는 데 유용하다.예시: chunk_size=5, chunk_overlap=1입력 텍스트가 다음과 같다고 가정: "abcdefg"['abcde', 'bcdef', 'cdefg'] 프로그래머들은 계속 숫자 바꿔가면서 테스트를 한다.글자가 계속 겹치면서 나온다는 의미이다. 단어가 기존의 형태소 분석에서 두글자씩을 청크라고 하면 오버랩은 두개씩 해줘야 다 나올 수..

비즈니스 애널리틱스 I (2) 네이버 API 활용을 통한 데이터 수집, 전처리, 분석, 시각화

네이버 API 검색import requestsimport pandas as pd# 네이버 개발자 센터에서 발급받은 클라이언트 ID와 시크릿을 입력합니다.client_id = 'Your ID'client_secret = 'Your Password'query = '직장인'url = 'https://openapi.naver.com/v1/search/shop.json' # 쇼핑몰# 요청 헤더에 인증 정보를 추가합니다.headers = { 'X-Naver-Client-Id': client_id, 'X-Naver-Client-Secret': client_secret}params = { "query": query, "display": 100}# API에 GET 요청을 보냅니다.response ..

비즈니스 애널리틱스 I (1) 추천시스템, 파이썬 자료구조, 네이버 API 연결

추천시스템비슷한 취향의 사람을 연결해주는 것이다. 넷플릭스라면 유사도가 비슷한 사람이 본 것을 보여준다. 우리가 구현을 못하는 이유는 실제 데이터가 없으면 구현을 못한다. 파이썬이 제공하는 모듈로는 택도 없다. 파이썬이 제공하는 모듈로 추천시스템을 구현안한다. 일반 모듈로는 못쓴다. 거기다가 플러스해서 붙여야한다. 그런 부분들은 추천으로 해서 잘 됐는지는 실제 데이터가 필요하다. 추천시스템은 데이터를 가지고 어떤 알고리즘을 쓰는지가 중요하다. 시중에 나와있는 알고리즘이 아닌 다른 요소들을 찾아내야 한다. 넷플릭스는 사용자 취향에 따라서 추천해주는데 한국이라면 계절도 있고 다른 요소들도 있다.설계라는 것은 엄청 나게 많이 알아야 할 수 있는 것이다. 쓸데 없는 설계는 안하는게 낫다. 이론으로 완전 무장하면..

딥러닝 학습 순서

딥러닝 학습은 기초 수학 → 프로그래밍 → 신경망 원리 → 컴퓨터 비전 → 고급 모델 구현의 순서로 진행하는 것이 효과적이다. 각각의 단계를 차례대로 익히고, 이론과 실습을 병행하면서 이해도를 높이는 것이 중요하다. 1. 기본적인 수학 개념딥러닝의 기반은 수학이다. 데이터를 다루고 모델을 훈련시키기 위해 반드시 알아야 한다.선형대수: 벡터, 행렬 연산, 행렬 곱, 전치 등을 이해해야 한다.미분과 편미분: 딥러닝 모델에서 손실 함수(오차)를 줄이기 위한 경사 하강법(Gradient Descent)을 이해하는 데 필요하다.확률과 통계: 데이터의 분포를 이해하고, 모델의 성능 평가에 사용된다.학습 방법: 간단한 예제를 통해 벡터 연산, 경사 하강법, 확률 분포를 계산해보는 연습을 한다. 2. 파이썬과 라이브러..

K-Nearest Neighbors (KNN)

K-Nearest Neighbors(KNN)는 거리 기반 학습 알고리즘으로, 새 데이터 포인트의 분류(Classification)나 회귀(Regression)를 위해 가장 가까운 K개의 데이터 포인트를 참고한다. 비지도 학습처럼 보일 수 있지만, 주로 지도 학습(Supervised Learning)에 속한다.KNN은 학습 단계에서 모델을 생성하지 않고 데이터를 그대로 저장한다. 새로운 데이터 포인트를 분류하거나 값을 예측할 때, 기존 데이터를 기준으로 거리를 계산하여 가장 가까운 이웃 K개의 데이터를 참고한다. 이 이웃들의 다수결이나 평균을 바탕으로 결과를 예측한다. KNN 작동 원리KNN은 새로운 데이터 포인트가 주어졌을 때, 학습 데이터 중 가장 가까운 K개의 이웃을 찾아 이웃의 정보를 기반으로 결과..

[GPT랑 공부하기] 이미지 데이터 분석: 기술통계, KNN 분류, 커머스 활용과 네이버 API 연계 인사이트

👩  : 이미지에서 기술통계란?💻 : 이미지에서 기술통계는 이미지 데이터를 요약하고 설명하는 데 사용되는 통계적 기법입니다. 이를 통해 이미지의 주요 특성과 분포를 정량적으로 이해할 수 있습니다. 다음은 이미지에서 기술통계가 적용되는 주요 방법과 개념들입니다:1. 픽셀 값의 기술통계이미지는 픽셀 값의 배열로 구성됩니다. 기술통계는 픽셀 값 분포를 요약하는 데 사용됩니다.최소값 및 최대값: 이미지에서 가장 어두운 픽셀과 가장 밝은 픽셀의 값.평균값: 픽셀 값의 평균으로, 이미지의 전반적인 밝기를 나타냄.중앙값: 픽셀 값의 중앙값으로, 이상치의 영향을 줄임.표준편차: 픽셀 값의 변동성을 나타냄.왜도(Skewness) 및 첨도(Kurtosis): 픽셀 값 분포의 비대칭성과 뾰족함 정도를 측정.2. 히스토그..

[GPT랑 공부하기] 컴퓨터 비전과 OpenCV 라이브러리

👩  : 컴퓨터 비전이 뭐야?💻  : 컴퓨터 비전(Computer Vision)은 컴퓨터가 이미지나 영상을 분석하고 이해할 수 있도록 하는 인공지능(AI)의 한 분야입니다. 인간이 눈을 통해 세상을 보고 인지하는 방식처럼, 컴퓨터가 디지털 이미지를 입력받아 그 안에 담긴 정보를 추출하고 해석하는 것을 목표로 합니다.주요 개념과 목표컴퓨터 비전의 핵심은 디지털 이미지나 영상 데이터를 처리하여 유의미한 정보를 생성하는 것입니다. 이를 통해 다음과 같은 작업이 가능해집니다:이미지 인식: 이미지 안의 객체를 식별(예: 얼굴, 자동차, 동물 등).객체 탐지(Object Detection): 이미지나 영상에서 특정 객체의 위치와 종류를 탐지.세그멘테이션(Segmentation): 이미지나 영상을 픽셀 단위로 나..

[데이터분석 커리어패스] 어떤 커리어가 나에게 맞을까?

1. 데이터 분석가 (Data Analyst)데이터 직무 중에서 가장 기본 입문 포지션이다. 데이터 분석가는 데이터를 수집하고 정리하며, 이를 바탕으로 기업이 더 나은 의사 결정을 내릴 수 있도록 돕는다. 주로 Excel과 대시보드 작업이 중심이며, 머신러닝 모델은 다루지 않는다. 하는 일: 보고서 작성, 트렌드 분석, 비즈니스 질문에 대한 답변 제공. 주요 도구: Excel, SQL, Tableau/Power BI, Python(기본 통계 및 데이터 정리). 추천 이유: 데이터를 통해 이야기하는 것을 좋아한다면 시작하기 좋은 포지션이다. 2. 데이터 과학자 (Data Scientist)데이터 분석가의 역할을 확장하여 머신러닝과 고급 통계를 활용해 복잡한 문제를 해결한다.  하는 일: 고객 행동 예측 모..

[파이썬] Run 안될 때 확인 방법 (가상환경 확인, Print, Run Python File)

어제까지만 해도 문제 없던 코드가 Run을 눌렀을 때 자꾸 에러가 뜨는 것이다 ㅠㅠ 그래서 결국 도움을 요청해서 알아내긴 했는데 여전히 해결되지 않은 에러가 뜨면 스스로 해결하지 못해서 답답하다.Terminal에서 사용하고 있는 가상환경에 들어가야만 작동이 되니, 일단 먼저 conda activate 가상환경이름 을 해주었는지 확인하자. 요즘 파이토치, 미디어파이프를 활용해서 프로젝트를 했었는데, VS Code로 실행하다보면 버전을 못따라가서 충돌하기도 한다고 한다. 그래서 에러가 몇 열에서 나는지 확인하고, print('-----')을 중간에 삽입하여 어디까지 실행이 되는지 확인한다.  그리고 Run에서 'Run Python File'로 돌려보았다.  그랬더니 안되던게 되는 매직이...ㅠㅠ 다음에 안되..