본문 바로가기
커리어노트 📈/KPMG 교육

Project 기획 및 관리 (6) 고객 군집별 구매력 예측, 엑셀 시트 하나로 합치기

by Hayley S 2024. 12. 2.

삼성브라이틱스AI

https://www.brightics.ai/

Power BI처럼 드래그를 해서 머신러닝 분석도 할 수 있고, 시각화도 할 수 있고, 인사이트 도출할 수 있는 소프트웨어 플랫폼이다. 삼성에서 제공하는 플랫폼이다. IT와 관련한 시스템들을 작성한 뒤에 보고서를 작성하는게 있어서 참고할 것이다.

클러스터링 방법이 한 방법일 뿐이다. 공간안에 뿌려지는 데이터가 벡터이고, 벡터가 2차원이나 3차원차원으로 갈 수 있다. 변수끼리의 거리 예를 들면 A(1,3), B(5,7) 이런게 있다고 하면 이거 두개 거리를 구하는 방법은 여러가지가 있다. 절댓값 방법으로 뺄 수 도 있고, |5-1|^2 + |3+7|^2 방법론이 있다. 거리가 비슷한 것 끼리 모인 것이 클러스터링이다.

Segmentation 군집화 - 상황에 따라서 VIP, VVIP 군집화를 할 수 있다. 연령대이면서 소비금액이 얼마인 고객으로 나눌 수 있다. 고객에 대한 군집화는 각각의 산업화에 따라서 군집화하는 방법이 다 다르다. 마케팅을 활용할 수 있다.

고객 군집별 구매력 예측 케이스를 살펴보았다. 프로젝트 기획서, 발표 자료에는 Overview를 만들어야한다. Summary를 많이 만든다.

https://www.youtube.com/watch?v=MDb63ZXejJw&t=63s

기술적인 것을 반드시 써야한다.

머신러닝에서 ‘정규화’는 아주 중요한 얘기다. 점수는 몇점 맞았냐고 하면 10점에 9점, 9.0점 다 같다. 벡터는 거리를 따지는데 데이터를 나이와 구매와 함께 넣어놓으면 구매는 저 멀리있고 나이는 아래 있다. 옆에거를 찾을 수는 있는데, 거리값을 계산하는데 있어서 같은 범위에 두게 되면, 벡터거리값을 계산하기도 편하고, 0에서 1사이에 가둬놓는 것이다. 정규화 기법들이다. 벡터간 거리를 구하기 위해서 데이터를 한 공간에 가둬야한다. 거리값 계산할때 거리를 빼서 제곱을 하는 거다. 제곱오차를 계산할때 넘어가지말라고 하는 것이다. 피처값들의 숫자들을 가둬놓는 것이 정규화이다. 정규화에는 여러가지 종류가 있다. 이거는 프로그래밍이 알아서 해준다. 데이터 전처리와 군집분석 두 파트를 얼마나 잘 처리했는지가 중요하다.

 

고객 군집별 예측 프로젝트 기획서 - GPT 생성

파이썬에서 엑셀파일 가져와서 전처리를 하기 위해서는 코드를 지피티한테 써달라고 하면된다. 개발자들도 다 검색해서 쿼리를 가져오기 때문에 의존도가 높다고 생각할 필요가 없다.

자동으로 엑셀에서 데이터 취합하는 방법은 매크로를 사용하는 것이다. 파워쿼리도 있다.

하나의 엑셀 파일에 여러가지 시트가 있어서 시트를 하나로 취합하는 방법으로는 아래 처럼 데이터 - 데이터 가져오기해서 파워쿼리로 실행한다. 이 때, 파일을 열고 시작하는게 아니라 빈파일에서 가져와야 한다.

 

공공API란? 다운로드하지않고 서버에 접속해서 데이터에 접근할 수 있다. 예) 공공데이터포털

XML, Jason

XML 데이터 가져가려면 알아서 가져가라고 하는 HTML같은 형식이다.

파이썬으로 할때 거의 모든 데이터가 Jason으로 들어온다. Jason은 자바스크립트 형식의 자료이다. 자바는 네트워크에 특화되어있는 언어이다. 이 언어의 근본은 데이터 표준화이다. 필드내용으로 구성되어있는 데이터값이 일정량 다 비슷한 형식을 띈다. 인터넷이 발전하면서 인천구청에서 만든 자료랑 서울구청에서 만든 자료가 다른것이었다. 데이터를 가져와서 뭘 할 수 있는데, 양식이 통일되어야한다. 데이터셋에 해당하는 표준 포맷을 만들자고 했는데 그게 바로 XML와 Jason이다.

웹데이터를 받을 때, 나혼자 하는게 아니라 다른쪽에 주거니 받거니 하다보니 웹관련 작업은 Jason을 사용한다.

왼쪽 피벗테이블로는 데이터분석이 불가하다. 무조건 오른쪽 형식의 테이블이어야 분석이 가능하다.

데이터 복사해서 복붙할 때 “행열바꾸기” 선택

 

임베디드 - 기계 안에 저장시키고, 기계 안에서 한다. 핸드폰 안에 있는 칩셋들을 의미한다.
온프로미스 - 클라우드 기반을 의미한다.