비즈니스 애널리틱스 II (4) PCA와 차원축소, AutoML, 데이터스케일링, Fit & Transform
Data Grouping 군집x변수가 많을수록 데이터는 분석하기에 유리해진다고 한다. 최근의 문제는 기존에 갖고 있는 변수가지고는 한계가 있는데 그 이유는 개인화된 데이터이기 때문이다. 방문한 접속 빈도수가 얼마나 되고, 가족 수가 몇명인지, 우리 물건을 어떻게 사갈까 세그멘테이션은 가능하지만, 개개인이 뭘 살지는 예측하기가 어렵다. 얼마나 버는지, 가족구성원, 경제상황, 건강상태 세부적인 내용을 모르기 때문에 그룹안에 넣어버리면 초개인화는 불가능하다. 세그멘테이션이라는 군집으로 안되는 것들을 어떻게 더 세그멘테이션 할 수 있는지 찾아야 한다. 리뷰의 내용을 가지고 개인화한다고 하면 국물이 흘렸다고 리뷰를 자주쓴다면 청결함, 까칠함, 우선시하는 것들을 볼 수 있다. 이런 것들까지 분석하는 최고의 도구가 ..
2025. 2. 10.