본문 바로가기
커리어 노트 📈/KPMG 교육

디지털 이노베이션 및 빅테크 AI Business 전략 (2) 오픈 AI 임베딩, RAG, 파싱, requests 모듈, 웹데이터 구조

by Hayley S 2024. 12. 6.

ESG 누구나 할 수 있는 것. 기술로도 특화된 것도 아니고, 데이터를 수집한 것도 아니다. ESG문서들은 문서자체에 들어가는 단어들이 전문적인 용어다. 중소기업 있는 사람들이 그 용어를 쓸 수 없다. ESG는 산업군별로 다르다. 이건 전처리가 아니라 데이터 싸움이다. 자동차 부품이라고 하면 현대차에 납품해야하는 중소기업이 ESG라는 환경에 맞추지 않고 납품해서 문제가 생겼다. 품질관리에서 가이드를 맞추면 된다. 자기네도 맞춰야하니까.

기술 베이스를 끌고 가는 거니까.. 프로그래밍을 안해도 프로젝트를 하는 거니까.. 한번 스타트를 빠르게 하면 계속 한다.. 지금은 다같이 모르는 상황이고 기술은 새로운게 계속 나오고.. 작년은 LLM쪽 연구원, 전문가만 하라고 했다 형태소 분석과 기초적인 것만 해라고 가르쳤다. 지금과 같은 랭체인이 이 정도로만 스타트하면 프로젝트를 구축해본 사람을 못찾는다. 한번 프로젝트를 구축한게 오픈ai, 재미나이, ms 이거를 해요해요하면 계속 회사들은 해보려고 한다. CEO 들은 이상한거만 듣고 온다. 해보라고 부축인다. IT 전공자가 아닌 상태에서 IT를 하는 사람을 뽑는다. 우리가 갖고 있는 특수분야들에 알에이지를 붙이면 된다. 시스템 좀 맞추면 회사중에서 ERP에 붙여도 되고, 그런데 문제는 전산팀들이 아직 잘 모른다. 하긴 하는데 전산팀들의 특징이 혼자 배우기가 힘들어한다. 인공지능 하라고 하니까 못해먹겠다는 거다. 가르치면 또 잘한다. 하는 사람이 명확하게 알고 있는 사람이 가야한다. 회사 중에 ERP, CRM 갖고 있는 회사들이 많다. 삼정 엘지든 수많은 회사에서 AI기획자를 뽑는다. 명확하게 알고 있는 사람을 원한다. 어떤 문제를 갖고 있는지 알고 있는 사람들을 원한다. 챗봇하나 만들려면 형태소 분석부터 해야해서 기술때문에 작업이 늦었지만, 지금은 할 수 있다.

오픈 AI 임베딩

"임베딩"은 단어, 문장, 혹은 어떤 정보를 컴퓨터가 이해할 수 있는 숫자의 집합(벡터)으로 바꾸는 기술이다. 오픈AI 임베딩은 단어, 문장, 문서 같은 걸 넣으면, 그것을 특정한 길이의 숫자 벡터로 바꿔준다. 벡터라는 건 여러 개의 숫자가 쭉 나열된 걸 의미한다. 예를 들어, "사과"라는 단어는 [0.1, 0.8, 0.2, ...] 같은 숫자로 표현될 수 있다

Hugging Face 모델 허브: 대규모 벡터 데이터 검색 플랫폼. 다양한 NLP 모델과 임베딩 모델 제공한다. AI만 전문적으로 모아놓은 사이트가 되면서 엄청 성장했다. 우리나라는 이런 사이트가 없다.

구글과 네이버는 검색 방법론이 아예 다르다. 구글 Hadoop 하둡, 네이버는 자체 플랫폼이다. 우리나라 사람들과 외국사람들이 달라서 (취향, 문화 차이) 다르다. 구글은 어떻게 하면 검색을 빠르게 할 수 있을까에 집중하고, 네이버는 어떻게 하면 사람들을 여기에 가둘 수 있을까 고민한다. 이 안에서 가두고 돈쓰게 하는 데에 집중한다.

구글은 어떻게 하면 빨리 검색하고 내보낼 수 있을까를 고민한다. 그래서 중요한게 검색능력이다. 내가 입력한 단어셋의 가장 적합한 데이터가 나와야 한다. 결국 유사성 검색이다. 유사도 데이터, 빠른 리턴값이 중요하다. 이건 병렬처리다. 하나의 차선보다 6개의 차선으로 갈 때 더 빠르다. 병렬을 6개의 차선으로 가도 어딘가로 갈때는 하나에 막히니까 병목현상을 잘 해결해야한다. 그래서 구글이 이런 기술을 다 가지고 있다. 빠르게 처리하고, 유사도 보여주는 기술이다. 하둡이 구글의 병렬처리를 전문적으로 해주는 가장 밑바닥의 데이터를 주거니 받거니하는 시스템이다.

네트워크 그래프를 많이 그린다. 네트워크 그래프에 로드간선이라는 것을 이용해서 선이 짧을 수록 두 글자가 같이 나왔다. 멀수록 같이 나올 확률이 낮다고 본다. 데이터량이 너무 많기 때문에, 시각화의 가장 큰 의미는 인사이트를 빨리 볼 수 있도록 하는 기능이다. 그래서 시각화의 한가지의 방법론으로 네트워크 분석을 한다. 나이, 성별을 따져서 친밀도를 따져서 다 기록해 놓으면 벡터가 된다. 관계의 유사성을 분석하고, 사회 연결망 분석 (Social Network Analysis)를 할 수 있다. 노드 그래프 분석이다. 동그라미와 선을 모양을 이용해서 거리를 나타낸다. 이 그래프가 잘 작동하지 않으면 따로 그리기도 한다. 그려내는 방법론에 만든다.(5번에 동그라미 몇개)

예) 드라마 대본을 분석해서 조연배우가 누구 주연배우와 잘 나오는지 네트워크 분석을 했다. 그런걸 해도된다. 별거 아닌 건데도 해놓으면 재밌다.

그림도 RGB값을 가지고 하기 때문에 벡터화하는 것으로 본다.

RAG가 좋은 데는 법률, 회계 이런 자체적인 문서를 가진 곳들이다. 지피티에서 검색이 안되기 때문에 우리회사만의 응답 시스템을 만들거나 매뉴얼을 만들고 싶은 것이다. 학습이라는 것을 시켜야해서 돈도 많이 든다. 알에이지 모델을 만들면 퍼펙트하고 이것만큼 좋은 것은 없다. 문제는 검색을 할 때 제대로 검색어를 입력안하고 못쓴다. 누구한테 뿌릴 것인가도 생각해야한다. 법률 용어로 만들어도 쓰는사람이 그 용어를 모르기 때문에 쓰기 힘들다. 그래서 유사 언어를 학습시켜야 하는 것이 중요하다. ESG를 모르는 사람이 보고서를 쓴다고 하면 자동화도우미, 검색도우미가 필요하다. 문서는 어떤 상황이건 쉬운걸로 못 바꾼다. 기존 어시스턴트랑 같아진다. 카드회사에 보면 어시스턴트 (가상)들이 있다.

어시스턴트 역할이 엄청 중요하다. 가상 어시스턴트를 어떻게 만들 것인가?

단어를 어떤 식으로 자를 것인가도 중요하다. pdf 300장 통으로 넣으면 몇 단어로 잘라서 넣어야 하나, 많이 넣는 것보다 적게 넣는게 임베딩하기 쉽다. 청크라는 용어는 데이터를 로딩하는데 있어서 사이즈를 몇글자씩 자를 것인지 정한다. 이게 데이터 품질을 결정한다.


파이썬에서 오픈 AI 키값을 받아서 연결을 했기 때문에 우리는 공식적으로 이 사이트에 들어가서 작업을 한 상황을 만들었다. API라는 사이트에 들어가서 인증키를 받고, 상황에 따라서 유무료가 된다. csv로 다운받는 것이 편하지만,

예전에 작업한다면 csv로 내려받은 다음에 엑셀로 열어서 필요한 정보 컬럼에 필터를 걸어서 쓸 수 있었다. 공휴일이라는 용어를 잘못하면 검색이 불가능했다. 별도의 버튼을 만들고, 복잡한 과정을 겪어야 했다.

OpenAPI

JSON 데이터가 크고, 눈에 잘 안 들어온다.

웹사이트란 어떻게 구성되어있는가를 알고 가면 된다.

웹사이트 언어를 가져오려면 반드시 필요한 것이 통신프로토콜이 필요하다. 필요한 모듈이 있다. 웹서버에 해당하는 데이터를 가져오려고 한다.

이미지 url 요청받기도 같은 포맷이다. request 모듈

크롤링이 어려운 것은 네트워크 개념이 없어서 그렇다.
판다스에 어려운 것은 데이터 개념이 없어서 그렇다.
파이썬은 기술이 어려운 것이 아니다.


get: request를 받은 변수가 있고, 변수를 받은 자료가 있고, 자료에서 get을 한다. 결국은 request 자료다. get은 단순하게 가져오는 것, post는 자료를 주니까 검수해서 넣는 꺼내든지 해달라고 요청한다. 로그인하는 것이 post다. 사용자가 회원가입 창에 회원가입을 하고, 조회를 한다. 아이디에 해당하는 생년월일, 주소를 보여준다.

데이터를 주거니 받거니해서 데이터를 잘 관리하는 직군이 서버 관리자 직군이다. 어디엔가 데이터가 있고, 로그인/상품조회/상품주문 등등 수많은 일들이 뭔가 입력하고 엔터를 입력하는 순간 서버에 get하고, 또 post하는 수 많은 일들을 한다. 수많은 클라이언트를 관리하고, 관리자 모드는 얼마나 많이 접속했는가, 몇 시쯤에 많이 접속했는가, 트래픽은 얼마인가, GPU 가격은 얼마인가 등등 시스템 관련된 부분을 관리한다. power bi 대시보드 형태로 경영자에게 보고한다.

request라는 명령어를 이용해서 get으로 데이터를 얻는 작업을 한다.

서버 클라이언트에도 인공지능이 많이 들어가는 실정이다.

 

파싱
파서기
<td>A<td>

 

서울시 공공데이터

https://data.seoul.go.kr/

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

오픈 API나 크롤링에 특화되어있는 사람들이 있다.