gpt의 원리 - 질문, 응답 옵션
구글 재미니 + 초간단 챗봇 (UI)
다른 사용자가 쓰게 하려면 웹과 앱에 설치해서 인터넷이라는 연결로 구동해야한다. 그런데 웹,앱 개발까지 하라고 하니까 프로토타입을 만들어서 개발자에게 넘겨주는 식으로 한다.
엡(그라디오), 웹(스트림잇) - 진짜 만드는 것은 아니고 프로토타입용이다. 기능이 많이 떨어지지만 굉장히 쉽다.
1)API 허락받아서 JSON같은 걸로 가져올 수 있고,
2)크롤링 (웹 스크래핑) 웹언어를 이해하고, 구조를 이해해서 내가 원하는 자료를 가져오는 기술이다. 이거 하려면 웹의 구조를 알아야 한다. 웹언어를 따로 공부해야한다.
우리가 입력하는 웹사이트 주소는 도메인 네임이고, 이거는 컴퓨터가 IP주소를 인식한다.
DNS → 43.1.7.어쩌고저쩌고
공간을 사놓는 거고, 사용자들이 접속해서 쓴다. 주소를 대표하는 이름을 주는 것이다. 그게 바로 도메인 네임이다.
생성형 AI로 만든 앱 5분안에 만든다는 건 사기다. 이건 나 혼자쓰는 건 가능하지만 서비스로 못한다. gpt 강의료 요즘 짱 비싸다.
gpt playground
위키독스 자료 https://wikidocs.net/195818
토큰이란? 우리가 문장을 입력하면 문장을 단어로 변경해줘야 한다. 단어로 바꾸는 과정을 토큰화라고 한다. 단어를 다양하게 입력하기 때문에 일치성을 확인해야하고, 명사만 선택할 것인지, 형용사만 선택할 것인지를 생각해야해서 사용자가 입력한 것중에 내가 필요한 것만 뽑아내는 과정이 힘들다. 비정형 중에서도 텍스트와 관련된 부분이라 텍스트분석이라고 한다. 토큰은 이미 벡터화되어있다. 문장을 토큰으로 바꾸는데 되게 많은 일이 들어가고, 컴퓨터는 숫자밖에 인식하지 못하기 때문에 문자를 숫자화해서 이해한다. gpt가 많은 연산을 소모하게 된다. 그리고 비용(credit)이 나오는 것이다.
gpt 매뉴얼 볼 수 있는 곳 OpenAI Cookbook
토큰수가 중요한 이유는 비용과 직결된 문제이기 때문이다.
아래가 벡터값이다. 그냥 숫자. Token IDs
요즘 추구하는 IT인재는 창의적인 인재이다.
창의력 = 많은 경험에서 나옴 → 잘 정리하는 사람,
이게 LLM(Large Language Model)도 같은 원리이다. 텍스트가 아닌 대화내용이 LLM으로 들어가야하고, 굉장히 많은 난관에 부딪히게 된다. 사용자가 대답하는 것은 사람이 알아듣는 것처럼 해야하는데, 할머니 할아버지들은 용어자체를 명확하게 못하기 때문에 답을 할 수 없다. 이게 헬스케어의 과제이다.
AI쪽으로 가려면 데이터 라벨링 중요하다. 토큰에 해당하는 것만 만드는 것과 여러 토큰화 과정들을 알아야한다. 단순해 보이지만 제일 중요하다. 데이터를 원시적인 것부터 처리해본 사람을 원한다. 그 과정이 되게 힘들기 때문이다. 챗봇 화면 만드는 것은 안 어렵다. 요즘 점점 더 쉬워지고 있다. 챗봇에 들어가는 데이터셋이 우리가 하려는 것과 맞는 건지를 알아야 한다. 대상이 애기들이라면 애기들 대화를 받아야하고, 어른들이라면 어른들 대화를 받아야한다. 밖이라면 밖에서 대화를 녹음해서 들어야한다. 우리는 기술파트가 아니라서 기술을 몰라도 되지만, 어떤 문제가 있는지 보고 느껴야한다.
- 호스팅: 남도 내거 볼 수 있게 하는 것. 오픈해주는 것. 그라디오도 호스팅 기능이 있다.
위키독스 - 자세히 쓰는 Gemini API
https://wikidocs.net/book/14285
‘현재 최고 수준의 결과’ 내가 개발하고자할 때 가장 좋은 모델을 쓰면 된다. → SOTA 소타 모델
그렇기 때문에 어떤게 좋고 나쁘다라고 말할 수 없다. IT 쪽은 컨퍼런스를 되게 볼 수 밖에 없다. 12월달쯤되면 어마어마하게 다닌다. 뭐가 좋다라고 할 수 없다.
구글이 가지는 힘이 있다. 대표적인 힘이 안드로이드다.
https://cloud.google.com/gemini/docs?hl=ko
챗봇을 만드는 건 쉬운데, 데이터 튜닝하는 파트들 데이터셋 만들어서 학습시키는 것이 어려운 부분이다. 만들어진 걸 웹에다가 서비스하는 과정은 어렵다. 아주 단순한 챗봇은 쉽다.
Visual Studio에서 주피터노트북으로 시작한다.
위키독스 차례대로 따라 코드 넣었음.
멀티턴
이런 리스트를 두개이상으로 합치는 것을 멀티턴이라고 한다.
따로따로 만들 수도 있다.
Temperature 높을 수록 더 자세한 답변을 준다.
옵션을 얼마로 줘야 좋은 결과가 나올지 사람이 결정한다. 좋은 결과를 위해서 여러가지 옵션을 지정한다. 인공지능 개발자들은 논문은 잘 읽어보고 자랑질을 해야한다. 논문 볼줄 아는사람이 중요하다. SOTA이기 때문에 뭐가 좋은지 모른다.
Google AI 스튜디오 화면 구성
터미널 결과
단순하게 “GPT한테 연결해서 응답받아”
사용자가 Q랑 똑같이 입력하지 않을 수 있다.
예전 챗봇은 리스트업 내용들이 있는 식이었지만, 지금은 사용자가 어떤 것을 입력하더라도 입력된 내용과 유사도가 가장 높은 제목을 하나 꺼내주는 것이다.
Language를 하나 보여주고 하나 읽어서 gpt가 이해할 수 있는 도큐먼트로 바꿔야 하는데 힘드니까 모듈을 하나 주는 것이다. gpt가 유사도 분석을 한다. 랭체인이 나오면서부터 챗봇을 되게 쉽게 만들고 있다. 일반 텍스트만 출력 뿐만 아니라 pdf 읽어서 요약시킨다. 랭귀지가 체인처럼 엮어서 나오는 것이다.
튜닝하는 챗봇은 어렵다.
챗봇을 통해서 어떤 인사이트를 내는 것을 만들 것인가?
프로젝트 기획서
한글로 작업 - 페이지 설정 하기
워드 작업 한 것을 한글로 바꿔주는 프로그램도 나왔다.
1) Ctrl+N+T 자동으로 표로 생성
작성자+TAP+작성일
프로젝트 주제
프로젝트 개요
프로젝트 목적 및 범위
사용기술
2) F5 블록잡기
블록잡고 S 누르면 Split
3) 한글에서 자간 조정하기
한 줄로 만들고 싶으면 자간을 조정하면 된다.
Alt+Shift+N
자간을 표에 맞추겠다. “한 줄로 입력”
4) 글꼴 사이즈 조정
글꼴크기 키우기: Ctrl+[
글꼴크기 줄이기: Ctrl+]
'커리어 노트 📈 > KPMG 교육' 카테고리의 다른 글
인공지능과 생성형 AI (4) Tkinter 패키지, GUI 구현, 파이썬 (함수 / 패키지 / 모듈) (3) | 2024.12.05 |
---|---|
인공지능과 생성형 AI (3) 디렉토리, 터미널, pathlib 모듈 (0) | 2024.12.05 |
인공지능과 생성형 AI (1) PPT 보고서 (2) | 2024.12.05 |
기초 통계 및 경영 통계 (3) 파이썬 (1) | 2024.12.03 |
기초 통계 및 경영 통계 (2) 파이썬 (0) | 2024.12.03 |