본문 바로가기

커리어 노트 📈44

디지털 이노베이션 및 빅테크 AI Business 전략 (2) 오픈 AI 임베딩, RAG, 파싱, requests 모듈, 웹데이터 구조 ESG 누구나 할 수 있는 것. 기술로도 특화된 것도 아니고, 데이터를 수집한 것도 아니다. ESG문서들은 문서자체에 들어가는 단어들이 전문적인 용어다. 중소기업 있는 사람들이 그 용어를 쓸 수 없다. ESG는 산업군별로 다르다. 이건 전처리가 아니라 데이터 싸움이다. 자동차 부품이라고 하면 현대차에 납품해야하는 중소기업이 ESG라는 환경에 맞추지 않고 납품해서 문제가 생겼다. 품질관리에서 가이드를 맞추면 된다. 자기네도 맞춰야하니까.기술 베이스를 끌고 가는 거니까.. 프로그래밍을 안해도 프로젝트를 하는 거니까.. 한번 스타트를 빠르게 하면 계속 한다.. 지금은 다같이 모르는 상황이고 기술은 새로운게 계속 나오고.. 작년은 LLM쪽 연구원, 전문가만 하라고 했다 형태소 분석과 기초적인 것만 해라고 가르쳤.. 2024. 12. 6.
인공지능과 생성형 AI (8) 인코딩 방식, Faiss, csv 로더기 뉴스기사는 중요하게 쓰일 수 있다. 법제가 포함되어있거나, 식품같은 경우는 식약처 표준이 바뀐것도 기사에 뜬다. 각각의 카테고리가 있다. 그런 자료들을 요약해서 카드 뉴스를 만들 수도 있다. 바뀐 법령이 나오면 요약본이 필요하다. 기존의 정책과 어떤게 바뀌었고, 어떤게 남아있는지 (숫자가 아님)를 알아야 해서 요약본이 중요하다. 스페이스 하나도 다른 단어로 인지한다. 오픈 AI의 단어셋이 있어서 가능하지만, 예전에는 이거는 상상도 못한 일이었다. 하지만 지금도 고전적인 방식으로 문장 분석을 많이 한다. 고전적인 방식은 안녕, 나는, 산책 모두 형태소로 쪼갠다. 구글 ‘KONLPY 파이썬’ 검색, 형태소 단위로 글자를 쪼갤 수 있도록 모든 단어를 등록해놓은 패키지이다. 카이스트에서 이걸 했다. 일일이 단어.. 2024. 12. 6.
인공지능과 생성형 AI (7) ChatGPT API API를 무조건 해야하는 시기이다.IT사람들이랑 함께 일하게 될텐데, 이 사람들은 모르는게 있으면 검색하라고 한다. 베이스가 전혀 없는 상태에서는 검색해도 뭔지 모르겠지만, 지피티나 구글에 검색해서 한번에 못알아듣더라도 용어를 설명을 보고보고본다면 점점 알게될 것이다. 현실적으로 IT사람들은 검색해서 보면 되는걸 자꾸 물어보는게 짜증난다고 한다.재미니는 속도가 빠르지만 그럼에도 불구하고 후발주자이기 때문에 LLM 부분은 지피티를 통해서 하는 경우가 많다. 지피티로 코딩을 해봐야하기 때문에 해봐야한다.지피티로 코딩하는 작업을 할거다.아나콘다 프롬프트에 그대로 작성한다.설치가 안되어있으면 없다고 뜬다.import openai print(openai.version) 0.28.0버전이 지금 아래 버전이라서 조금.. 2024. 12. 5.
인공지능과 생성형 AI (6) 랭체인, LLM, LCEL 적은비용, 많은 기능, 최적화랭체인 쪽은 책, 인터넷 강의도 별로다. 이 책이 제일 좋다. - LangChain 한국어 튜토리얼 (위키독스)https://wikidocs.net/book/14314 - LangChain 한국어 튜토리얼🇰🇷" data-og-description="**추천**은 공유할 수 있는 무료 전자책을 집필하는데 정말 큰 힘이 됩니다. **"추천"** 한 번씩만 부탁 드리겠습니다🙏🙏 ✅ **랭체인 한국어 튜토리얼 강의** …" data-og-host="wikidocs.net" data-og-source-url="https://wikidocs.net/book/14314" data-og-url="https://wikidocs.net/book/14314" data-og-image=".. 2024. 12. 5.
인공지능과 생성형 AI (5) 가상환경 셋팅, 랭체인 로더기 1112_가상환경의 이해.pptx구글에 “가상환경(Virtual Machine)” 검색오늘 작업환경 셋팅할 예정이고, 왜 클라우드를 해야하는지 알게 될 것이다.파이썬에서 가장 힘든 것은 의존도가 높아져서 뭔가가 바뀌면 덩달아서 내가 하는 것보다 바뀐거에 쫓아다녀야 한다. 하나가 바뀌는게 아니라 연관되어있는 릴레이션이 꽤 많다. 이런 릴레이션 의존성이 너무 높아서 하나를 설치하고 나머지 의존되어있는게 문제있으면 전체 프로그램이 안돌아가는게 생겨버린다. pandas, numpy, open cv 다 하다보면 몽땅 다 안되는 경우가 생긴다. 그러면 어떻게 하느냐? 구조를 잘 만들어야 한다. 그것을 가상환경이라고 한다. 내가 원하는 모듈만 버전별로 만들어 놓는다. 이거를 안 맞춰놓으면 잘되던 프로그램이 아예 안돌.. 2024. 12. 5.
인공지능과 생성형 AI (4) Tkinter 패키지, GUI 구현, 파이썬 (함수 / 패키지 / 모듈) SQL에서 데이터베이스 테이블 만들고, 파이썬에서 Tkinter 패키지 사용해서 GUI 만들어서 정보 맞는지 연결한다.먼저 MYSQL Workbench에서 e-commerce라는 데이터베이스를 생성하고, users라는 테이블을 만들어서 id와 password를 입력했다. 다음으로 Visual Studio Code를 실행해서 Tkinter 패키지를 사용하여 GUI를 구현한다.mysql.connector는 MySQL 데이터베이스와 파이썬 프로그램 간의 연결을 가능하게 하는 라이브러리다. 이를 통해 Python 코드에서 MySQL 데이터베이스에 접근하고 SQL 쿼리를 실행할 수 있는 기능을 제공한다.데이터베이스와 연결하기 위해 connect() 함수를 사용하고, SQL 명령을 수행하기 위해 cursor()를 .. 2024. 12. 5.
인공지능과 생성형 AI (3) 디렉토리, 터미널, pathlib 모듈 파일 및 디렉토리의 이해 - 터미널, 파일탐색기, 파이썬 C드라이브 - 하드디스크 (물리적 저장)cd: change directory파일탐색 와일드카드란? ‘’ * “ 뒤에 모든 것을 찾아라.해시테이블은 파일 이름을 알고 있을 때 바로 그 파일을 빠르게 찾는 데 좋고, 인덱스는 특정 조건에 맞는 파일들을 빠르게 찾는 데 좋다.캐시메모리: CPU가 자주 사용하는 데이터를 저장하는 작고 빠른 메모리다. 컴퓨터가 더 빠르고 효율적으로 일할 수 있게 한다. 바로바로 꺼내 쓸 수 있다.  4개월 간의 세일즈 분석 위 내용들은 API, 크롤링 할때 필요하다. 파일과 데이터가 쌓여있고 한개로 합쳐서 봐야하기 때문에 폴더 관리는 계속 필요할 것이다. Path가 이런일을 한다.폴더 내의 파일을 가져오는 방법을 두 가지,.. 2024. 12. 5.
인공지능과 생성형 AI (2) Gemini API, 멀티턴, temperature gpt의 원리 - 질문, 응답 옵션구글 재미니 + 초간단 챗봇 (UI)다른 사용자가 쓰게 하려면 웹과 앱에 설치해서 인터넷이라는 연결로 구동해야한다. 그런데 웹,앱 개발까지 하라고 하니까 프로토타입을 만들어서 개발자에게 넘겨주는 식으로 한다.엡(그라디오), 웹(스트림잇) - 진짜 만드는 것은 아니고 프로토타입용이다. 기능이 많이 떨어지지만 굉장히 쉽다.1)API 허락받아서 JSON같은 걸로 가져올 수 있고,2)크롤링 (웹 스크래핑) 웹언어를 이해하고, 구조를 이해해서 내가 원하는 자료를 가져오는 기술이다. 이거 하려면 웹의 구조를 알아야 한다. 웹언어를 따로 공부해야한다. 우리가 입력하는 웹사이트 주소는 도메인 네임이고, 이거는 컴퓨터가 IP주소를 인식한다.DNS → 43.1.7.어쩌고저쩌고공간을 사놓는.. 2024. 12. 5.
인공지능과 생성형 AI (1) PPT 보고서 공유폴더 - eda관련 기초 파일 참조GPT 파이썬 코드 작성해줘데이터는 보험청구와 관련한 데이터 정보,  y값은 charges0   age       1338 non-null   int64   1   sex       1338 non-null   object  2   bmi       1338 non-null   float64 3   children  1338 non-null   int64   4   smoker    1338 non-null   object  5   region    1338 non-null   object  6   charges   1338 non-null   float64dtypes: float64(2), int64(2), object(3)데이터의 하단 5개 보기데이터의 전체 크기.. 2024. 12. 5.
기초 통계 및 경영 통계 (3) 파이썬 [앞으로의 진도]gpt → gpt API 프로그램으로 챗봇엑셀작업 (산점도, 히스토그램 - 기술통계, 피벗테이블) → 파이썬 기술통계 (오늘 진도)SQL (질의언어, 조인구문 중요), 파워 BI 시각화파이썬 기초문법 (pandas 기초 문법)서버에 있는 자료 (SQL)를 불러와서 자료분석 (혼자 / 여러사람 - 화면설계도 해야함 화면이 웹상 또는 로컬인지 고민해야함) 파일참고: 2. 파이썬에서 mysql 자료 조회.ipynb칸아카데미 통계 자료 좋다 - 통계쪽 갈 사람들은 확인하기https://ko.khanacademy.org/math/statistics-probability/analyzing-categorical-data Khan Academy ko.khanacademy.org파이썬은 범주형인지 숫자형.. 2024. 12. 3.
기초 통계 및 경영 통계 (2) 파이썬 파이썬 & Power BI 연동 가능하다. py 확장자는 그래픽은 따로 화면을 띄어야하는데, 주피터노트북은 그럴 필요가 없다. 주피터노트북에서 Power BI 구성할 수 있고, 권장한다. 주피터는 대답 작업 각각 나오고, 에디터 중에서도 질문 답 질문 답을 한눈에 볼 수 있어서 보고서 작성에 용이하다. 질의응답해서 포트폴리오 할때 작업을 많이 한다. 전문 프로그래머가 아니면 주피터노트북을 많이 사용한다. 특히 데이터 분석 쪽에서. 파이썬 소프트웨어에서 Power BI 리포트를 생성해낼 수 있다는 것이다. 언어끼리 다 연결해서 쓸 수 있다. 태블로에 대한 시각화를 사용할 수 있다. PyGWailker 다운받으면 된다. 모듈이 있다. 모듈을 갖다놓고 나서 사용하면 태블로와 같이 시각화 전문 프로그램으로 쓴 .. 2024. 12. 3.
기초 통계 및 경영 통계 (1) 파이썬 나라장터 https://www.g2b.go.kr/index.jsp조달시스템에 입찰할 때 들어가는 사이트이다. 내가 입찰할 사업거리가 있는지 찾을 수 있다. 프로그램으로 볼 수 있는 것이 API다. 추후에 조달청과 연결되어있는 API는 작업해볼 것을 권장한다. 조달사이트만 계속 들어가서 확인한다. API모르면 직접 들어가서 계속 확인해봐야한다.크롤링이 요즘 좋아졌다. 웹 크롤링도 지피티가 잘 짜준다. 추후에 API나 크롤링을 할때 분석하고자 하는 데이터에 맞게 API와 크롤링을 해보는 것이 좋다. 조달청에도 API다 있다. 없으면 못하는 것이다.RFP 제안요청서 - 이 서류를 쓰는 것도 고역이다. 사업에 대한 것을 잘 알아야 하기 때문이다. RFP를 쓰는 사람이 명확히 알고 있으면 잘 쓰지만, 생성형 AI.. 2024. 12. 2.
Project 기획 및 관리 (6) 고객 군집별 구매력 예측, 엑셀 시트 하나로 합치기 삼성브라이틱스AIhttps://www.brightics.ai/Power BI처럼 드래그를 해서 머신러닝 분석도 할 수 있고, 시각화도 할 수 있고, 인사이트 도출할 수 있는 소프트웨어 플랫폼이다. 삼성에서 제공하는 플랫폼이다. IT와 관련한 시스템들을 작성한 뒤에 보고서를 작성하는게 있어서 참고할 것이다.클러스터링 방법이 한 방법일 뿐이다. 공간안에 뿌려지는 데이터가 벡터이고, 벡터가 2차원이나 3차원차원으로 갈 수 있다. 변수끼리의 거리 예를 들면 A(1,3), B(5,7) 이런게 있다고 하면 이거 두개 거리를 구하는 방법은 여러가지가 있다. 절댓값 방법으로 뺄 수 도 있고, |5-1|^2 + |3+7|^2 방법론이 있다. 거리가 비슷한 것 끼리 모인 것이 클러스터링이다.Segmentation 군집화 .. 2024. 12. 2.
Project 기획 및 관리 (5) Power BI, 파워쿼리 기술은 늘상 바뀐다. 우리가 가고자 하는 곳에 필요없는 기술은 쓸모없다. 디지털 대시보드SQL을 하는 이유, 엑셀에서 산점도를 보는 이유. 우리는 프로그래머처럼 우리만의 독특한 기술이 아닌이상 그때그때마다 사용되는 기술, 취업하는 곳에서 필요로 하는 기술이 필요하다. 대시보드는 하나의 시각화를 보고 의사결정을 빠르게 할 수 있도록 도와주는 소프트웨어이다. 대시보드 구축하라는 것은 차트형식으로 만들어지는 것이다. 대시보드 소프트웨어는 Power BI, 태블로. 노코드/로코드가 대세이다. 프로그래밍 없이도 대시보드를 만들 수 있는 것이 많다. 비용을 내는 소프트웨어 중 대표적인 것이 태블로이다. 초창기에 마우스 클릭 몇번만으로도 근사한 시각화가 만들어지고, 고생하지 않더라도 미리 만들어놓은 탬플렛들이 있어서.. 2024. 12. 2.
Project 기획 및 관리 (4) MySQL, 파이썬 연동 SQL 데이터 분석피벗테이블은 가로 세로 집계하는 것성별로는 구매에 큰 차이가 없어서 성별은 영향이 없다고 확인됨.50대 60대 구매율이 많다는 것을 확인할 수 있다. 지역에 대한 차이점이 있는지 확인해봐야한다.트리맵은 한눈에 알아볼 수 있게 하는 시각화이다.Window + E 버튼 → 파일탐색기 나옴CSV 파일을 테이블에 넣으려고 하는데 계속 파일이 doesn’t exist 한다고 계속 떴음. 문제는 SQL Server 폴더에 파일을 넣어야 했어야 했음.SHOW VARIABLES LIKE 'secure_file_priv'; 라고 치면 어디에 저장해야하는지 나온다.MySQL 폴더는 C드라이브에서 보기-숨김파일 표시하면 ProgramData 폴더가 나온다.그 폴더 안에 MySQL 폴더가 있다. 업로드 파일.. 2024. 11. 15.
Project 기획 및 관리 (3) MySQL, 데이터베이스 정규화 프로그래밍 연습할 수 있는 사이트 - 설치안하고 연습만 할 수 있다.https://www.w3schools.com/sql/ W3Schools.comW3Schools offers free online tutorials, references and exercises in all the major languages of the web. Covering popular subjects like HTML, CSS, JavaScript, Python, SQL, Java, and many, many more.www.w3schools.com코딩 테스트 연습 사이트https://programmers.co.kr/ 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베.. 2024. 11. 15.
Project 기획 및 관리 (2) MySQL, Excel 시각화 이번 시간도 SQL 이어서 공부함하위쿼리는 쉽다. 위에서 부터 만드는게 아니라 작은거 만들고 큰걸로 간다. 하위쿼리 먼저 만들고 그다음 확장하는 식이다.SELECT * FROM (SELECT 이름, 점수 TOTFROM 학생ORDER BY 점수 DESC)LIMIT 2문제는 속도와 비용이다. 한 개의 커리를 조금 만 더 바꾸면 속도가 바뀐다.전자북 ‘MySQL과 주식 데이터로 재밌게’데이터 시대와 SQL데이터는 기업 의사 결정의 근거기업의 가치는 기업이 보유한 데이터도 고려해야 한다.우리의 행동 하나하나는 모두 데이터로 어딘가에 저장되고 있다.SQL은 데이터와 가장 근접한 언어다.SQL은 정형적 구조의 데이터를 가장 효율적으로 다룰 수 있다.SQL 몇 줄로 보고서를 완성하고, 남이 찾지 못한 기회를 찾고, .. 2024. 11. 15.
Project 기획 및 관리 (1) MySQL csv파일을 엑셀로 열어서 열과 행으로 나눠주고, 질의어를 생각한다. 예를 들면 "진행중인 프로젝트 리스트만 주세요, 예산 500만원이상 프로젝트건 주세요, 진행중이거나 완료된 데이터 건수 확인해주세요"와 같은 질의어들이 있다. 회의 끝나고 어떤 정보가 필요한지 메일이나 메시지로 확인해야한다. 딴소리 하지 않게.SQL 외우려고 하지않고, Grouping 한다고 생각해라.Select count(*)from 프로젝트 dbgroup by 상태이 언어들은 SQL에서 정의어, 조작어, 제어어가 있다. 우리가 하는 것은 조작어이다. 데이터베이스를 구축하거나 수정하는 것이 아니다. 데이터 아키텍처라는 파트가 있다. 여기는 진짜 잘하는 사람이 하는거다. 건물의 뼈대를 만들고, 강의장을 몇개로 할 것이며, 휴게실은 어디.. 2024. 11. 15.
Business AI 개론 및 IT 산업 혁신 (5) AI 산업 트렌드 및 AI 서비스 활용 방안AI 기술에서는 동영상 요약 기능이 있다. 영상물은 주로 이미지와 소리로 구성되며, 1초에 27장의 이미지가 연속적으로 구성된 것을 프레임이라고 한다. AI는 이러한 프레임과 소리를 분석해 영상을 요약한다. 하지만 영상은 방대한 양의 데이터를 포함하고 있어, 이미지와 비슷한 작업 같지만 훨씬 많은 데이터량을 처리해야 하는 특징이 있다.IT 지식은 기술팀과 소통할 수 있는 정도만 알아도 충분하다. 예를 들어, 컴퓨터에는 CPU라는 주 처리 장치가 있으며, 이는 키보드 등의 입력 장치와 연결되어 작업을 처리한다. Q 대기열은 프린터와 같이 먼저 들어온 작업이 먼저 처리되는 FIFO(First In, First Out) 구조를 의미한다. 또한, 컴퓨터는 직렬과 병렬 .. 2024. 11. 11.
Business AI 개론 및 IT 산업 혁신 (4) Word Cloud - 텍스트 카운트 개수를 세서 시각화함, 워드 클라우드는 맨 앞장에LLM (Large Language Model)은 매우 큰 규모의 파라미터(매개변수)와 데이터로 훈련된 인공지능 모델로, 인간 언어를 이해하고 생성할 수 있는 능력을 가지고 있다. 이러한 모델들은 특히 자연어 처리(NLP, Natural Language Processing) 작업에 뛰어난 성능을 발휘하며, 언어 생성, 번역, 요약, 질문 응답 등 다양한 언어 관련 작업을 수행할 수 있다. 예를 들면 GPT.블로그 A, 블로그 B를 분석했을 때 워드 빈도수가 다르다. 블로그를 늘릴 수록 0이 많은 테이블이 된다. 키워드 단위로 쪼개면 카운트수가 너무 많아져서 컴퓨터가 처리하기엔 크기가 너무 클 수 있다. 어떻게 하면 크기.. 2024. 11. 11.
Business AI 개론 및 IT 산업 혁신 (3) 데이터분석을 위한 사고력을 기르는 것이 중요하다.Ontology이 작업을 하고 리서치를 진행한다. 대분류/중분류를 먼저 나누고 난 후 검색을 진행한다. 회사 안에 있는 기술팀이 있다. 기술자들이 하는 것은 분석이 아니다. 프로그램을 짜서 프로세스를 프로그램으로 만드는 사람이기 때문에, 분석해야 할 키워드를 우리가 줘야한다. 그러기 위해서는 우리도 조금의 코딩 실력이 필요하다.SPC 브랜드에서의 면접 질문이 “세가지 브랜드 모두 살릴 수 있는 방안은?”이라는 게 있었다. 이거는 즉 이 브랜드에 대해서 많이 알고 고민했는지를 확인하는 질문이다. 소셜분석“Sometrend” AI 리포트작성 기능이 있다. 블로그나 기사 검색량을 이용해서 요약을 해주는 서비스이다. 언급량 분석, 소셜에서 얼마나 영향력이 있는지 .. 2024. 11. 11.
Business AI 개론 및 IT 산업 혁신 (2) IT 직군에서는 30대 이상의 신입을 잘 뽑지 않는 경향이 있다. IT 직군은 커뮤니케이션 능력을 중시하며, 따라서 나이와도 관련이 있다. 어떤 일을 하든 경험을 많이 쌓고 커뮤니케이션 능력을 기르는 것이 중요하다. 자신이 지원하는 회사가 본인과 잘 맞는지, 자신이 잘할 수 있는 부분이 무엇인지 파악하는 과정이 필요하다. 기술 영업은 기술의 스펙을 설명하고 프레젠테이션하는 역할을 한다.인공지능은 비용의 문제이다. 충분한 자원과 데이터셋이 있으면 문제를 해결할 수 있지만, 경제적 성과가 미비한 이유는 투자 대비 효율이 낮기 때문이다. AI 도입에는 큰 비용이 들며, 예를 들어 데이터셋을 준비하는 데만 1억 원이 소요된다. 대기업은 투자 대비 효과성을 증명하고 AI를 도입하지만, 중소기업은 이런 검증 과정 .. 2024. 10. 22.
Business AI 개론 및 IT 산업 혁신 (1) KPMG 상무님의 발표에 따르면 디지털 트랜스포메이션의 트렌드는 PI (Process Innovation)에서 DT (Digital Transformation), 그리고 AI로 흘러가고 있다. 컨설턴트는 여러 이해관계자들 간의 관계를 조율하고 프로젝트를 코디네이션하는 역할을 한다. 예를 들어, 메타버스 프로젝트의 경우 관련 하청업체가 개발을 맡고, 각 단계별로 여러 회사가 참여하여 진행한다. 신입사원에게 기대하는 것은 빠르게 배우는 능력이다. 프로젝트에 투입할 때 예산 문제로 인해 모든 인력을 경력직으로만 구성할 수 없기 때문이다.부성순 선생님의 강의가 시작되었고, 선생님은 이번 과정을 통해서 원하는 분야에 맞춰 포트폴리오를 구체적으로 제작해줄 수 있다고 하셨다. 프로젝트 경험이 중요한 것이 아니라, 실.. 2024. 10. 22.
폴란드계 IT 서비스 컨설팅 Pre-Sales Consultant 면접 후기 얼마만의 면접이었던지 정말 많이 긴장되고 설렜다. 퇴사 이후 그리고 영국 석사 이후 영국에서 보는 첫 면접이었다. 그만큼 나에게 있어서 중요한 면접이었고, 이번 면접을 통해서 취업에 조금 더 가까워진 기분이 든다. 너무나도 감사하고 소중했던 면접 기회였다. 회사는 폴란드계 소프트웨어 IT 서비스 회사이고, 유럽 전역에 오피스가 있고, 아시아에도 싱가폴을 제외하면 모든 나라에 오피스가 있었다. 싱가폴에 오피스가 없다는 점은 조금 아쉬운 점이었지만, 세일즈 직무가 싱가폴에서는 정말 강세라서 이직에 용이하고, 특히 IT컨설팅 경력을 쌓을 수 있다는 점이 정말 놓치기 싫은 기회였다. 링크드인으로 지원 후 4일 이내에 면접 이메일을 받을 수 있었고, 본사에 있는 매니저와 면접 시간을 어레인지했다. 제안받은 면접 .. 2023. 9. 15.