ChatGPT 챗GPT로 코딩부터 검색까지

챗GPT라는 소프트웨어는 회사에서도 온라인에서도 논란이 뜨겁다.

챗봇에게 시키는 대로 사람이 쓴 것 같은 글이 나오고 특정 라이브러리를 이용한 코드의 형태가 짜여 나온다.

물론 아직 간단한 코딩이고 오류도 많다.

특히 사실 관계 확인이 안 된 정보들이 있는데 이건 다음에 다루도록 하자.

지금 챗GPT에 쓰는 모든 정보들이 서버에 저장되고 이용되기 때문에 회사에 민감한 자료들은 쓸 수 없지만, 현재 마이크로소프트와 챗GPT가 협약하고 있다는 이야기가 들려오니 어쩌면 마이크로소프트 패키지 번들에 챗GPT가 포함되길 기대해 볼 수도 있겠다.

그렇게 되면 일단 기본 코트 탬플릿은 챗GPT에게 말해서 얻고, 여기서 수정해서 코딩을 완성하는 식으로 작업이 이루어질 수 있다.

마치 인공지능 시대에 그림작가들이 인공지능이 그린 그림 수정하는 일을 하는 것처럼 말이다.

그렇다면 chatGPT (chat Generative Pre-trained Transformer)란 무엇일까.

미국 오픈 AI 라는 회사가 발표한 채팅 로봇이다.

방대한 데이터를 이용해서 특정 문장/단어가 나오면 그 다음 단어/문장이 무엇인지 예측하는 챗봇이다.

이용되는 변수만 1750억개 이상이라고 한다.

사용자가 입력한 질문에 대해 검색한 결과를 정리해서 문장으로 답변해준다.

이 질문이 단순한 정보 전달 내용부터 나름 복잡한 내용, 코딩까지 포함되어서 최근 나온 챗봇 중 가장 똑똑하다는 평을 듣고 있다.

구글은 이 챗봇이 미래 구글 검색엔진을 위협할 수 있어서 긴장하고 있다는 소식도 들려온다.

오픈소스는 아니지만 관련 내용인 트랜스포머 등등을 나중에 정리해서 올리도록 하겠다.

나중에 어떻게 이용하는지 예시 등도 추가로 올리겠다.

chatGPT는 2022년 초에 훈련이 끝난 GPT-3.5시리즈를 fine-tuning 세부 조정해서 훈련을 한 알고리즘이다.

Azure AI 슈퍼컴퓨팅 인스라트스럭처로 훈련되었다고 하는데 이것보다 궁금한 것은 이 모델이 어떻게 구성된 건인가 하는 것이다.

ChatGPT의 모델 자체에 대해서 알려진 것은 아래와 같다.

1. NeurIPS2022에서 발표된 InstructGPT와 같은 방법으로 훈련된 모델이라는 점.

2. InstructGPT와 다른 점은, 어떻게 데이터를 모았는지에 대한 점 data colleciton setup 이다.

InstructGPT에 대해 발표된 논문은 온라인에서 쉽게 찾을 수 있다.

openai 블로그에 있는 그림도 instructGPT 컨퍼런스 논문에 있는 내용이긴 하다.

일단, 이 모델들은 Reinforcement Learning from Human Feedback 을 통해서 훈련되었다.

이 RLHF는 말 그대로 강화학습을 하는데 사람이 이에 대해서 이건 이렇고 저런 저렇다 라고 첨삭/피드백을 해주는 것이다.

AI 훈련사인 사람이 사용자와 인공지능 모두에 해당하는 역할극을 하고, 이 역할극 대화를 인공지능에게 제공한다. (이부분이 instructGPT와 다른 것 같다)

이렇게 사람이 직접 첨삭을 해서 'human feedback' 방법이다.

그리고 이렇게 생긴 새로운 대화록 (다이얼로그) 와 instructGPT 데이터 세트를 섞어서 만든 새로운 데이터가 chatGPT에 쓰인 것이다.

강화학습에서는 보상 (reward)가 중요한데, 여기서도 사람이 개입한다.

AI 훈련사(사람)이 챗봇이랑 이야기를 하게 하고, 이 대화를 여러 개 뽑아서 AI 훈련사(사람)에게 점수를 매기라고 한다.

즉 사람이 어떤 대화가 더 큰 보상을 받는 지 정하는 것이다.

그리고 이 내용을 바탕으로 Proximal Policy optimization 이라고 강화학습에서 자주 쓰는 방법으로 fine-tuning 한 것이다.

참고로 현재 chatGPT에 쓰는 모든 로그는 이 챗봇을 개발한 회사에서 수집해서 이용하고 있으므로 민감한 정보는 쓰지 않도록 하자.

이미 공무원들이 쓰고 있다는 내용을 봤을 때 걱정되는 점이, 공무원들이 과연 이런 정보를 인지하고 이용할 까 하는 점이다.

당장 편하다고 쓰는 게 중요한게 아니라, 사실관계 확인과 민감한 내용은 쓰지 않는 것이 중요한데 걱정이다.

나중에 다시 더 업데이트+관련 내용 정리를 해야겠다. 투비컨티뉴드

링크드인에도 스팸이랑 이상한 사람이 있다- linkedin scam 친구끊기 (0)	2023.01.07
사진 인화 후기 - 점보 포토 vs 찍스 zzixx vs 동네 사진관 (0)	2023.01.06
필수 영양제 주문 눈영양제, 단백질, 비타민B 시키기 feat 아이허브와 코스트코 비교 (0)	2023.01.04
칵테일계의 후추 앙고스투라 비터스 Angostura bitters 관세 (0)	2022.12.31
터널 화재 사고시 대피 요령 - 비상탈출통로 이용 (0)	2022.12.29