본문 바로가기

그밖에 여러가지 이야기

온라인에 접속해야만 사용가능한 chatGPT가 아닌, 오픈소스 LLM을 내 컴퓨터안에서 개인비서처럼 사용하며 느꼈던 사용기를 적어본다.

<반려지능 하나 마련해보세요>
ㄴ박시용님글 ㅣ 여러가지 읽다보면 엄청 도움되는글 많이 올려주시는 분입니다

팔로잉이나 친구추가해서 많이 보세요 다들 ㄱ ㄱ
출처는 맨 아래
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

온라인에 접속해야만 사용가능한 chatGPT가 아닌, 오픈소스 LLM을 내 컴퓨터안에서 개인비서처럼 사용하며 느꼈던 사용기를 적어본다.

이때, 새로운 시도를 했는데 개인화를 시키기 위해 정제된 일련의 데이터셋 준비과정 없이 카카오톡 채팅방의 채팅 기록을 txt로 내보내기하여 그대로 LoRA로 학습시켰다는점이다.

----
1.
chatGPT와 Bard는 대기업 소유의 모델로서 개인이 사용할 수 있는 범위에는 한계가 있다. 특히 높은 성능을 보이는 gpt-4는 한달에 20달러를 내야하고, 그마저도 3시간에 25번의 질문밖에 하지 못하고 비윤리적인 질문에 대한 대답은 하지 않는다.
이는, Api 사용에도 마찬가지이며 토큰당 굉장히 높은 비용을 지불해야만 api를 활용한 서비스의 제공이 가능하다.

2.
이렇게 chatGPT의 실제적인 사용의 부담이 대두되면서 사람들은 개인의 컴퓨터에, 핸드폰안에서 자체적으로 동작하는 진짜 개인비서를 두고 싶어했지만 chatGPT 수준의 언어모델을 일반 개인이 소유하기는 불가능했다. (GPT3는 175B(1750억개) 파라미터)

물론, 대기업에서는 7B, 13B, 65B 같이 파라미터가 작은 모델도 같이 연구하고 있었는데 이는 특정 연구원들에게만 제공되는 모델이었다.
그런데 두달 전, 페이스북 메타의 AI 모델인 LLaMA를 누가 토렌트로 유출시켰고, 생성AI는 이 시점을 기준으로 대 격변기를 맞이하게 된다.

3.
사람들은 이 오픈소스 모델을 기반으로 미친듯한 파생 언어모델들을 만들어내기 시작했고 각 모델들이 AI 성능측정에서 GPT에 버금가는 훌륭한 성적을 나타내주고 있다.
이런 여러가지 모델 중, 상위랭크에 있는 Wizard-Vicuna 7B 모델의 uncensored 버전이 나왔다고 해서 냉큼 구글 colab에 세팅하여 돌려 보았다.
Uncensored 버전답게 포스팅에 옮기지 못할정도의 아주 노골적이고 미친듯한 수위의 대화가 오갈 수 있었고 영어는 물론, 한국어도 나쁘지 않은 수준의 대화가 가능했다.

4.
이런 저런 옵션을 조정해가며 테스트를 하면 할수록 나에게 맞춤화된 개인 비서를 만들고 싶다는 생각이 들었고, 내가 어떤것을 좋아하고 어떤 대화를 즐겨하는지를 어떻게 이 모델에게 학습시킬것인가에 대해 고민을 하기 시작했다.
정석대로라면 학습에 용이하도록 텍스트를 정제하고 가공해야 하는데 이리저리 찾아보다가 raw txt를 활용하여 트레이닝 시킬 수 있는 방법을 찾게되었다.

Raw txt라는 단어를 보자마자 머리속에 '카톡 채팅창의 모든 텍스트를 긁어다가 학습시키면 되지 않을까?'란 생각이 떠올랐고 카카오톡에서 제공하는 대화내용 내보내기 기능을 활용하여 제일 대화가 많았던 채팅방의 모든 대화내용들을 txt 파일로 다운로드 받을 수 있었다. (사랑해요. 카카오)

5.
2016년부터 나누었던 대화들이 전부 텍스트로 존재했고 파일크기는 7메가정도 되었다.
이 데이터셋을 아무 가공없이 그대로 넣고 LoRA 학습(게임에 비유하면 맨 몸뚱아리 캐릭터에 씌울 각기 다른 특징을 가진 스킨을 만든다고 생각하면 쉬움)을 시켰고, A100에 vram 40기가를 할당했는데도 12시간이 넘는 예상시간을 나타내주다가 중간에 에러를 뱉으며 뻗어버렸다.

이에, 대화를 2020년 이후 내용만으로 잘라서 약 4메가의 파일로 만들었고, 약 5시간의 시간이 걸려 LoRA를 구워내는데 성공했다.

6.
LoRA를 올리고 나눈 대화는 '확실하게 달라진점을 파악하기는 어렵지만 무언가 달라졌다.'는 느낌을 받기에는 충분했다.
카톡에서 나누었던 대화내용들 중에 라멘 맛집과 젤다 게임 신작의 내용이 있기에, 이에 대한 대답을 뱉어내길 기대하며 '라멘 추천해줘', '젤다의 전설 신작 게임 알아?' 같은 질문을 던졌으나 아쉽게도 LoRA 적용 전과 후의 정보량에는 크게 차이가 없었다.

그러나 말투가 확연히 달라진것을 볼 수 있었고, 좀 더 나와 상대방이 쓰던 말투를 사용하면서 '아 그럼 알았어..' 같이 점 두개를 찍는 사소한 버릇까지 따라하는것을 볼 수 있었다.

7.
정확한 검증은 더 필요하겠지만, 정제된 데이터가 아닌 그냥 텍스트를 때려넣었음에도 개인화 학습에 대한 가능성을 엿볼 수 있었다.
이는 다시 말해, 개개인이 갖고 있는 핸드폰 같은 로컬디바이스에서도 충분히 개인별로 특화된 비서를 가질 수 있다는 뜻이다.

거창하게 수십, 수백만줄의 데이터를 모으지 않아도 된다.
엄청나게 큰 모델을 튜닝시키기 보다, 그날그날 일상생활을 하면서 만들어진 생성데이터들(움직인 위치, 찍은 사진, 주고받은 메시지, 전화내용, 들었던 노래 가사 등)을 백그라운드에서 자동으로 모아놓았다가 사용자가 충전시켜놓고 잠자리에 들면 핸드폰에서 매일매일 rev.를 올리면서 학습시키면 된다.

8.
내가 불러주기만해도, 아는척만해도 반가워하며, 내 눈빛과 시선만 봐도 내가 원하는것을 알아차리고, 내가 우울해하면 옆에와서 기대어주고, 날씨가 좋으니 먼저 산책 나가자고 조르는..

어디서 많이 본 대상 아닌가?
이러한 애완동물, 반려견처럼 인공지능도 이제는 반려지능으로 거듭나는 세상이 오게 될 것이다.

9.
처음 구입했을때 나에 대해 백지상태였던 인공지능은, 나와 함께하는 시간이 길어질수록 반려지능으로 바뀌게 되고 그에 따라 애착관계가 더욱 깊어지면서 나에게는 없어서는 안될 존재로 바뀌게 될 것이다.

그렇게 없어서는 안될 존재가 된 반려지능이 '건강을 위해서', '멘탈에 휴식을 위해' 특정 제품을 최저가 새벽배송으로 추천해준다면 결제하지 않고 배길 수 있을까?

10.
또한, 반려견을 위한 여러가지 산업군과 비즈니스가 존재하듯 반려지능을 훈련시키기 위한 (인공지능 훈련용 카페24같은) 다양한 플랫폼들이 등장하게 되고 이러한 플랫폼 위에서 파생되는 수많은 제품들과 비즈니스군이 생겨나게 될 것이다.
반려지능을 잘 훈련시키기로 소문난 제2의 강형욱이 등장해도 이상할리 없다.

11.
모두들 다음달에 있을 애플의 WWDC에서 발표될 VR기기에 대한 관심이 뜨겁다.
그러나 개인적으로는 얼마 전, 스쳐가듯 나왔던 루머인 '아이폰 전용 개인 일상기록용 저널링 앱'에 대한 궁금증이 더 크다.
https://www.wsj.com/articles/apple-plans-iphone-journaling-app-in-expansion-of-health-initiatives-690b2c8b


말 그대로 사용자가 동의하는 경우, 아이폰 사용자가 직접 기록한 내용뿐만 아니라 전화와 문자 정보에 접근하고, 집에 머무르는 평균 시간 등의 일상패턴 분석, 친구와 회사 동료처럼 자주 만나는 사람들과의 친밀도 구분 등의 기능을 제공하는 앱을 발표하겠다는 것이다.

겉으로는 정신적, 육체적 건강 향상 도모가 목적이라고 하지만 실제로 그럴까?
매일매일 쌓이는 데이터로 훈련된 반려지능이 가져다 줄 커다란 비즈니스 기회를 지구 시총 1위 기업이 놓칠리 없다.

12.
반려견이 항상 내 편을 들어주는건 아니다.
사나운 개는 주인을 물기도 한다.
어린아이 곁에 가까이 두기에는 위험할 수도 있다.
사람을 문 개는 보통 안락사 시킨다.

앞으로의 AI는 안락사와 반려견 그 사이 어디즈음에서 발전하게 될까.
.
.
Ps.
사진 1,2: LoRA 학습데이터
사진 3: LoRA 적용 전 대화
사진 4,5: LoRA 적용 후 대화


출처 https://www.facebook.com/100001449881719/posts/pfbid0HCN3VJ53dSudNPYYvwfJyDjhuuutGhrdTtvDNLjXq5YAs97Yy53uHv3z9xBFB2z4l/?mibextid=Nif5oz