본문 바로가기

카테고리 없음

최근 챗GPT 관련 기사에 심심치 않게 등장하는 ‘할루시네이션(hallucination·환각)’을 생각하면 된다

폄/ “챗GPT의 환각에서 벗어나라” AI 최고 석학 얀 르쿤 교수 ‘38쪽 PPT’로 비판

메타 AI 연구 총 책임자 맡고 있는 얀 르쿤 뉴욕대 교수
최근 세미나에서 챗GPT 기반인 AR-LLM 기술 비판
전문가들 “기술적 한계는 분명하지만, 활용 가능성도 뚜렷”

과학계에 따르면 르쿤 교수는 뉴욕대에서 열린 한 세미나에서 챗GPT 같은 LLM의 한계가 명확하다고 비판했다. 보다 정확히 말하면 르쿤 교수는 ‘Auto-Regressive Generative Models Suck!(자동회귀 생성 모델은 형편없어!)’라는 표현을 썼다.

자동회귀 언어모델(AR-LLM)은 하나의 단어가 주어졌을 때 이전 시점의 데이터를 기반으로 다음에 올 단어를 자동으로 예측하는 언어모델을 말한다. 문제는 AR-LLM은 오로지 통계를 기반으로 단어를 나열한다는 점이다.

최근 챗GPT 관련 기사에 심심치 않게 등장하는 ‘할루시네이션(hallucination·환각)’을 생각하면 된다. 챗GPT가 자신이 잘 모르는 문제에도 그럴 듯한 대답을 내놓거나 오답을 이야기하고도 마치 정답인 것처럼 구는 모습을 어렵지 않게 볼 수 있다. 이런 문제를 기술적으로 표현한 게 바로 할루시네이션이다.

그렇다면 챗GPT 대신 르쿤 교수가 제시하는 해법은 뭘까. 르쿤 교수는 같은 PPT에서 인간의 뇌 구조를 제시했다. AI나 LLM이 근본적으로 나아가야 할 길은 통계에 기반한 AR-LLM이 아니라 인간의 뇌 구조 자체를 모방해야 한다는 뜻이다. 르쿤 교수는 과거에도 챗GPT에 대해 ‘인간 지능 수준으로 AI가 나아가는 고속도로에서 갓길로 빠져나온 수준의 기술’이라고 혹평을 하기도 했다.

서울대 AI연구원장을 맡고 있는 장병탁 서울대 컴퓨터공학부 교수는 “AR-LLM의 단점도 분명하지만 보완을 해나가면서 다른 모델을 만들 수 있다”며 “르쿤 교수는 메타에 몸을 담고 있기 때문에 오픈AI나 마이크로소프트에 대해 비판적으로 볼 여지가 있는 만큼 이런 부분을 감안해야 한다”고 말했다.
-------------------------------------------------------------------
'챗GPT가 자신이 잘 모르는 문제에도 그럴 듯한 대답을 내놓거나 오답을 이야기하고도 마치 정답인 것처럼 구는 모습을 어렵지 않게 볼 수 있다. 이런 문제를 기술적으로 표현한 게 바로 할루시네이션이다.'....그럴듯한 오답도 못내놓는 사람들이 그래서 열광하는 거 아닐까요? 🤣🤣🤣

#챗GPT, #챗GPT환각, #AI, #얀르쿤,

생성 AI 시대가 되다보니 모델들을 평가하는 방법이 상당히 어렵습니다 (AI가 아니더라도 사람이 쓴 글도 사실 객관적인 점수를 부여하기 쉽지 않겠죠?). 그럼에도 단편적인 점수들만 가지고 어떤 모델은 성능은 어떻다는 얘기들로 평가들이 많아서 혼란스럽습니다 (특히 자신들 모델 홍보할 때는 더더욱 점수에 집착하는 부분은 어찌보면 뭐 당연할수도 있고요) 각종 홍보문구들을 보면, LLM을 많이 경험해본 분들은 알아서 잘 판단하겠지만, 대중들은 주어진 정보들을 그대로 수용하게 되는 경우도 적지 않습니다. 물론 생성 AI라는 특성상 어쩔 수 없는 부분이 있기도 하고요.

그 중 하나가 문법 수정이라고 할 수도 있는데, 기존 Grammar 점수를 매기는 metric으로 보면 chatGPT가 안좋아보이지만 사실은 chatGPT는 문장을 많이 바꾸어가며 grammar correction을 하다보니 기존 점수 체계에서는 손해를 보더라 하는 논문을 소개합니다.
https://arxiv.org/abs/2303.13648


예를 들면 그림처럼, 기존의 모델들과 달리 LLM에서는 단순한 문법 수정을 넘어서 주변 단어도 어색하면 과감하게 고치기도 합니다.

문법 뿐 아니라 번역에서도 그러할 것이고, chatGPT같은 거대 언어모델을 평가하는 방법에 대해서도 많은 연구가 이루어져야 할 것이고, 무엇보다 가장 큰 것은, 홍보하는 숫자들을 그대로 믿기 보다는 다양한 언어모델을 사용해보시고 경험해보고 느껴보는 것이 가장 좋다고 생각합니다.

논문 하나를 arxiv에 업로드 했습니다. ChatGPT와 GPT-4에게 한의사 국시 문제를 풀게 하고, 정답률을 분석한 연구입니다. 100점 만점에 57.29점이라 아쉽게 합격은 못했지만, 이 정도면 인공지능 치고는(?) 그래도 꽤 잘 봤다고 할 수 있지 않을까요.

제가 저자이긴 하지만 솔직히 연구방법론 자체는 꽤 심플합니다. 그러나 현재 한의계 및 한의학 연구, 더 나아가 한국에서의 의료 인공지능 개발에 있어서 꽤 중요한 질문들을 제시하는 연구 및 논문이라고 생각합니다.

단적인 사례 하나가 과목별 정답률의 차이입니다. 한방 문제 정답률이, 완전 random chance 수준은 아니지만 그래도 (양방 문제를 포함한) 전체 정답률에 비해서는 많이 낮습니다. 이에 대한 이유는 여러 가지 있겠지만, 제가 제시한 중요한 이유 중 하나는 '한국 의료 자체를 반영하지 못했다'는 것입니다. 한의학에 대한 낮은 퍼포먼스는 그 결과라고 봅니다.
한국의 의료법을 묻는 과목에 대해서는, 한의학적인 문제가 아님에도 낮은 정답률을 기록하고 있습니다. 만약 한의학 그 자체에 대한 이해도만 낮았다면, 의료법에 대해서는 높은 점수를 기록했어야 할 것입니다.
한편 가장 낮은 점수를 기록한 내과학(2)의 경우, 중의학보다도 한의학에서 더욱 중요하게 다뤄지는 상한론과 사상의학을 다루는 과목입니다. 아무래도 상한론/사상의학에 대해 (특히 영어로 된) 자료보다는, 한의학과 중의학에서 공통적으로 중요하게 다루는 내용들에 대한 자료가 훨씬 많을 것입니다. 그리고 이것이 모델의 퍼포먼스에 반영이 되었을 것으로 추측하고 있습니다.
이러한 점들은 이번에 평가한 모델들이 한의학에 익숙하지 않은 것은 맞지만, 그보다도 '영미권'의 관점에서 얼마나 멀리 떨어져 있는지가 퍼포먼스에 영향을 미쳤을 수 있음을 시사합니다.

그래서 논문 제목에서도 'Culturally-Adapted'이라는 용어를 넣는 등, 모델에 문화적인 bias가 있고, 이것이 의료에 사용되는 모델에서도 영향을 미칠 수 있다는 점을 특히 강조하고 싶었습니다.

아직 공식으로 출판된 논문은 아니고 preprint이니... 많은 분들께서 읽고 피드백을 주셔도 좋을 것 같습니다.

오늘도 ChatGPT와의 대화.

Q. 인간이 밤에 자고 아침에 일어나는 시간은 몇시부터 몇시까지가 좋은지 알려줘.

A. 인간의 수면 패턴은 개인에 따라 다를 수 있지만, 일반적으로 성인은 하루에 7-9시간 정도의 수면이 필요합니다. 이때 대부분의 사람들은 밤에 자고 아침에 일어나는 패턴을 가지고 있습니다.

일어나는 시간에 대해서는 일어나야 할 시간과 개인의 생활 패턴에 따라 다릅니다. 그러나 대체로 아침 일어나는 시간을 일관되게 유지하는 것이 좋습니다. 아침 일어나는 시간이 고정되어 있으면, 일관된 생활 패턴을 유지할 수 있으며, 잠을 충분히 자도 피로하지 않을 수 있습니다.

따라서 일반적으로는 밤 10시부터 12시 사이에 잠들어 아침 6시부터 8시 사이에 일어나는 것이 좋습니다. 그러나 개인의 수면 패턴과 일정에 따라 이 시간대는 조금씩 차이가 있을 수 있습니다.