왜 LLM 끼리 같이 일해야 할까?

LLM Agent는?

LLM의 발전 방향

Agent의 개념

어떻게 쓰이고 있는가?

그런데 실패했다고?

References

Arxiv Paper References

키워드 : LLM Agent, Multi Agent System, AI-AI Interaction

왜 LLM 끼리 같이 일해야 할까?

그림 1.  Vizcom, Midjourney 를 활용한 모빌리티 디자인 (출처 : 삼성전자 고성찬 디자이너 인스타그램)

그림 1. Vizcom, Midjourney 를 활용한 모빌리티 디자인 (출처 : 삼성전자 고성찬 디자이너 인스타그램)

이 아티클을 읽고 있는 구독자분들이라면 거대언어모델, 이하 LLM 에 대해서 들어본 적이 있을 것입니다. 최근에 GPT-4o 를 사용해 가지고 있는 이미지를 지브리 스타일로 변환하는 것 등 가볍게 사용하는 구독자분들도 있는가 하면, LLM 을 사용해 프롬프트를 뽑아서 위 사진처럼 izcom, Midjourney 등을 사용해서 새로운 디자인을 하는 디자이너와 같이 실제 본인의 업무에도 활용하는 구독자분들도 있을 겁니다. 지금까지의 공통점은 프롬프트를 입력하면 출력하는 이른바 프롬프트 엔지니어링을 기반으로 한 혼자서 한 작업들의 연속이라는 것입니다.

그림 2. Single Agent vs Multi Agent (출처 : LangGraph)

그림 2. Single Agent vs Multi Agent (출처 : LangGraph)

하지만 최근에는 멀티 에이전트 시스템이라는 새로운 접근이 나오고 있습니다. 위에 있는 그림 2처럼 혼자서 모든 걸 하는 게 아니라 분야 별로 특화된 에이전트를 정의하고 이들끼리 소통하며 과업을 처리하는 이른바 **Multi-Agent System (이하 MAS)**가 주목을 받고, 2023년 말부터 연구되고 있습니다.또한, 작년에는 마이크로소프트에서 AutoGen, Magnetic-One 올해 4월 9일 구글에서는 Agent2Agent (A2A) 프로토콜을 공개하면서, 구글은 올해 AI 에이전트 간의 협업하는 과정에 대해서 선점하고자 하는 의도가 있는 것으로 보입니다. 그러면 에이전트라는 개념은 어디서 발현이 되었고, LLM 은 어떻게 에이전트로 활용이 될까요?

LLM Agent 란?

수많은 인공지능 모델 및 기법들이 있지만, 이번 아티클에서는 LLM, 언어와 관련된 내용을 간단하게 언급해보고자 합니다. LLM 이 본격적으로 알려지게 된 것은 2018년 이후입니다. 하지만 그 이전부터 자연어 처리(NLP) 연구는 컴퓨터공학 분야에서 계속 지속적으로 발전이 되었습니다. 그러면 어느 순간부터 LLM이 나오게 되었을까요?

LLM의 발전 방향

그림 3. Transformer 구조 (출처 : Attention is All You Need)

그림 3. Transformer 구조 (출처 : Attention is All You Need)

초기의 언어 모델 연구는 통계적 기법에서 출발했고 주로 N-gram 모델과 같은 확률 기반 접근법이 자연어처리(NLP)의 표준으로 자리잡았습니다. 그러나 2013년 Tomas Mikolov를 중심으로 Word2Vec 라는 개념이 등장하게 되면서 이를 기반으로 NLP 분야는 새로운 발전을 이루게 됩니다. Word2Vec 을 통해 단어 임베딩이라는 개념이 제시되면서 단어 간 의미적 유사성을 계산할 수 있게 되었습니다. 그 이후 2017년 구글이 발표한 트랜스포머 구조는 순환신경망(RNN)의 한계를 뛰어넘어 병렬 처리를 가능하게 하며 GPU와 같은 고성능 하드웨어를 효율적으로 사용할 수 있게 극대화했고, 이를 통해 LLM 개발에 박차를 가하게 됩니다.

2018년 OpenAI는 GPT(Generative Pretrained Transformer)를 발표하며 사전 훈련(pre-training)과 미세 조정(fine-tuning)의 효율성을 입증하면서 같은 해 발표된 BERT(Bidirectional Encoder Representations from Transformers)는 양방향 컨텍스트 학습을 통해 자연어 이해 능력을 향상시켰습니다. 그 이후 2020년 1750억 개의 매개변수를 가진 GPT-3 는 "few-shot learning"이라는 개념을 도입했고, 간단한 프롬프트만으로 인간과 유사한 텍스트를 생성할 수 있음을 보였고 이를 기반으로 지금까지 수많은 LLM 모델이 등장하고 이를 기반으로 한 연구가 활발하게 진행되었습니다. 그러나 생성형 모델들이 단순히 글을 생성하는 것을 넘어 스스로 작업을 수행하고 복합적 문제 해결에 참여하는 "에이전트"로 진화하기 직전 단계까지는 주로 수동적 상호작용에 있었고, 이는 에이전트라는 협업 시스템을 통한 다양한 문제 해결을 하는 방향으로 연구가 발달되었습니다.

Agent의 개념

그림 4. LLM Agent 의 대략적인 구조도 (출처 : Prompt Engineering)

그림 4. LLM Agent 의 대략적인 구조도 (출처 : Prompt Engineering)