[Paper Review] Towards AI Search Paradigm
오늘은 ‘Towards AI Search Paradigm‘이라는 논문을 읽고 정리하는 시간을 가졌다. 기존의 정보 검색 시스템이 어떻게 발전해왔고, 어떤 한계를 가졌으며, 이 논문에서 제안하는 새로운 패러다임이 무엇인지 깊이 있게 들여다볼 수 있었다.
1. 기존 정보 검색 시스템
논문은 정보 검색(IR) 시스템의 발전을 세 단계로 나누어 설명하고 있었다. 첫 번째는 Lexical IR 기술이다. 이 방식은 키워드 매칭에 의존하며, 문서와 쿼리를 ‘단어 주머니’처럼 다룬다. 정확한 용어 매칭에는 강하지만, 의미적 불일치나 어휘 변화에는 취약하다는 점이 인상 깊었다. 우리가 흔히 생각하는 초기 검색 엔진의 모습과 비슷하다고 할 수 있겠다.
다음은 Learning-to-Rank (LTR) 방법론이다. 기계 학습을 도입하여 검색 결과의 순위를 개선한 방식인데, 텍스트 매칭 점수, 문서 구조, 사용자 행동 신호 등 다양한 특징을 활용한다. 확실히 검색 결과의 관련성은 높아졌지만, 사용자가 여전히 문서를 직접 클릭하고 필요한 정보를 찾아야 하는 번거로움이 남아있다는 점이 한계로 지적되었다.
마지막으로 최근 각광받는 RAG (Retrieval-Augmented Generation) 시스템이다. 대형 언어 모델(LLM)을 활용하여 문서 검색에서 직접적인 답변 생성으로 나아간 방식이다. 단일 샷 답변 생성기로서의 기능은 뛰어나지만, 복잡한 정보 요구사항이나 다단계 추론에는 어려움을 겪는다고 한다. 이 부분이 특히 흥미로웠는데, RAG가 만능이 아니라는 점을 명확히 짚어주었다.
2. RAG 시스템의 구체적인 한계점
논문은 RAG 시스템의 한계를 매우 구체적으로 설명했다. 가장 와닿았던 부분은 복잡한 다단계 쿼리 처리의 한계였다. 예를 들어, “한나라 무제와 율리우스 카이사르 중 누가 더 나이가 많고, 몇 년 차이가 나는가?”와 같은 질문은 단순히 정보를 찾는 것을 넘어, 여러 단계의 검색, 정보 통합, 계산, 그리고 최종 비교라는 복잡한 추론 과정을 필요로 한다. 현재 RAG 시스템은 이러한 순차적 하위 쿼리 실행이나 중간 결과 통합 능력이 부족하다는 것이다.
또한, 도구 활용과 추론의 한계도 명확히 제시되었다. ReAct 같은 방식은 인컨텍스트 메모리에만 의존하여 외부 도구 호출이 불가능하고, RQ-RAG는 순차적 하위 쿼리 처리는 가능하지만 동적인 도구 활용이 어렵다고 한다. 정확한 나이 차이 계산처럼 컴퓨터 추론 작업이 필요한 경우에도 어려움을 겪는다는 점이 RAG의 실질적인 약점임을 깨달았다.
이러한 문제들은 결국 시스템 아키텍처의 근본적인 문제, 즉 정적인 처리 파이프라인과 단일 에이전트의 과부하에서 비롯된다고 논문은 분석했다. 쿼리 복잡성에 따라 동적으로 적응하지 못하고, 하나의 에이전트가 너무 많은 책임을 지게 되면서 효율성이 저하되는 것이다.
3. 다중 에이전트 협업 시스템을 통한 한계 극복
이 논문의 핵심이자 가장 인상 깊었던 부분은 바로 다중 에이전트 협업 시스템이다. 기존 방식의 한계를 극복하기 위해 네 가지 전문 에이전트를 구성하고, 이들이 협력하여 복잡한 쿼리를 처리하는 방식이다.
Master Agent: 쿼리 복잡성을 분석하고 적절한 팀 구성을 조율한다. 마치 프로젝트 매니저와 같다.
Planner Agent: 복잡한 쿼리를 DAG(Directed Acyclic Graph) 구조의 하위 작업으로 분해한다. 복잡한 문제를 작은 단위로 쪼개는 전략가 역할이다.
Executor Agent: 도구 호출 및 하위 작업을 실행한다. 실제 작업을 수행하는 일꾼이다.
Writer Agent: 모든 결과를 종합하여 최종 답변을 생성한다. 최종 보고서를 작성하는 역할이다.
이 에이전트들은 쿼리의 복잡성에 따라 동적으로 팀을 구성한다. 단순 쿼리에는 Writer Agent만, 중간 복잡도에는 Executor Agent를 포함하고, 복잡한 다단계 쿼리에는 Planner Agent까지 동원하는 방식이다. 이는 시스템의 효율성을 극대화하는 매우 영리한 접근 방식이라고 생각했다.
4. 핵심 기술적 혁신
특히 주목할 만한 기술적 혁신들이 있었다.
MCP(Model-Context Protocol) 기반 동적 도구 관리:
DRAFT 방법론: 도구 API 문서를 LLM의 요구사항에 맞게 자동으로 개선하는 3단계(경험 수집, 경험 학습, 문서 재작성) 반복 과정을 제안한다. 이는 탐색자, 분석자, 재작성자라는 세 가지 모델이 협력하여 도구 문서의 명확성, 정보성, 일치성을 높이는 방식이다. 특히, 새로 생성된 쿼리와 이전 쿼리 간의 코사인 유사도를 활용하여 다양성을 촉진하고, BLEU 점수와 코사인 유사도 조합으로 수렴을 판단하는 적응적 종료 메커니즘이 인상 깊었다.
COLT 방법론: 완전성 지향적 도구 검색을 목표로 한다. 기존 의미적 매칭이 중복되거나 필요한 도구를 누락시키는 문제를 해결하기 위해, 이중 인코더 구조와 InfoNCE 손실 함수를 통한 의미적 학습을 수행한다. 더 나아가 ‘장면(Scene)’ 개념을 도입하여 주어진 쿼리에 대한 ground-truth 도구 세트를 협업 단위로 재해석하고, query-scene, query-tool, scene-tool의 세 가지 이분 그래프를 구성하여 협업 학습을 진행한다. 이는 의미적 유사성과 협업적 완전성을 모두 고려하여 복잡한 쿼리에 필요한 모든 도구를 누락 없이 검색할 수 있게 한다.
DAG 기반 작업 계획: 원자적 하위 작업들의 의존성을 모델링하여 병렬 실행을 가능하게 하고, 실패 시 지역적 롤백 및 재계획을 통해 강인성을 확보한다.
강인한 생성 시스템: ATM(Adversarial Tuning Multi-agent)으로 노이즈 문서 대응력을 높이고, PA-RAG로 다중 관점 선호도를 최적화하며, RLHB로 온라인 사용자 행동 기반 정렬을 수행하여 답변의 품질과 신뢰성을 향상시킨다.
효율적 추론 최적화: Local Attention, 모델 프루닝 등 알고리즘 수준의 경량화와 의미적 캐싱, 양자화, 투기적 디코딩 등 인프라 수준의 최적화를 통해 LLM 추론 비용을 절감하고 실시간 성능을 확보한다.
이러한 기술적 혁신들이 결합되어, 앞서 언급했던 “한나라 무제와 율리우스 카이사르” 쿼리 같은 복잡한 질문도 Master Agent가 Planner에게 넘기고, Planner가 3개의 하위 작업(출생년도 검색 2개, 나이 차이 계산 1개)으로 분해하며, Executor가 이를 실행하고, Writer가 최종 답변을 종합하는 방식으로 깔끔하게 처리되는 것을 보며 감탄했다. 최종 답변이 “한나라 무제(기원전 156-87년)는 약 69년을 살았고, 율리우스 카이사르(기원전 100-44년)는 약 56년을 살았습니다. 따라서 한나라 무제가 약 56년 더 나이가 많았습니다.”와 같이 정확하게 나오는 것을 보니, 이 시스템의 잠재력이 엄청나다는 생각이 들었다.
5. 앞으로의 연구 방향
논문은 앞으로의 연구 방향도 명확히 제시하고 있었다. 협업 에이전트 최적화를 통해 에이전트 간 의사소통 프로토콜과 동적 팀 구성 알고리즘을 더욱 고도화해야 한다고 한다. 또한, 도구 통합의 원활화를 위해 MCP 프로토콜을 확장하고 표준화하며, 도구 발견 및 선택 알고리즘을 개선해야 할 것이다.
시스템 확장성과 견고성을 높여 대규모 트래픽 처리와 실패 처리 및 복구 메커니즘을 강화하는 것도 중요한 과제이다. 마지막으로, 평가 및 검증 체계를 더욱 체계적으로 발전시키고, LLM 추론 비용 절감 및 더욱 복잡한 추론 작업으로의 확장을 통해 기술적 한계를 극복해야 한다고 강조한다.
오늘 이 논문을 통해 전통적인 문서 검색 시스템이 어떻게 능동적인 문제 해결 시스템으로 진화하고 있는지 명확히 이해할 수 있었다. 다중 에이전트 협업과 동적 도구 관리, DAG 기반 작업 계획 같은 혁신적인 아이디어들이 AI 기반 정보 탐색 분야의 새로운 지평을 열고 있다는 것을 깨달았다. 다중 에이전트의 협업을 통해 단순히 정보를 찾아주는 것을 넘어, 복잡한 문제를 스스로 분석하고 해결하는 모습에서 앞으로 Multi-Agengt System을 잘 구성하고 설계하는 것이 정말 중요할 것임을 다시금 확인할 수 있었다.