Multi-agent Architecture Search via Agentic Supernet
2025 ICML Oral
Guibin Zhang * 1 Luyang Niu * 2 Junfeng Fang 1 Kun Wang 3 Lei Bai 4 Xiang Wang 5
*Equal contribution 1National University of Singapore 2Tongji University 3Nanyang Technological University 4 Shanghai AI Laboratory 5University of Science and Technology of China. Correspondence to: Kun Wang , Lei Bai.
개요
AutoGPT, MetaGPT 등 LLM Multi-Agent 시스템이 많이 제안되고 있는데. 이와같은 시스템에서의 Multi-Agent 활용시 2가지 딜레마가 있다. 보통 Multi-Agent 시스템은 Domain Specific하게 설계되는 경우가 많기 때문에, 모든 인풋에 최적으로 답변이 되지 않을 뿐더러 비용 문제도 크다.
<딜레마>
- 벤치마크 성능은 좋아지지만 모든 작업에 모든 에이전트가 가담해야 하는 것은 아니다.
(예: 1+1이 뭐냐는 질문에 다중 Agent가 달려들어서 문제를 해결할 필요가 없다는 뜻. 비용증가)
→ 쉬운 작업과 어려운 작업 등 입력에 적응적으로 동적 자원 할당(Agent)를 통해 비용 절감
- 같은 벤치마크여도 모든 문항에 최적인 단일 시스템이 없다.
(예: 웹 검색이 필요한 문항, 파일 읽기가 필요한 문항 각각 분할해서 시스템의 아구를 맞추는데. 이건 Multi-Agent의 궁극적인 자동화 목적에 맞지 않음.)
→ 각 작업에 필요한 시스템을 선택

위 Figure는 Simple arithmetic, Highschool Physics, Complex Coding 각 Task의 난이도에 따른 활성화 되는 Node와 Route를 나타낸 것이다.
방법론
수식이 꽤나 복잡하나. 간단하게 설명하자면 우선 Routing을 위해 embedding model을 활용한다. (논문에서 Routing이라고 명시하진 않았지만 비슷한 개념이라고 봄) MiniLM이나 Sentence Bert와 같은 모델을 활용할 수 있음.
입력 쿼리가 들어오면 Bert계열 모델로 embedding vector를 만들고 이것을 기반으로 각각의 점수를 계산함.
여기서 말하는 점수는 CoT를 할 지 말지, RAG를 사용할 지 말지 Exit(생성 조기종료)를 할 지 말지 결정하는 점수 정도로 생각하면 된다. 즉, 몇명의 Agent를 활용할지, 어떤 Prompt를 활용할지, 어떤 RAG를 활용할지를 동적 선택이 자동화 됨.
성능

성능지표를 보면, 의외로 MaAS가 SOTA다. 모든 Agent와 도구를 활성화 하지 않고, 가지치기 하면서 파이프라인을 최적화 했음에도 불구하고 높은 성능을 보인다.

앞서 말한 것처럼, 모든 질문에 전체 시스템을 활성화 하는 게 아니라 동적으로 몇개씩만 활성화 하다보니까 비용이 압도적으로 싸다.