ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, Sung Ju Hwang KAIST, Microsoft Research, DeepAuto.ai
목적
Research Agent & Reviewing Agent를 활용한 연구 도우미

기본적인 프로세스는 그림(B)에서 처럼 [문제 식별] → [방법론 개발] → [실험 디자인]으로 진행됩니다.
- Research Agent가 문제 식별 ⇒ 15명의 Reviewing Agents가 Feedback (코멘트 및 점수)
- Research Agent가 방법 개발 ⇒ 15명의 Reviewing Agents가 Feedback (코멘트 및 점수)
- Research Agent가 실험 설계 ⇒ 15명의 Reviewing Agents가 Feedback (코멘트 및 점수)
각각의 Agent는 참고할만한 데이터(논문데이터)가 인풋으로 함께 주어집니다.
데이터
Semantic Scholar API를 활용해 논문을 수집하고, 참조문헌을 활용해 연관논문도 함께 수집합니다. [논문을 어떻게 수집했고 필터링 했는지에 대한 방법에 대해서 언급되어 있습니다. (인용수, 그래프 활용) 해당 부분은 생략하겠습니다.] 모델의 Max Context Window 크기를 고려하여 [단일논문 + 연관논문의 엔티티(키워드)]가 입력으로 함께 주어집니다.
사례
- Research Agent에게 논문 1개와 관련논문 키워드를 제공하고. 문제 식별을 요구합니다.
- Reviewing Agent는 아래와 같이 피드백을 줍니다.
|
After your evaluation of the above content, please provide your review, feedback, and rating, in the format of Review: Feedback: Rating (1-5):
|
평가
|
ResearchAgent & ReviewingAgent 프로세스로 만든 실험 디자인 vs 단일 모델 프로세스로 만든 실험 디자인
|
5점 리커트 척도로 Clarity Relevance Originality Feasibility Significance 각각에 대해 평가합니다.
- LLM을 활용한 평가
- 논문을 3개 이상 Publish한 10명의 전문가가 평가
활용된 모델과 평가결과
GPT-4.0 | GPT-3.5 | Llama3 (8B) | Mixtral (8x7B) | Qwen1.5 (32B)가 활용되었습니다.
[모델을 활용한 평가 결과]

단일 모델보다 ResearchAgent가 좋다는 뜻.

Feedback을 반복할수록 성능이 좋아지긴 하지만. 너무 많이 하면 감소함.
'논문리뷰 > 기타' 카테고리의 다른 글
| [논문리뷰] CoQuest: Exploring Research Question Co-Creation with an LLM-based Agent (0) | 2025.10.22 |
|---|