ICLR 2025, LLM Benchmark 관련 논문
·
논문리뷰/ICLR
ICLR 2025 LLM Benchmark PapersMultimodal LLM 평가 논문은 제외했다.LLM Open-ended Output 평가 벤치마크가 필요한 연구를 하고 있어서 탑티어 학회 논문을 조사하고 있다.아래는 2025 ICLR에 등장한 LLM Benchmark 들인데. 전부는 아닐 수 있다. Abstract와 Introduction, Method 부분만 대충 읽어서 내용이 정확하지 않을 수 있다. 평가방식은 대부분 LLM as a judge, QA방식이 대부분이다. 하지만 많은 영감 얻을 수 있었다.PaperSession목적평가방식FromWildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the WildPoster..
[논문리뷰] Multi-agent Architecture Search via Agentic Supernet
·
논문리뷰/ICML
Multi-agent Architecture Search via Agentic Supernet 2025 ICML OralGuibin Zhang * 1 Luyang Niu * 2 Junfeng Fang 1 Kun Wang 3 Lei Bai 4 Xiang Wang 5*Equal contribution 1National University of Singapore 2Tongji University 3Nanyang Technological University 4 Shanghai AI Laboratory 5University of Science and Technology of China. Correspondence to: Kun Wang , Lei Bai. 개요AutoGPT, MetaGPT 등 LLM Multi-A..
[논문리뷰] ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
·
논문리뷰/기타
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language ModelsJinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, Sung Ju Hwang KAIST, Microsoft Research, DeepAuto.ai 목적Research Agent & Reviewing Agent를 활용한 연구 도우미기본적인 프로세스는 그림(B)에서 처럼 [문제 식별] → [방법론 개발] → [실험 디자인]으로 진행됩니다.Research Agent가 문제 식별 ⇒ 15명의 Reviewing Agents가 Feedback (코멘트 및 점수)Research Agent가 방법..