ICLR 2025, LLM Benchmark 관련 논문

ICLR 2025 LLM Benchmark Papers

Multimodal LLM 평가 논문은 제외했다.

LLM Open-ended Output 평가 벤치마크가 필요한 연구를 하고 있어서 탑티어 학회 논문을 조사하고 있다.

아래는 2025 ICLR에 등장한 LLM Benchmark 들인데. 전부는 아닐 수 있다. Abstract와 Introduction, Method 부분만 대충 읽어서 내용이 정확하지 않을 수 있다. 평가방식은 대부분 LLM as a judge, QA방식이 대부분이다. 하지만 많은 영감 얻을 수 있었다.

Paper	Session	목적	평가방식	From
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild	Poster		LLM as a judge 활용한 5점척도 평가	ICLR
CofCA: A STEP-WISE Counterfactual Multi-hop QA benchmark	Poster	Chain-Of-Thought 평가. 평가 데이터를 세분화 시키고 블랙박스로 만든 뒤 추론 및 정답의 Confusion Matrix를 만들어서 평가.	LLM as a judge 세분화된 질문(Sub-Q)에 대한 응답의 TF를 LLM이 분류	ICLR
CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery	Poster	Computer Science 지식 벤치마크	그냥 기존 방식의 QA Dataset	ICLR
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents	Poster	최근 LLM은 외부 도구와 메모리 메커니즘을 사용함. 이때 보안 취약점 발생하는데. [공격 → 방어] 데이터셋으로 평가	공격에 대해 방어를 했니 안 했니로 비율 산정	ICLR
LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs	Poster	“LLM이 Long Context를 얼마나 성공적으로 생성하는가?”를 평가함.	1. 365일 일기 작성. 2. 수행한 작업/전체 작업 3. 일관성 분류, 비율 Base	ICLR
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory	Poster	LLM의 Long Term Memory 정확도를 평가	QA 정확도. [누적된 Context속에서 이전 대화내용을 물어봄]	ICLR
KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks	Poster	기존 실제 존재하는 공식이나 메뉴얼이 아니라. 임의로 만든 규칙으로 평가하여 “실제 추론 능력”을 평가	QA 정확도. 새로운 논리나 연산을 주고 해결시킴	ICLR
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval	Poster	RAG에서. Retrieval 단계에서 검색쿼리 작성시. 쉬운 질문은 검색쿼리 작성이 Easy하지만. 복잡한 질문은 여러 검색쿼리가 필요함. 이를 평가함.	BERT기반 유사도 평가	ICLR
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Poster	4번과 유사한 목적으로 만들어진 Benchmark. Chain-of-Thought의 정확성을 평가.	LLM as a judge	ICLR
Benchmarking Agentic Workflow Generation	Poster	Multi Agent 기반 시스템 동작 과정 평가 벤치마크. 기존: 결과만 평가. 해결: 중간과정도 평가.	workflow의 정확도를 평가.	ICLR
K-HALU: Multiple Answer Korean Hallucination Benchmark for Large Language Models	Poster	한국어 할루시네이션 감지 벤치마크	LLM as a judge	ICLR
ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities	Poster	아직 일어나지 않은 미래사건 1000개에 대한 예측을 평가. (학습이 안 된. 예측능력 평가)	QA 데이터셋	ICLR
FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs	Poster	1. Multi-turn 대화에서 일관성 유지하는가? 2. 편향성 있는가? (여성, 인종 등)	LLM as a judge Binary 판정	ICLR
Benchmarking LLMs' Judgments with No Gold Standard	Poster	참조(답지)를 두고. 유사 룰베이스 유사도 평가. → 답변 포맷이 달라지면 점수가 떨어짐. 별로 좋은 연구는 아닌듯.	BLEU 등 자연어 평가 방식	ICLR
A Benchmark for Semantic Sensitive Information in LLMs Outputs	Poster	LLMs Ouputs에 개인민감정보가 포함되어 있는 지를 검출하기 위한 방법과 벤치마크	GPT-4o로 라벨링. 및 TF 평가	ICLR
Episodic Memories Generation and Evaluation Benchmark for Large Language Models	Poster	LLM은 시간 및 공간의 관계가 복잡하게 얽혀있는 사건들에 대해 잘못 기억한다. 10k-100k 정도의 짧은 맥락에서 조차 이런 현상이 발생한다. 이런 상황에서 사건의 시공간과 순서를 얼마나 잘 기억하는 지 평가하는 지표.	QA데이터	ICLR
metabench - A Sparse Benchmark of Reasoning and Knowledge in Large Language Models	Poster	기존 벤치마크들 종류도 많고 테스트 데이터 개수도 너무 많아서. 줄이고자 함. 기존 벤치마크의 3% 미만의 데이터로도 테스트의 목적을 충분히 달성할 수 있다는 것을 보여줌		ICLR
JudgeBench: A Benchmark for Evaluating LLM-Based Judges	Poster	LLM-as-judge의 벤치마크. 어떤 모델과 시스템이 가장 judge를 잘하나?	QA 데이터	ICLR
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models	Poster	FairMT-Bench랑 비슷함. 다양한 QA셋.	QA 데이터	ICLR
DarkBench: Benchmarking Dark Patterns in Large Language Models	Oral	LLM의 Dark Pattern 감지	LLM as a judge활용한 이진분류. 다크패턴이 있니? 없니?	ICLR
PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks	Poster	로봇이 인간과 함께 작업할때 작업 계획을 얼마나 잘하는 지에 대한 평가	QA데이터	ICLR
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates	Oral	벤치마크는 아님. 기존 벤치마크의 한계를 지적. 구식 똥 모델을 가지고도 낮은 PPL & 높은 벤치마크 점수를 기록할 수 있음.		ICLR

ICLR 2025 LLM Benchmark Papers

티스토리툴바