ICLR 2025 LLM Benchmark Papers
Multimodal LLM 평가 논문은 제외했다.
LLM Open-ended Output 평가 벤치마크가 필요한 연구를 하고 있어서 탑티어 학회 논문을 조사하고 있다.
아래는 2025 ICLR에 등장한 LLM Benchmark 들인데. 전부는 아닐 수 있다. Abstract와 Introduction, Method 부분만 대충 읽어서 내용이 정확하지 않을 수 있다. 평가방식은 대부분 LLM as a judge, QA방식이 대부분이다. 하지만 많은 영감 얻을 수 있었다.
| Paper | Session | 목적 | 평가방식 | From |
| WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild | Poster | LLM as a judge 활용한 5점척도 평가 | ICLR | |
| CofCA: A STEP-WISE Counterfactual Multi-hop QA benchmark | Poster | Chain-Of-Thought 평가. 평가 데이터를 세분화 시키고 블랙박스로 만든 뒤 추론 및 정답의 Confusion Matrix를 만들어서 평가. |
LLM as a judge 세분화된 질문(Sub-Q)에 대한 응답의 TF를 LLM이 분류 |
ICLR |
| CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery | Poster | Computer Science 지식 벤치마크 | 그냥 기존 방식의 QA Dataset | ICLR |
| Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents | Poster | 최근 LLM은 외부 도구와 메모리 메커니즘을 사용함. 이때 보안 취약점 발생하는데. [공격 → 방어] 데이터셋으로 평가 | 공격에 대해 방어를 했니 안 했니로 비율 산정 | ICLR |
| LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs | Poster | “LLM이 Long Context를 얼마나 성공적으로 생성하는가?”를 평가함. | 1. 365일 일기 작성. 2. 수행한 작업/전체 작업 3. 일관성 분류, 비율 Base |
ICLR |
| LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory | Poster | LLM의 Long Term Memory 정확도를 평가 | QA 정확도. [누적된 Context속에서 이전 대화내용을 물어봄] |
ICLR |
| KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks | Poster | 기존 실제 존재하는 공식이나 메뉴얼이 아니라. 임의로 만든 규칙으로 평가하여 “실제 추론 능력”을 평가 |
QA 정확도. 새로운 논리나 연산을 주고 해결시킴 |
ICLR |
| BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval | Poster | RAG에서. Retrieval 단계에서 검색쿼리 작성시. 쉬운 질문은 검색쿼리 작성이 Easy하지만. 복잡한 질문은 여러 검색쿼리가 필요함. 이를 평가함. | BERT기반 유사도 평가 | ICLR |
| MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation | Poster | 4번과 유사한 목적으로 만들어진 Benchmark. Chain-of-Thought의 정확성을 평가. | LLM as a judge | ICLR |
| Benchmarking Agentic Workflow Generation | Poster | Multi Agent 기반 시스템 동작 과정 평가 벤치마크. 기존: 결과만 평가. 해결: 중간과정도 평가. |
workflow의 정확도를 평가. | ICLR |
| K-HALU: Multiple Answer Korean Hallucination Benchmark for Large Language Models | Poster | 한국어 할루시네이션 감지 벤치마크 | LLM as a judge | ICLR |
| ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities | Poster | 아직 일어나지 않은 미래사건 1000개에 대한 예측을 평가. (학습이 안 된. 예측능력 평가) | QA 데이터셋 | ICLR |
| FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs | Poster | 1. Multi-turn 대화에서 일관성 유지하는가? 2. 편향성 있는가? (여성, 인종 등) |
LLM as a judge Binary 판정 |
ICLR |
| Benchmarking LLMs' Judgments with No Gold Standard | Poster | 참조(답지)를 두고. 유사 룰베이스 유사도 평가. → 답변 포맷이 달라지면 점수가 떨어짐. 별로 좋은 연구는 아닌듯. | BLEU 등 자연어 평가 방식 | ICLR |
| A Benchmark for Semantic Sensitive Information in LLMs Outputs | Poster | LLMs Ouputs에 개인민감정보가 포함되어 있는 지를 검출하기 위한 방법과 벤치마크 | GPT-4o로 라벨링. 및 TF 평가 | ICLR |
| Episodic Memories Generation and Evaluation Benchmark for Large Language Models | Poster | LLM은 시간 및 공간의 관계가 복잡하게 얽혀있는 사건들에 대해 잘못 기억한다. 10k-100k 정도의 짧은 맥락에서 조차 이런 현상이 발생한다. 이런 상황에서 사건의 시공간과 순서를 얼마나 잘 기억하는 지 평가하는 지표. | QA데이터 | ICLR |
| metabench - A Sparse Benchmark of Reasoning and Knowledge in Large Language Models | Poster | 기존 벤치마크들 종류도 많고 테스트 데이터 개수도 너무 많아서. 줄이고자 함. 기존 벤치마크의 3% 미만의 데이터로도 테스트의 목적을 충분히 달성할 수 있다는 것을 보여줌 | ICLR | |
| JudgeBench: A Benchmark for Evaluating LLM-Based Judges | Poster | LLM-as-judge의 벤치마크. 어떤 모델과 시스템이 가장 judge를 잘하나? |
QA 데이터 | ICLR |
| CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models | Poster | FairMT-Bench랑 비슷함. 다양한 QA셋. | QA 데이터 | ICLR |
| DarkBench: Benchmarking Dark Patterns in Large Language Models | Oral | LLM의 Dark Pattern 감지 | LLM as a judge활용한 이진분류. 다크패턴이 있니? 없니? |
ICLR |
| PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks | Poster | 로봇이 인간과 함께 작업할때 작업 계획을 얼마나 잘하는 지에 대한 평가 | QA데이터 | ICLR |
| Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates | Oral | 벤치마크는 아님. 기존 벤치마크의 한계를 지적. 구식 똥 모델을 가지고도 낮은 PPL & 높은 벤치마크 점수를 기록할 수 있음. |
ICLR |