'benchmark' 태그의 글 목록

ICLR 2025 LLM Benchmark PapersMultimodal LLM 평가 논문은 제외했다.LLM Open-ended Output 평가 벤치마크가 필요한 연구를 하고 있어서 탑티어 학회 논문을 조사하고 있다.아래는 2025 ICLR에 등장한 LLM Benchmark 들인데. 전부는 아닐 수 있다. Abstract와 Introduction, Method 부분만 대충 읽어서 내용이 정확하지 않을 수 있다. 평가방식은 대부분 LLM as a judge, QA방식이 대부분이다. 하지만 많은 영감 얻을 수 있었다.PaperSession목적평가방식FromWildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the WildPoster..