Agentic AI Atlas

III.

Node kind ledger

Benchmark

Page 1 of 2

Benchmark records

Browse all Benchmark records in the current atlas snapshot.

Cluster · benchmarksTotal · 65Visible · 65

Filters & facets4 groups

id	displayName	cluster
benchmark:advbench	AdvBench	benchmarks
benchmark:agentbench	AgentBench	benchmarks
benchmark:agentboard	AgentBoard	benchmarks
benchmark:agentclinic	AgentClinic	benchmarks
benchmark:aider-polyglot	Aider Polyglot	benchmarks
benchmark:android-world	AndroidWorld	benchmarks
benchmark:apps	APPS	benchmarks
benchmark:appworld	AppWorld	benchmarks
benchmark:arc-agi-3	ARC-AGI 3	benchmarks
benchmark:arc-challenge	ARC-Challenge	benchmarks
benchmark:assistant-bench	AssistantBench	benchmarks
benchmark:bbh	BIG-Bench Hard (BBH)	benchmarks
benchmark:berkeley-function-calling	Berkeley Function Calling Leaderboard (BFCL)	benchmarks
benchmark:bias-bench	BBQ (Bias Benchmark for QA)	benchmarks
benchmark:bigcode-evalplus	EvalPlus	benchmarks
benchmark:bigcodebench	BigCodeBench	benchmarks
benchmark:browse-comp	BrowseComp	benchmarks
benchmark:cyber-bench	CyberBench	benchmarks
benchmark:ds1000	DS-1000	benchmarks
benchmark:fin-bench	FinBench	benchmarks
benchmark:flores-200	FLORES-200	benchmarks
benchmark:frontier-math	FrontierMath	benchmarks
benchmark:gaia	GAIA	benchmarks
benchmark:gpqa	GPQA	benchmarks
benchmark:gsm-symbolic	GSM-Symbolic	benchmarks
benchmark:gsm8k	GSM8K	benchmarks
benchmark:harmbench	HarmBench	benchmarks
benchmark:hellaswag	HellaSwag	benchmarks
benchmark:hle	Humanity's Last Exam (HLE)	benchmarks
benchmark:human-eval	HumanEval	benchmarks
benchmark:jailbreakbench	JailbreakBench	benchmarks
benchmark:legal-bench	LegalBench	benchmarks
benchmark:livecodebench	LiveCodeBench	benchmarks
benchmark:lmsys-arena	Chatbot Arena (LMSYS)	benchmarks
benchmark:m-mmlu	Multilingual MMLU (mMMLU)	benchmarks
benchmark:math	MATH	benchmarks
benchmark:mbpp	MBPP	benchmarks
benchmark:mbpp-plus	MBPP+	benchmarks
benchmark:medqa	MedQA	benchmarks
benchmark:mgsm	MGSM	benchmarks
benchmark:mind2web-2	Mind2Web 2	benchmarks
benchmark:mle-bench	MLE-bench	benchmarks
benchmark:mmlu	MMLU	benchmarks
benchmark:mt-bench	MT-Bench	benchmarks
benchmark:multipl-e	MultiPL-E	benchmarks
benchmark:olympiad-bench	OlympiadBench	benchmarks
benchmark:os-world	OSWorld	benchmarks
benchmark:promptbench	PromptBench	benchmarks
benchmark:re-bench	RE-Bench	benchmarks
benchmark:repobench	RepoBench	benchmarks