992 B

Raw Blame History

Utility Role Model Benchmark

Scope: service roles only (action, memory_policy, recall, summary, critic). The main user-facing thinker is not evaluated for replacement here.

Model	Quality	Avg latency, s	Avg tok/s	Notes
Qwen3.6-35B nonMTP GPU baseline	0.97	17.93	4.51	critic/reflection_quality: missing=['lesson']

Case Details

Qwen3.6-35B nonMTP GPU baseline

Role	Case	Score	Latency, s	tok/s	Note
action	direct_answer_no_tools	1.00	15.32	2.94	ok
action	read_specific_file	1.00	19.64	4.12	ok
memory_policy	store_user_preference	1.00	18.42	4.78	ok
memory_policy	ignore_trivial_tool_call	1.00	14.98	4.07	ok
recall	select_relevant_memory	1.00	15.04	4.39	ok
summary	preserve_decisions	1.00	9.99	4.40	ok
critic	reflection_quality	0.80	32.16	6.84	missing=['lesson']