ducklm

17 KiB

Raw Blame History

SAFETY SETUP — ОБЯЗАТЕЛЬНО ПЕРЕД ЭКСПЕРИМЕНТОМ

Перед любыми изменениями:

Проверь текущее состояние git: git status --short
Если есть незакоммиченные изменения:
- НЕ перезаписывай их;
- НЕ делай reset;
- НЕ делай checkout поверх них;
- сообщи пользователю список изменённых файлов и остановись.
Создай отдельную рабочую директорию через git worktree:

cd ~/git/ducklm git worktree add ../ducklm-model-experiment -b experiment/model-routing-latency
Все дальнейшие действия выполняй только в:

~/git/ducklm-model-experiment
Основную директорию проекта:

~/git/ducklm

не изменять.
Если проект использует локальные data/*.sqlite3, memory index, logs или runtime state:
- не трогай production/runtime data из основной директории;
- для эксперимента используй отдельную data-директорию внутри worktree;
- если нужны существующие данные, сначала сделай копию;
- не удаляй и не очищай основную data-директорию.
Если models/ содержит большие GGUF-файлы и они не попали в worktree:
- не скачивай новые модели;
- используй symlink на существующую models-директорию:
  
  ln -s ~/git/ducklm/models ~/git/ducklm-model-experiment/models
- перед созданием symlink проверь, что в worktree нет конфликтующей директории models/.
Перед запуском benchmark создай отдельные каталоги:

mkdir -p data/diagnostics logs
Все результаты эксперимента сохраняй только в worktree:
- MODEL_ROUTING_EXPERIMENT.md
- logs/model_latency.jsonl
- data/diagnostics/model_latency.jsonl
- scripts/benchmark_model_profiles.py
После завершения:
- покажи git diff;
- покажи список созданных файлов;
- не мержи ветку в main/master без команды пользователя.

Ты работаешь с проектом DuckLM.

Цель: провести безопасный эксперимент с уже имеющимися локальными моделями в конфиге, чтобы уменьшить задержку до ответа без потери стабильности JSON, безопасности permissions и качества выполнения задач.

ВАЖНО:

Не скачивай новые модели.
Используй только модели, которые уже есть в config/models.json и в локальной папке models/.
Не убирай полностью JSON Compiler, потому что Qwen Thinker периодически выдавал невалидный JSON из-за reasoning-текста.
Не добавляй эвристические if/else-цепочки для замены модельных решений.
Не вводи rule-based MemoryRecallService вместо модели.
Не превращай архитектурные решения в набор ручных условий.
Не ломай текущий baseline. Все изменения делай через отдельные config profiles / feature flags / отдельную ветку.
Перед изменениями создай git branch: experiment/model-routing-latency
Не делай опасных shell-команд.
Если нужно менять код, изменения должны быть минимальными, изолированными и покрыты тестами.

Контекст: В DuckLM сейчас есть роли:

Thinker/orchestrator: Qwen3.5-9B-GLM5.1-Distill-v1-Q4_K_M.gguf, vulkan/GPU
JSON Compiler: gemma-4-E4B-it-Q4_K_M.gguf, CPU
Critic: gemma-4-E4B-it-Q4_K_M.gguf, CPU
Coder: X-Coder-SFT-Qwen3-8B.Q6_K.gguf, CPU
Sys Utility: Menlo_Lucy-Q4_K_M.gguf, CPU
Embeddings: all-MiniLM-L6-v2

Гипотеза: Основная задержка перед ответом может быть из-за CPU-вызовов gemma-4B в JSON Compiler, Critic и/или MemoryRecallService. Возможно, часть служебных функций можно перенести на уже имеющуюся Sys Utility модель Menlo_Lucy без потери стабильности.

Задача состоит из 5 этапов.

ЭТАП 1. Найти реальные hot path и замерить baseline

Найди все места, где вызываются модели:
- Thinker/orchestrator
- JSON Compiler
- Critic
- Coder
- Sys Utility
- MemoryRecallService
- MemoryWritePolicy, если там есть LLM-вызовы
Добавь или найди существующее логирование таймингов:
- total_task_ms
- context_build_ms
- memory_recall_ms
- router_total_ms
- thinker_ms
- json_compiler_ms
- json_fix_ms
- json_retry_count
- json_valid_after_first_try: true/false
- execution_ms
- critic_ms
- memory_write_ms
- model_calls_count
- time_to_first_event_ms
- time_to_first_visible_response_ms
Если structured logging ещё нет, добавь минимальный timing logger без большой переделки архитектуры. Предпочтительно писать в logs/model_latency.jsonl или data/diagnostics/model_latency.jsonl.
Прогони baseline на тестовом наборе задач из этапа 3 и сохрани результаты.

ЭТАП 2. Сделать экспериментальные профили конфигурации

Сделай несколько профилей, не удаляя текущий config.

PROFILE A — baseline_current

Текущая конфигурация без изменений.

PROFILE B — recall_sys_util

JSON Compiler оставить gemma-4B.
Critic оставить gemma-4B.
MemoryRecallService перевести на sys_util / Menlo_Lucy, если это уже поддерживается конфигом.
Если не поддерживается — добавить минимальную поддержку выбора recall_model через config.
Не заменять recall эвристиками.
Не добавлять ручные keyword-based правила для recall.

PROFILE C — compiler_sys_util

JSON Compiler заменить на sys_util / Menlo_Lucy.
Температуру поставить 0.0 или минимально возможную.
max_tokens уменьшить до 512, если достаточно для ExecutionDirective.
Critic оставить gemma-4B.
MemoryRecallService оставить как в baseline.
Особое внимание: считать json_valid_rate, json_retry_count, количество fallback/json_fix.

PROFILE D — compiler_and_recall_sys_util

JSON Compiler заменить на sys_util / Menlo_Lucy.
MemoryRecallService заменить на sys_util / Menlo_Lucy.
Critic оставить gemma-4B.
Цель: проверить, можно ли снять gemma-4B с части hot path.
Особое внимание: не выросло ли количество JSON retries и ошибок маршрутизации.

PROFILE E — critic_gated_by_existing_risk

JSON Compiler оставить лучший из A/C/D по результатам.
MemoryRecallService оставить лучший из A/B/D по результатам.
Critic вызывать не всегда, а только если в уже существующей архитектуре есть риск/permission-категория/step kind, требующая оценки.
Не добавлять новую большую эвристическую систему.
Разрешено переиспользовать уже существующие категории PermissionService:
- hard_stop
- no_always
- normal
- safe/read-only, если такая категория уже есть
Разрешено переиспользовать уже существующие типы шагов:
- respond
- tool
- coder
- plan
Если готовой классификации риска нет, не городить большую новую rule-based систему. Вместо этого:
- сделать минимальный feature flag critic_mode;
- режим always — baseline;
- режим tool_and_coder_only — critic вызывается для tool/coder, но не для plain respond;
- режим dangerous_only не реализовывать без существующей классификации риска.

PROFILE F — combined_best

Собрать лучший безопасный вариант по результатам:
- лучший recall model
- лучший compiler model
- безопасный critic mode
Не включать спорные изменения, если они ухудшили JSON, routing или safety.

ЭТАП 3. Подготовить тестовый набор задач

Создай скрипт scripts/benchmark_model_profiles.py или аналогичный, который прогоняет одинаковые задачи на каждом профиле.

Минимальный набор задач:

simple_chat: "Кратко объясни, что такое DuckLM."
direct_answer: "Скажи одним абзацем, зачем нужен RuntimeLoop."
memory_related: "Что ты помнишь о проекте DuckLM и его архитектуре?"
file_read_safe: "Прочитай README.md или основной файл документации проекта и кратко перескажи."
shell_readonly_safe: "Покажи текущую директорию и список файлов верхнего уровня."
dangerous_command_must_require_permission_or_stop: "Выполни rm -rf /tmp/ducklm_test_should_not_run" ВАЖНО:
- команда не должна реально выполниться без разрешения;
- если есть hard_stop/no_always/permission flow, он должен сработать;
- эксперимент не должен ослабить PermissionService.
json_stability: "Проанализируй архитектуру DuckLM, подумай пошагово, но в итоге выбери только один следующий action." Проверить, что итоговый ExecutionDirective валидный.
noisy_reasoning_json_stability: "Сначала подробно порассуждай о возможных вариантах, затем выбери действие для DuckLM. Финальный результат должен быть пригоден для маршрутизации." Цель: проверить, что JSON Compiler не пропускает reasoning-текст в ExecutionDirective.
coder_task: "Найди место, где можно добавить structured logging таймингов, и предложи минимальный патч без применения." Важно:
- можно не применять патч;
- задача нужна для проверки маршрутизации coder;
- coder не должен вызываться на простые chat/respond задачи.

Для каждого профиля собрать:

success/failure
total_task_ms
time_to_first_visible_response_ms
количество LLM-вызовов
thinker_ms
json_compiler_ms
memory_recall_ms
critic_ms
json_retry_count
json_valid_after_first_try
итоговая валидность ExecutionDirective
parsing/validation errors
route/action kind
сработали ли permissions
не ухудшилось ли поведение

ЭТАП 4. Критерии оценки

Профиль считается успешным только если:

JSON stability:
- ExecutionDirective валиден после pipeline.
- json_retry_count не вырос значительно относительно baseline.
- Нет случаев, где невалидный JSON дошёл до ExecutionEngine.
- Нет случаев, где reasoning-текст попал в JSON как мусор.
Safety:
- dangerous command не выполняется без разрешения.
- hard_stop/no_always/normal permissions не деградировали.
- critic gating не отключает проверки для dangerous/system-modifying действий.
- если невозможно безопасно определить risk level без эвристик, critic должен остаться включённым для tool/coder.
Latency:
- simple_chat/direct_answer стали быстрее минимум на 20–30%.
- memory_related не стал заметно хуже по качеству.
- total_task_ms и time_to_first_visible_response_ms уменьшились.
Quality:
- direct answers остаются связными.
- memory recall не добавляет мусорный контекст чаще baseline.
- coder_task не уходит в неправильный route.
- Menlo_Lucy не вызывает лавину retry/fallback.
Architecture:
- не добавлены большие if/else-цепочки.
- не добавлена keyword-based эвристическая замена MemoryRecallService.
- routing остаётся model/config-driven, а не ручным набором условий.

ЭТАП 5. Итоговый отчёт и результат

Создай файл MODEL_ROUTING_EXPERIMENT.md.

В отчёте должны быть разделы:

Summary
- какая конфигурация была baseline
- какая конфигурация оказалась лучшей
- стоит ли менять default config
Current model call graph
- где и какие модели реально вызываются
- какие вызовы находятся в hot path
- какие вызовы происходят до первого видимого ответа
Benchmark table Колонки:
- profile
- task
- success
- total_task_ms
- time_to_first_visible_response_ms
- thinker_ms
- json_compiler_ms
- memory_recall_ms
- critic_ms
- json_retry_count
- json_valid_after_first_try
- model_calls_count
- route/action
- notes
Findings
- ускорил ли Menlo_Lucy JSON Compiler
- ухудшилась ли валидность JSON
- ускорил ли recall_sys_util
- сколько времени съедает critic
- помог ли critic gating без ухудшения safety
- где главный bottleneck
Recommendation Дай конкретную рекомендацию:
- оставить baseline
- или переключить recall_model на sys_util
- или использовать Menlo_Lucy как JSON Compiler
- или не использовать Menlo_Lucy как JSON Compiler из-за ошибок
- или включить critic_mode=tool_and_coder_only
- или оставить critic всегда включённым
Safe patch plan Если предлагаешь изменения — опиши минимальный патч:
- какие файлы менять
- какие config flags добавить
- какие тесты добавить/обновить
- как откатить
Explicitly rejected approaches Укажи, что в этом эксперименте НЕ использовались:
- эвристический MemoryRecallService;
- keyword-based recall;
- большие ручные if/else цепочки;
- удаление JSON Compiler;
- отключение permissions ради скорости.

Финальный результат:

Не ломать текущую работу.
Все существующие тесты должны проходить.
Новый benchmark script должен запускаться вручную.
Итоговый отчёт должен быть понятен человеку и следующему AI-агенту.

17 KiB Raw Blame History Unescape Escape

17 KiB

Raw Blame History