cosy.

2026-02 · инженерный документ

AI на устройстве: on-device + cloud = гибридный интеллект

Аннотация 2026-07-02: документ инженерной фазы (февраль 2026), сохранён как есть, не отретуширован. Технически нейтрален к текущему канону: софт-архитектура не привязана к конкретному железу, RK3588 NPU здесь — иллюстрация класса устройств, а не обязательство по железу.

Роутинг запросов

Вход (запрос пользователя) → классификатор (on-device, 0.5B параметров, <100ms) → развилка:

  • Простое / приватное / офлайн → локально: on-device LLM — 1.5B, 15 tok/s
  • Сложное / креативное → облако: Cloud API (Claude) — 100+ tok/s

Модели на устройстве

Бенчмарки на RK3588 NPU, 6 TOPS INT8.

МодельРазмерСкорость
Qwen2.5-0.5B~600 MB25–35 tok/s
Llama 3.2-1B~1 GB20–30 tok/s
Qwen2.5-1.5B (выбор проекта)~1.5 GB15 tok/s
DeepSeek-R1-Distill-1.5B~1.5 GB15 tok/s
Phi-3-mini3.8B / ~3.8 GB6.5 tok/s
Qwen2.5-7B~7 GB3–4 tok/s

RK3588 NPU: только W8A8 квантизация, макс. 16K контекст, 6 TOPS.

Голосовой пайплайн

Полный цикл: микрофон (вход) → VAD (Silero, <50ms, 50 MB) → STT (SenseVoice, <500ms, 400 MB) → LLM (Qwen 1.5B, 15 tok/s, 1.5 GB) → TTS (Piper, <200ms, 50 MB) → динамик (выход).

Итого: ~2–2.5 GB RAM, ~1–2s end-to-end.

Сравнение сред выполнения

RuntimeNPUCPUДля чего
RKLLMДа (единственный!)НетLLM на NPU
llama.cppНетДа (NEON)LLM на CPU, fallback
sherpa-onnxДа (для STT)ДаРечь: STT/TTS/VAD с NPU
PiperНетДаTTS, 0.2 RTF (5x realtime)

На устройстве vs Облако

ПараметрНа устройствеОблако (Claude)
Скорость15 tok/s100+ tok/s
КачествоБазовоеОтличное
Первый токен200–500ms+сеть latency
Стоимость$0$0.04–15/M tok
ОфлайнДаНет
ПриватностьПолнаяДанные идут в облако

Стратегия: гибрид. On-device для простых, приватных и офлайн задач. Cloud для сложного рассуждения и креативных задач.

Источник

Перенесено дословно из первой версии сайта, страница «AI Runtime» (февраль 2026, живой архив). См. также инженерную базу.