Автор Гілка: Сесія LLM на флешці USB  (Прочитано 260 раз)

Відсутній ps

  • Кореспондент
  • ***
  • дописів: 174
  • Карма: +2/-0
    • Мої дописи на DevZone
Маю старе корито з 12Гб RAM і таки хочу собі локальний асистент. Максимум, що я можу виділити під нього - це моделі до 5 Гб.
Але ось що придумав: якщо я візьму чіпову флешку і повішу на неї файл підкачки (вимкнуши zram щоб не тягнув CPU на компресію) то це дозволить "хостити" моделі 32-64Гб, хоч і повільніше за пам'ять, але швидше за HDD. Враховуючи, що кешуються / записуються вони один раз за сесію, то й проживуть довго. А як здохнуть - то купити нову майже нічого не вартує, порівнюючи з комп'ютерним або серверним SSD. Флешки можна додати в масив, коротше таке. Що скажете, досвідчені ШІ-шники?

res2500

  • Гість
Re: Сесія LLM на флешці USB
« Відповідей #1 : 2026-04-02 14:20:14 »
Цитата
якщо я візьму чіпову флешку і повішу на неї файл підкачки
флешка довго так не проживе довго

Відсутній ps

  • Кореспондент
  • ***
  • дописів: 174
  • Карма: +2/-0
    • Мої дописи на DevZone
Re: Сесія LLM на флешці USB
« Відповідей #2 : 2026-04-02 16:48:33 »
Щодо життя флешки, то прикид такий: якщо юзер на смартфоні качає собі на телефон умовні 10 гіг фільмів щодня, а я пишу на ту само SD/USB цей об'єм раз на день (коли пускається сервер llama.cpp) то мені здається, що флешка помре не скоро. Якщо помре - її вартість близька до нуля, особливо якщо розглянути OLX і масив з 512-1024 Мб "раритетом" за безцінь.

Мене зараз більше цікавить як виділити віртуальну пам'ять в обхід фізичної, щоб та використовувалась для роботи а флешка - для сесії LLM. Може якось з systemd, не робив такого ще, мусить бути рішення...
« Змінено: 2026-04-02 17:02:42 від ps »

res2500

  • Гість
Re: Сесія LLM на флешці USB
« Відповідей #3 : 2026-04-02 18:51:25 »
systemd не знаю, в freebsd, я командою mdconfig створював віртуальний пристрій, і монтував iso образ, але робив це через vnode, там ще можна вибрати як раз swap i malloc https://man.freebsd.org/cgi/man.cgi?mdconfig(8), fstab ще можна застосувати

Відсутній ps

  • Кореспондент
  • ***
  • дописів: 174
  • Карма: +2/-0
    • Мої дописи на DevZone
Re: Сесія LLM на флешці USB
« Відповідей #4 : 2026-04-03 12:20:26 »
А з віртуалкою - слушна думка, не здогадався: так я зможу надійно ізолювати всю систему, жорстко виділивши під неї наприклад 1 GB RAM і налаштувати файл підкачки з середини, а на зовні стирчатиме тільки IP підмережі з Веб-інтерфейсом. Дякую!

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 4104
  • Карма: +35/-0
  • Програміст
Re: Сесія LLM на флешці USB
« Відповідей #5 : 2026-04-10 15:21:36 »
Цікаво послухати що з цього вийшло.
[Fedora Linux]

Відсутній ps

  • Кореспондент
  • ***
  • дописів: 174
  • Карма: +2/-0
    • Мої дописи на DevZone
Re: Сесія LLM на флешці USB
« Відповідей #6 : 2026-04-15 04:08:07 »
Та я ось запустив i5 з RAM і зовсім не користуюсь, бо на тривіальні питання забирає купу часу і всі 4 ядра. Може це його треба пускати на відео-карті?

Стосовно самої теорії з сабжем, я тут близько місяця користуюсь проксі-сервером Kellnr для кейтів Rust на флешці; в мене там близько 100к версій. Кожного разу, коли збираюсь, замість прискорення отримую шалені затримки при оновленні пакетів перед збіркою. Виходить так, що проксі читає флешку, потім йде за пакетами, починає туди писати і вона вісне бо в пулі не вистачає "мізків" і процеси стають у чергу. Може це так тільки коли є запис/lock, на читання в приницпі думаю буде не сильно краще. Тут вже як і потрібен SSD то якийсь сучасний, швидкісний а не таке чудо бо це ж модель передбачає прохід по всій алокації.
« Змінено: 2026-04-15 05:12:57 від ps »

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 4104
  • Карма: +35/-0
  • Програміст
Re: Сесія LLM на флешці USB
« Відповідей #7 : 2026-04-15 10:54:37 »
Та я ось запустив i5 з RAM і зовсім не користуюсь, бо на тривіальні питання забирає купу часу і всі 4 ядра. Може це його треба пускати на відео-карті?

Там в основному впирається у швидкість памʼяті, так як потрібно прокачувати гігабайти на кожен запит. DDR5 — це зараз мінімум для нормальної роботи. Можливо також запускати так звані багато-експертні моделі, які виконують тільки одного, спеціалізованого експерта, але вони значно тупіші, наприклад https://ollama.com/library/gemma4:e2b . Крім того, можна запускати llama, а не ollama, і тюнити параметри для економії памʼяті. Наприклад так запускають llama для gemma4-26B-a4b (мультиекспертна) на 24Гб відеопамʼяті:

llama-server \
  -m /path/to/gemma-4-26B-A4B-it-Q4_K_M.gguf \
  --port 1234 -ngl 99 -c 32768 -np 1 --jinja \
  -ctk q8_0 -ctv q8_0
[Fedora Linux]