Тут можна порівняти різні токенізатори, і добре видно що багато з них не підтримують українську частково або повністю, що може пояснювати чому деякі моделі часто роблять помилки в українських словах:
https://huggingface.co/spaces/Xenova/the-tokenizer-playgroundMistral, LLama, Gemini підтримують українську.