Треба напевно взяти набір даних, який використовувався для тренування Мар'яна, почистити його від російських текстів, і використати для тренування мовних пар з різних мов на українську.
PS.
У наборі даних українська вже присутня, але як її ввімкнути - не ясно.
https://paracrawl.eu/index.php