Автор Гілка: Український словник для LatinIME  (Прочитано 7750 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Вітання усім,
я отримав запит зробити версію ВЕСУМу для LatinIME, але геть не маю часу розбиратися з компілюванням андроїда.
За цими інструкціями має бути просто, у нас вже є (майже готовий) файл (але можливо його треба буде ще оновити), потрібно лише його перевести у двійковий формат.
Якщо хтось може це швидко зробити, дайте, будь ласка, знати.

Дякую.
Fedora 35 (x86-64)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: Український словник для LatinIME
« Відповідей #1 : 2017-10-26 19:09:01 »
Вказаний формат стосується лише ASk keyboard. Для ASOP необхідно зібрати файл словник в форматі XML (Який не суттєво відрізняється від поточного), і використати
dicttool_aosp. Як його збирати, я , на жаль, не можу розібратись.

Пропоную доробити скрипт експорту словнику у форматі XML, який надалі можна посилати в репозиторій LatinIME і тому подібне. (Lineage OS і похідні)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: Український словник для LatinIME
« Відповідей #2 : 2017-10-27 14:35:06 »
Практично розібрався. Зібрав інструменти dicttool та отримав файл словника, за основу брав файл counts2.txt . Тепер питання, як оновлювати цей файл (counts2.txt)?
Приклад коду для конвертації:
#!/bin/sh

FILE="uk_wordlist.combined"
INFILE="counts2.txt"
VERSION=2

date_u=`date +%s`

echo 'dictionary=main:uk,locale=uk,description=Українська,date='$date_u',version='$VERSION > $FILE

max=`awk '{ print log($2/10)/log(10.); exit }' $INFILE`
echo "max: $max"

grep -E " [1-9][0-9]+" $INFILE | awk -v max=$max '{ printf(" word=%s,f=%.0f\n", $1, log($2/10)/log(10.) * 255 / max }'  >> $FILE
--
До речі, в проекті LineageOS (Cyanogenmod) вже присутній словник з 2013р на 1285562 слова.
« Змінено: 2017-10-29 18:16:11 від burunduk32 »

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: Український словник для LatinIME
« Відповідей #3 : 2017-10-31 15:50:48 »
дуже дякую, за пару днів ще буду розбиратися — відпишу
Fedora 35 (x86-64)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: Український словник для LatinIME
« Відповідей #4 : 2017-11-28 19:41:22 »
Вітання, я виклав текстовий файл з частотами на  2787823 правописних словоформ (ненульових частот 528871).
Буду вдячний, якщо згенеруєте словник для LatinIME
Fedora 35 (x86-64)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: Український словник для LatinIME
« Відповідей #5 : 2017-11-29 00:30:50 »
Створив словник.
Посилання на DropBox
dicttool_aosp.jar - утиліта конвертер (чомусь падає часто)
main_uk.dict - словник в бінарному форматі
uk_wordlist.combined.gz - частотний словник (стиснутий)
Проте треба його тестувати. Дуже великий словник вийшов.
---
Так, ситуація на даний момент:
Перевірку орфографії для української мови офіційно не має в системі android.
Проте, є система пропозицій, яка пропонує слова під час їхнього введення. (і то, не у всіх прошивках)
Так от, ця система працює із оновленим словником, зʼявилися нові слова, яких раніше не було.
Але, якщо увімкнути правопис (змінивши джерельний код додатку), то з поточним словником багато слів ігнорується. Багато слів, досить простих, показує, що вони помилкові.
Я не знаю, чи існує обмеження на розмір словника, тому зайшов у глухий кут.
« Змінено: 2017-11-30 21:40:52 від burunduk32 »

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: Український словник для LatinIME
« Відповідей #6 : 2017-12-11 17:54:18 »
Дуже дякую.
Fedora 35 (x86-64)