Автор Гілка: Читання XML документів MS Word.  (Прочитано 6164 раз)

Відсутній Markus

  • Дописувач
  • **
  • дописів: 79
  • Карма: +0/-0
  • Програматор
Привіт усім! Вирішив написати переглядач XML документів Word пакета MS Office. Може хто знає в якому форматі ворд зберігає малюнки у своїх XML документах? Як його читати?
Чи потрібні Україні програмісти, які не знають англійської мови?

Відсутній raven

  • Новачок
  • *
  • дописів: 0
  • Карма: +0/-0
  • linux kettle
Re: Читання XML документів MS Word.
« Відповідей #1 : 2008-08-15 02:14:03 »
Вирішив написати переглядач XML документів Word пакета MS Office.
Вперед і з піснею. Почніть зі специфікації, там трошки більше 6000 сторінок. Коли прочитаєте, відсилайте резюме в Microsoft - відірвуть з руками. Будете першим їх співробітником, що осилив цей документ.

http://www.ecma-international.org/publications/standards/Ecma-376.htm

Відсутній Markus

  • Дописувач
  • **
  • дописів: 79
  • Карма: +0/-0
  • Програматор
Re: Читання XML документів MS Word.
« Відповідей #2 : 2008-08-15 14:16:03 »
Цитата
Вперед і з піснею. Почніть зі специфікації, там трошки більше 6000 сторінок. Коли прочитаєте, відсилайте резюме в Microsoft - відірвуть з руками. Будете першим їх співробітником, що осилив цей документ.
;D
Мне не цікавить формат docx. Мене цікавить формат xml Office 2003. А якщо конкретно то сам формат малюнка. Із самими тегами розібрався, а от із відображенням малюнків, виникли проблеми, не можу визначити в якому форматі вони їх зберігають між XML тегами, не знаю як його читати.
Чи потрібні Україні програмісти, які не знають англійської мови?

Praporshic

  • Гість
Re: Читання XML документів MS Word.
« Відповідей #3 : 2008-08-15 16:02:25 »
Коли прочитаєте, відсилайте резюме в Microsoft - відірвуть з руками. Будете першим їх співробітником, що осилив цей документ.
Мабуть таки без рук відірвуть - щоб їх наявністю не відрізнятись від інших співробітників.

Відсутній raven

  • Новачок
  • *
  • дописів: 0
  • Карма: +0/-0
  • linux kettle
Re: Читання XML документів MS Word.
« Відповідей #4 : 2008-08-15 16:15:26 »
Мене цікавить формат xml Office 2003.
Так би й написали. Шукайте спеку (http://rep.oio.dk/Microsoft.com/officeschemas/welcome.htm - не воно?). Або розбирайтесь самі.

У всякому разі, звернулись ви явно не за адресою.

Відсутній BM

  • Кореспондент
  • ***
  • дописів: 162
  • Карма: +0/-0
  • SUSE Linux Products GmbH
Re: Читання XML документів MS Word.
« Відповідей #5 : 2008-08-15 17:38:35 »
Привіт усім! Вирішив написати переглядач XML документів Word пакета MS Office.

А на якого чорта воно треба? Всеодно ніколи не вийде як потрібно, бо на це треба буде вбити не один рік. А ще один WvWare писати — глухий кут...

Відсутній raven

  • Новачок
  • *
  • дописів: 0
  • Карма: +0/-0
  • linux kettle
Re: Читання XML документів MS Word.
« Відповідей #6 : 2008-08-15 18:06:48 »
А на якого чорта воно треба?
Ну хочеться людині.

Відсутній Markus

  • Дописувач
  • **
  • дописів: 79
  • Карма: +0/-0
  • Програматор
Re: Читання XML документів MS Word.
« Відповідей #7 : 2008-08-15 18:59:11 »
Цитата
А на якого чорта воно треба? Всеодно ніколи не вийде як потрібно, бо на це треба буде вбити не один рік. А ще один WvWare писати — глухий кут...
Постало завдання написати менеджер шаблонів щось на подобі цього http://sksoft-gr.narod.ru/soft10.htm. Тільки написати його під лінукс на Gtk2.0 і удосконалити. Потрібно зробити в програмі простенький переглядач шаблонів, шаблони в форматі xml.  В програмі я xml конвертую в html і відображаю у вікні перегляду, зіткнувся з проблемою відображення малюнків (незнаю який формат).

Цитата
Шукайте спеку (http://rep.oio.dk/Microsoft.com/officeschemas/welcome.htm - не воно?). Або розбирайтесь самі.
Дякую за посилання. Зараз подивлюсь.
Чи потрібні Україні програмісти, які не знають англійської мови?

Відсутній BM

  • Кореспондент
  • ***
  • дописів: 162
  • Карма: +0/-0
  • SUSE Linux Products GmbH
Re: Читання XML документів MS Word.
« Відповідей #8 : 2008-08-16 20:10:24 »
Постало завдання написати менеджер шаблонів щось на подобі цього http://sksoft-gr.narod.ru/soft10.htm. Тільки написати його під лінукс на Gtk2.0 і удосконалити.
Я-б вже ото писав або на Python або на Java, щоби пускати можна було й на інших OS.
А мучитись на С та ще-й з GTK та ще-й під тільки лінукс... ну його в пень.


Потрібно зробити в програмі простенький переглядач шаблонів, шаблони в форматі xml.  В програмі я xml конвертую в html і відображаю у вікні перегляду, зіткнувся з проблемою відображення малюнків (незнаю який формат).

Ну то це просто: XML -> XSL -> XHTML -> html чи PDF render. На Java/Swing з native LaF щоби було вам
GTK, таке ліпиться дуже скоро.

Якщо-ж там немає XSL значить це дуже погана ідея, бо вхідний формат може бути що завгодно:
iWork Pages, MS Word, OpenOffice.org...  Малюнки там оригінальний бінар, тільки в base64 (AFAIK).
Але може брешу, треба подивитись все-таки...


P.S. Але може й взагалі вам всього цього не треба. Шаблони самі для чого? Для репортів? Може тоді
взагалі iReport + Jasper Reports?
« Змінено: 2008-08-16 20:19:27 від BM »

Praporshic

  • Гість
Re: Читання XML документів MS Word.
« Відповідей #9 : 2008-08-16 20:31:16 »
Я-б вже ото писав або на Python або на Java, щоби пускати можна було й на інших OS.
А мучитись на С та ще-й з GTK та ще-й під тільки лінукс... ну його в пень.
python-gtk ще ніхто не відміняв...

Відсутній Markus

  • Дописувач
  • **
  • дописів: 79
  • Карма: +0/-0
  • Програматор
Re: Читання XML документів MS Word.
« Відповідей #10 : 2008-08-16 22:09:18 »
Цитата
Шаблони самі для чого? Для репортів?
Не тільки для репортів. Дякую за цікаву інформацію, спробую мабуть на python.
XSL немає. Вибрав формат xml Office 2003 тому що його вміє відкривати OpenOffice. Правда сьогодні помітив, що він не вміє читати колір тексту, хоча записуваи вміє, тай ще багато глюків при записі в цей формат Writer-ом від  OpenOffice. Тому незнаю чи закрити на це очі і добити до кінця із цим форматом, чи шукати інший формат, використовувати формат rtf чогось нехочеться.
Чи потрібні Україні програмісти, які не знають англійської мови?

Відсутній BM

  • Кореспондент
  • ***
  • дописів: 162
  • Карма: +0/-0
  • SUSE Linux Products GmbH
Re: Читання XML документів MS Word.
« Відповідей #11 : 2008-08-17 19:00:45 »
python-gtk ще ніхто не відміняв...
Не відміняв, але GTK... воно все якесь криве й недороблене по зрівнянню з іншими. Python/QT дуже гарне, але саме QT поки поставиш на вінді або солярі для Python, то вабщє здурієш.
За wxWindows/wxPython не знаю як тепер — ідея файна, але останній раз коли я на ото дивився, воно щось дуже було падуче, глюкаве й страшенно повільне в роботі з великими таблицями та списками (combo box). А ще немає дійсно нормального дизайнера форм. Є всякі там WYSIWTF, але немає справді гарного й достойного.

Можна, доречі, Jython/Swing. Правда, дизайнера немає теж... Поки-що єдине нормальне юзабельне — це QT Designer і через pyuic в Python клас, а також NetBeans IDE для Java. Все решта в мене викликає розлад кишечника...

Відсутній BM

  • Кореспондент
  • ***
  • дописів: 162
  • Карма: +0/-0
  • SUSE Linux Products GmbH
Re: Читання XML документів MS Word.
« Відповідей #12 : 2008-08-17 19:15:46 »
XSL немає.
Ouch... Це боляче. Дуже.

Вибрав формат xml Office 2003 тому що його вміє відкривати OpenOffice. Правда сьогодні помітив, що він не вміє читати колір тексту, хоча записуваи вміє, тай ще багато глюків при записі в цей формат Writer-ом від  OpenOffice.
Ну тут знову-ж таки велике-велике питання нафіг це все взагалі. Якщо треба просто дизайнити шаблони для рапортів і потім заливати в них дані з баз, то чому не взяти OpenOffice.org і ним не ліпити оті дизайни, а потім не конвертити шаблони тим-же XSL в Jasper Reports і там далі не фігачити результат в PDF?..

Тому незнаю чи закрити на це очі і добити до кінця із цим форматом, чи шукати інший формат, використовувати формат rtf чогось нехочеться.
Є ще й садистично-мазохістичний хардкор для особо продвинутих жертв консерватизму: LaTeX. Але див. вище.

« Змінено: 2008-08-17 19:17:33 від BM »

Praporshic

  • Гість
Re: Читання XML документів MS Word.
« Відповідей #13 : 2008-08-17 19:36:44 »
2 BM: у правому верхньому кутку повідомлення є таке посиланнячко цікаве, "Змінити" зветься. Їм варто користуватись ;)
« Змінено: 2008-08-17 19:38:02 від Praporshic »

Praporshic

  • Гість
Re: Читання XML документів MS Word.
« Відповідей #14 : 2008-08-17 19:37:50 »
python-gtk ще ніхто не відміняв...
Не відміняв, але GTK... воно все якесь криве й недороблене по зрівнянню з іншими. Python/QT дуже гарне, але саме QT поки поставиш на вінді або солярі для Python, то вабщє здурієш.
Мені якось все одно - мій код не має User Interface. Максимум - web.