Закрыт

Написать программу-парсер для файлов формата .doc и .docx

Программа должна распознавать текст и его свойства: основныой текст, абзацы, заголовки (до 3-го уровня), стили шрифтов (жирный, курсив, заглавные буквы), сноски, эпиграфы и переводить его в текст формата UTF8 отформатированный в формате WorkDown. Срок - до 27 июня 2016г. При успешной реализации, возможно продолжение сотрудничества.

переводить его в текст формата UTF8 отформатированный в формате MarkDown.

Обновленное описание:

Программа должна получать на вход файл .doc или .docx, распознавать в
нем текст вместе с логической структурой:

- основной текст, абзацы
- заголовки (до 3-го уровня, в том числе распознавать заголовки,
заданные форматированием, а не стилем заголовка)
- стили шрифтов (жирный, курсив)
- сноски
- эпиграфы
- стихотворные строфы

Входные файлы имеют сильно различающееся форматирование, нужно
определять логическую структуру как по специальным стилям (например,
заголовок) в блоках, так по паттернам форматирования. Распознанный текст
необходимо переводить в формат markdown и сохранять в кодировке UTF-8.

Интерфейс - текстовый posix, программа должна работать в ОС Linux.

Квалификация: PHP, Архитектура ПО

О работодателе:
( 0 отзыв(-а, -ов) ) Russian Federation

ID проекта: #10796222

3 фрилансеров(-а) в среднем готовы выполнить эту работу за $122

indiainfosoft

Hello Sir, I've reviewed your requirment and I'm ready to work with you. I will provide quality work as well full support for any query. I'm giving you trust for good quality work. I have almost 8+ years of exper Больше

$188 USD за 3 дней(-я)
(14 отзывов(-а))
3.7
antyans

Приветствую Вас. Ознакомился с предоставленной Вами информацией. Проект заинтересовал. Прекрасно понимаю суть поставленной задачи. Есть большой опыт работы. Буду рад реализовать Ваш проект в реальность. Есть огромное ж Больше

$35 USD за 10 дней(-я)
(7 отзывов(-а))
3.7
Ronak26361

A proposal has not yet been provided

$144 USD за 4 дней(-я)
(0 отзывов(-а))
0.0