Бюджет:
500 руб
Есть распознанный html файл из pdf (книга). Требуется исправить ошибки распознавания (орфография, пунктуация) и разметки (абзацы, картинки, таблицы). Ошибок не много. Не нравится мое распознавание, можете распознавать сами. Каждый параграф должен быть сохранен отдельно. Необходимо удалять номера страниц, отсылы к другим главам, заменять на ссылки.
На выходе должен получиться набор txt файлов (формат файла я предоставлю) с заголовком и размеченным в html текстом + файл с оглавлением. Разметка примитивная: абзац, жирный шрифт, курсив, ссылка, картинка, таблица.
Объем книги 400 стр. (приметно 900тыщ символов). Текст хороший, картинок и таблиц не много