Заказ закрыт
Настройка OCR для пакетной индексации архивных документов

Бюджет: по договоренности
Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).

Требования:
Пакетная обработка PDF → OCR → текстовый результат.
Использование Yandex Vision API (или альтернативы).
Текст дореволюционный, почерк и шрифт часто плохо читаем.

Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.

Возможность повторного запуска для новых файлов.

Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями.

Результат:
Скрипт/утилита (Python предпочтительно).
Инструкция по запуску и использованию.
Возможность локального хранения результатов.

Пример файла во вложении.
Опубликован 31.08.2025 в 09:18
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.