Настройка OCR для пакетной индексации архивных документов

Ссылка на заказ

Бюджет: по договоренности

Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).

Требования:
Пакетная обработка PDF → OCR → текстовый результат.
Использование Yandex Vision API (или альтернативы).
Текст дореволюционный, почерк и шрифт часто плохо читаем.

Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.

Возможность повторного запуска для новых файлов.

Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями.

Результат:
Скрипт/утилита (Python предпочтительно).
Инструкция по запуску и использованию.
Возможность локального хранения результатов.

Пример файла во вложении.

Опубликован 31.08.2025 в 09:18

Заказ находится в архиве

Посмотреть другие заказы

Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.