Точное преобразование файлов PDF моделью AI Nanonets-OCR-s в LM Studio на ПК в редактируемый текст и таблицы с текстом.
Исходные данные:
1) В документах PDF есть сканированный или копируемый текст содержащий текстовые и табличные блоки, номера страниц, печати, подписи, изображения не текста, предметов.
2) В документах есть математические символы "плюс-минус", степень (см2·мин-1), экспоненциальная запись числа (5,2·10-5), (5,2·10 Е-5) , также обозначения изотопов: 137Cs (<sup>137</sup>Cs) и, возможно, другие.
3) Распознавать и выводить номера страниц, печати, подписи, изображения не текста (к спец символов и пр...), предметы не нужно.
4) Пакетная обработка в указанной директории.
Результат:
1)Все тексты должны распознаваться правильно.
2) Распознанный текст должен сохраняться в форматы XLSX и/или DOCX.
3) Имя сохраненного файла должно быть таким же, как у исходного PDF.
4) Пакетная обработка файлов в указанной директории
Необходимо:
1) Удаленно (AnyDesk) проверить и настроить (если нужно) LM Studio для корректной работы Nanonets-OCR-s для выполнения поставленных задач (библиотеки phyton и пр., зависимости, что-то еще, проверить установку Nanonets-OCR-s, либо настройки LM Studio
2) Создать точные промпты для обработки исходников и проверки орфографии распознанного текста для получения указанного результата
3) Реализовать пакетную обработку файлов в любой/указанной директории (скриптом или через удобный инструмент)
4) Провести демонстрацию 2–5 примеров через AnyDesk для уверенной работы пользователя с системой.
5) Гарантия результата, по моему описанию.
Разделы:
Заказ
Опубликован:
15.07.2025 | 18:03 [поднят: 15.07.2025 | 18:03]
Заказ находится в архиве