Заказ закрыт
Ищем Python-разработчика (LLM) для парсинга PDF

Бюджет: 10 000 руб
139.53 $ – 120.05 €
Кто мы / контекст
Делаем сервис для кредитных брокеров, который поможет им тратить в разы меньше времени на анализ массивных PDF файлов с кредитной историей их клиентов. Вкратце — извлекаем из текстового слоя ПДФ структурированные данные и представляем их в удобном виде в эксель-таблице. У нашего сервиса есть конкуренты, хотим сделать продукт удобнее, точнее и функциональнее. 

Что уже есть:
- Таблица обозначения параметров для парсинга (что и откуда извлекать из ПДФ-файлов).
- Реализован парсинг одного из отчётов, но точность пока неидеальная. Нужно доработать. 
- Есть кодовая база на Python; LLM вызываем через OpenAI-совместимый API (Yandex Cloud)  
- Есть backend-каркас для загрузки PDF и запуска анализа (FastAPI). (на первом этапе не будем его трогать). 

Задача (по этапам):

Этап 0 (платный, короткий): онбординг + мини-задача
- Развернуть проект в репо на Гитхаб (есть README проекта).
- Понять текущую архитектуру парсинга.
- Сверить текущую таблицу параметров парсинга с тем, что есть в скрипте и написать лист расхождений. Оценить следующий этап по доделыванию скрипта до полного соответствие списку параметров парсинга. 
- Результат: проект развернут в Гите, написан лист расхождений, оценён следующий этап.

Этап 1: довести парсинг одного из отчётов до стабильного качества
- Улучшить извлечение проблемных блоков (часть полей/разделов ещё не полностью покрыта).
- Добавить те параметры, который ещё нет в скрипте. 
- Прогнать 3-5 файлов, после чего мы их проверим и укажем, где скрипт ошибся. 
- Исправить ошибки и довести точность парсинга до >95%

Этап 2–3: добавить ещё 2 типа отчётов
- Реализовать извлечение по нашей таблице параметров парсинга (мы предоставим примеры и спецификацию).
- Сохранить совместимость с текущей архитектурой и форматом данных.

Инженерные требования к результату:
- Читаемый код, PR-подход, минимальная документация “как запустить”.
- Логи/ошибки понятные, чтобы можно было поддерживать.
- Тест-набор или хотя бы regression-скрипт: “прогнал N файлов → сравнил ключевые поля”.

Стек:
Python, Docling/PDF extraction, LLM (OpenAI-совместимый API), Git.

Важно про данные:
Работаем с документами, содержащими персональные данные. Для разработки используем обезличенные примеры/закрытый контур, просим аккуратность и понимание базовых практик безопасности.

В отклике напишите:
- 1–2 примера релевантных работ + ссылку на репозиторий/портфолио
- как будете мерить качество парсинга
- готовы ли начать с “Этапа 0” (онбординг + мини-анализ)
Опубликован 10.02.2026 в 12:16
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.