Ищем Python-разработчика (LLM) для парсинга PDF

Ссылка на заказ

Бюджет: 10 000

139.53 $ – 120.05 €

Кто мы / контекст
Делаем сервис для кредитных брокеров, который поможет им тратить в разы меньше времени на анализ массивных PDF файлов с кредитной историей их клиентов. Вкратце — извлекаем из текстового слоя ПДФ структурированные данные и представляем их в удобном виде в эксель-таблице. У нашего сервиса есть конкуренты, хотим сделать продукт удобнее, точнее и функциональнее.

Что уже есть:
- Таблица обозначения параметров для парсинга (что и откуда извлекать из ПДФ-файлов).
- Реализован парсинг одного из отчётов, но точность пока неидеальная. Нужно доработать.
- Есть кодовая база на Python; LLM вызываем через OpenAI-совместимый API (Yandex Cloud)
- Есть backend-каркас для загрузки PDF и запуска анализа (FastAPI). (на первом этапе не будем его трогать).

Задача (по этапам):

Этап 0 (платный, короткий): онбординг + мини-задача
- Развернуть проект в репо на Гитхаб (есть README проекта).
- Понять текущую архитектуру парсинга.
- Сверить текущую таблицу параметров парсинга с тем, что есть в скрипте и написать лист расхождений. Оценить следующий этап по доделыванию скрипта до полного соответствие списку параметров парсинга.
- Результат: проект развернут в Гите, написан лист расхождений, оценён следующий этап.

Этап 1: довести парсинг одного из отчётов до стабильного качества
- Улучшить извлечение проблемных блоков (часть полей/разделов ещё не полностью покрыта).
- Добавить те параметры, который ещё нет в скрипте.
- Прогнать 3-5 файлов, после чего мы их проверим и укажем, где скрипт ошибся.
- Исправить ошибки и довести точность парсинга до >95%

Этап 2–3: добавить ещё 2 типа отчётов
- Реализовать извлечение по нашей таблице параметров парсинга (мы предоставим примеры и спецификацию).
- Сохранить совместимость с текущей архитектурой и форматом данных.

Инженерные требования к результату:
- Читаемый код, PR-подход, минимальная документация “как запустить”.
- Логи/ошибки понятные, чтобы можно было поддерживать.
- Тест-набор или хотя бы regression-скрипт: “прогнал N файлов → сравнил ключевые поля”.

Стек:
Python, Docling/PDF extraction, LLM (OpenAI-совместимый API), Git.

Важно про данные:
Работаем с документами, содержащими персональные данные. Для разработки используем обезличенные примеры/закрытый контур, просим аккуратность и понимание базовых практик безопасности.

В отклике напишите:
- 1–2 примера релевантных работ + ссылку на репозиторий/портфолио
- как будете мерить качество парсинга
- готовы ли начать с “Этапа 0” (онбординг + мини-анализ)

Опубликован 10.02.2026 в 12:16

Заказ находится в архиве

Посмотреть другие заказы

Создать заказ

Выберите способ верификации:

подключить вход по Сбер ID
по Альфа ID

для клиентов Альфа-банка
верификация Самозанятого

привязка профиля на FL.ru к приложению «Мой налог» или личному кабинету плательщика НПД по номеру телефона
по скану паспорта

заполнение раздела Финансы в настройках профиля и прохождение модерации

Обновите страницу после прохождения верификации.

Ищем Python-разработчика (LLM) для парсинга PDF

Выберите способ верификации:

Теги: Специалисты по парсингу, недорого, FL.ru