Кто мы / контекст
Делаем сервис для кредитных брокеров, который поможет им тратить в разы меньше времени на анализ массивных PDF файлов с кредитной историей их клиентов. Вкратце — извлекаем из текстового слоя ПДФ структурированные данные и представляем их в удобном виде в эксель-таблице. У нашего сервиса есть конкуренты, хотим сделать продукт удобнее, точнее и функциональнее.
Что уже есть:
- Таблица обозначения параметров для парсинга (что и откуда извлекать из ПДФ-файлов).
- Реализован парсинг одного из отчётов, но точность пока неидеальная. Нужно доработать.
- Есть кодовая база на Python; LLM вызываем через OpenAI-совместимый API (Yandex Cloud)
- Есть backend-каркас для загрузки PDF и запуска анализа (FastAPI). (на первом этапе не будем его трогать).
Задача (по этапам):
Этап 0 (платный, короткий): онбординг + мини-задача
- Развернуть проект в репо на Гитхаб (есть README проекта).
- Понять текущую архитектуру парсинга.
- Сверить текущую таблицу параметров парсинга с тем, что есть в скрипте и написать лист расхождений. Оценить следующий этап по доделыванию скрипта до полного соответствие списку параметров парсинга.
- Результат: проект развернут в Гите, написан лист расхождений, оценён следующий этап.
Этап 1: довести парсинг одного из отчётов до стабильного качества
- Улучшить извлечение проблемных блоков (часть полей/разделов ещё не полностью покрыта).
- Добавить те параметры, который ещё нет в скрипте.
- Прогнать 3-5 файлов, после чего мы их проверим и укажем, где скрипт ошибся.
- Исправить ошибки и довести точность парсинга до >95%
Этап 2–3: добавить ещё 2 типа отчётов
- Реализовать извлечение по нашей таблице параметров парсинга (мы предоставим примеры и спецификацию).
- Сохранить совместимость с текущей архитектурой и форматом данных.
Инженерные требования к результату:
- Читаемый код, PR-подход, минимальная документация “как запустить”.
- Логи/ошибки понятные, чтобы можно было поддерживать.
- Тест-набор или хотя бы regression-скрипт: “прогнал N файлов → сравнил ключевые поля”.
Стек:
Python, Docling/PDF extraction, LLM (OpenAI-совместимый API), Git.
Важно про данные:
Работаем с документами, содержащими персональные данные. Для разработки используем обезличенные примеры/закрытый контур, просим аккуратность и понимание базовых практик безопасности.
В отклике напишите:
- 1–2 примера релевантных работ + ссылку на репозиторий/портфолио
- как будете мерить качество парсинга
- готовы ли начать с “Этапа 0” (онбординг + мини-анализ)
Опубликован 10.02.2026 в 12:16
Заказ находится в архиве