Подготовка Excel-таблицы из PDF (реестр СЗР) под загрузку в SQL-базу

Бюджет: по договоренности
Заказчик выбрал исполнителя:
Татьяна LT  
ТЕХНИЧЕСКОЕ ЗАДАНИЕ
Подготовка Excel-файла для базы данных средств защиты растений (СЗР)
1. Цель работы

На основе PDF-файлов государственного реестра СЗР необходимо подготовить чистый, логически корректный Excel-файл, который в дальнейшем будет импортирован в SQL-базу данных.

⚠️ SQL, программирование и парсинг в БД не требуются.
Работа ведётся только в Excel.

2. Общий принцип

PDF → Excel (очистка и структурирование) → SQL

В Excel нужно:

убрать мусор, заголовки, повторы;

чётко разделить сущности (препарат ≠ ДВ ≠ регистрант);

сохранить смысл данных, а не просто текст.

3. Требования к Excel-файлу (структура)

Один Excel-файл, несколько листов.
Каждый лист — одна логическая сущность.
Лист 1. products — Препараты
Колонка                                                     Описание
product_name                                    Торговое название препарата (без заголовков разделов!)
formulation                                            Препаративная форма (КЭ, ВР, ВДГ и т.п.)
registrant                                            Название регистранта / компании
country                                                   Страна (если указана в реестре)
raw_text                                                   Исходная строка из PDF (для контроля, не чистить)

Важно:

Названия действующих веществ НЕ должны попадать сюда.
Заголовки разделов PDF НЕ являются препаратами.
Одна строка = один препарат.

Лист 2. active_substances — Действующие вещества
Колонка                  Описание
product_name Название препарата (связь с листом products)
active_substance Название действующего вещества
concentration Концентрация (как в PDF: 50 г/л, 750 г/кг и т.п.)
Важно:
Один препарат может иметь несколько строк (если несколько ДВ).
Название ДВ должно быть чистым, без концентрации.
Концентрация — отдельная колонка.

Лист 3. applications — Регламенты применения
Колонка                  Описание
product_name Название препарата
culture                Культура / объект применения
weeds                Сорные растения / объекты
dose                Норма расхода
method                Способ и время обработки
restrictions        Ограничения и примечания
Важно:
Одна строка = один регламент применения.
Если у препарата несколько культур — несколько строк.
Текст оставляем максимально близко к PDF, но без разрывов слов.

Лист 4. cultures (опционально, если удобно)
culture
Пшеница озимая
Пшеница яровая
Кукуруза


(Можно формировать автоматически из листа applications.)

4. Что НУЖНО делать

✅ Чётко разделять:
препарат
действующее вещество
концентрацию
регистранта
регламент

✅ Убирать:
заголовки разделов PDF;
повторы шапок таблиц;
«мусорные» строки.

✅ Сохранять:
исходный текст (в raw_text);
все смысловые данные из реестра.

5. Что ДЕЛАТЬ НЕ НУЖНО

❌ SQL
❌ базы данных
❌ автоматический парсинг
❌ формулы, макросы
❌ дизайн и оформление
Только чистые данные.

6. Критерии приёмки

Excel считается готовым, если:

по любому препарату можно:
увидеть его ДВ и концентрации;
увидеть регистранта;
увидеть культуры и регламенты;
заголовки PDF не попадают в названия препаратов;
концентрации не попадают в регистрантов;
данные логически читаются человеком.

7. Дополнительно
Этот Excel будет использоваться:
для загрузки в SQL-базу;
в дальнейшем — для сайта и чат-бота.
Поэтому качество и логика данных важнее скорости.
Опубликован 09.01.2026 в 10:25

Выберите способ верификации:

Обновите страницу после прохождения верификации.