Контекст / Проблема:
Наша компания собирает юридические досье. Часть досье это перевод на английский документов от брокеров, которые клиенты присылают в виде сканов (не электронный PDF). Документы могут иметь сложную структуру с таблицами и финальный перевод должен сохранять исходную структуру. В случае с нативными PDF нам помогает просто google translate, но в случае со сканами требуется сделать OCR (например, через chatgpt) или другой продукт, потому восставновить layout. А люди не технические. Им нужно одно окно для получения перевода.
Задача:
Создать базовое веб-приложение для автоматизированного перевода отсканированных документов с сохранением лэйаута, которое позволит:
- загружать PDF / JPEG / PNG-файлы (сканы, фото);
- автоматически распознавать текст (OCR) с восстановлением таблиц и стилей (через интеграцию c системами на рынке)
- автоматически переводить текст с русского на английский
- собирать переведённый текст обратно в исходный формат (DOCX / PDF), сохраняя таблицы и оформление;
- скачивать результат, готовый к подаче в госорганы.
В качестве решения chatgpt предложил решение:
- интеграция: ABBYY Cloud OCR SDK — OCR и восстановление таблиц → DOCX
- интеграция: DeepL API или Google Cloud Translation — перевод DOCX с сохранением форматирования
В качестве хранилища: в идеале на первом этапе использовать просто google drive. Или вообще все пока оставлят на фронте без сохранения
Разделы:
Заказ
Опубликован:
17.09.2025 | 16:10 [поднят: 17.09.2025 | 16:10] [последние изменения: 17.09.2025 | 16:14]
Заказ находится в архиве