Бесплатно зарегистрируйся и получай уведомления о новых проектах по работе

Нужна помошь по PDF Box – экстракция текста из пдф

K
Заказчик
Отзывы фрилансеров: + 14 - 0
Зарегистрирована на сайте 11 лет и 2 месяца
Бюджет: по договоренности
Пожалуйста отвечайте только если вы уже работали ранее с PDF Box или iText или чем-то похожим и знаете как решать проблему описанную ниже.

Что нам надо: Utility/jar/класс который мы можем вызывать с нашего java аппликейшн на Linux сервере на Tomcat с Java 8.

Проблема: нужно выдать текст из пдф файлов (что называется native pdf или searcheable pdf – не сканы) с сохраненными позициями текста – то есть нужно чтобы каждый тоукен/слово выдавало с x/y начало/конец позиции и координаты начало / конца вертикальных и горизонтальных линий. Нам нужно получить только текст который конечный пользователь может видеть, и не выдавать скрытый текст который человек видеть не может, и если выдает полный текст то нужен флаг какая часть текста видима и какая скрыта для конечного пользователя. Прилагаю примеры файлов где есть скрытый текст который нужно убирать.

Мы используем Apache PDFBox – но их PDFTextStripper выдает весь текст (видимый и не видимый). Чтобы понять какой текст является не видимым нужно самим читать процессить пдф инструкции и считать является ли текст покрытым каким либо другим элементом (является ли текст скрытым) или нет. Нам нужен только видимый текст.

Есть еще другие библиотеки iText, Tika, Acrobat SDK – можно использовать и их если есть опыт.

Сообщите есть ли опыт решения такой задачи и в какой библиотеке, ваша оценка по времени и стоимости решения.
Разделы:
Опубликован:
20.12.2017 | 22:31 [последние изменения: 20.12.2017 | 22:44]

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист

Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».