Заказ закрыт
Парсинг HTML-файлов

Бюджет: по договоренности
Заказчик выбрал исполнителя:
Олег Бураков  
Здравствуйте!

Есть следующая задача.

Имеются HTML-файлы с текстами статей. В некоторых статьях имеются картинки. Некоторые картинки имеют подписи вида "Рис. N. Бла-бла-бла". Необходимо эти подписи поместить в атрибут ALT тегов IMG соответствующих картинок.

Пример исходного HTML-кода:
<p><img id="image07.png" src="images/image001.png"></p>
<p>Рис. 1. Классификация проектов</p>

После обработки должно быть:
<p><img id="image07.png" src="images/image001.png" alt="Классификация проектов"></p>
<p>Рис. 1. Классификация проектов</p>

Нужно учесть все возможные сложности, например:
* Между картинкой и подписью может быть пустой абзац, символы   и прочий мусор
* Может быть написано не Рис. 1, а Рис1, Рис.1, Рисунок 1
* У тега IMG может уже иметься тег ALT, тогда нужно его перезаписывать
* У картинки может вообще не быть подписи, тогда тег ALT подставлять не нужно

Может быть один из вариантов:
1. Функция на PHP, которая будет обрабатывать файлы на лету (т.е. при каждой загрузке статьи на сайте) – принимать ссылку на HTML-файл, выводить строку с обработанным файлом.
2. Если на лету обрабатывать будет неэффективно, то нужна штука для пакетной обработки файлов в указанном каталоге. В этом случае не обязательно PHP, подойдет любой инструмент.</p>
Опубликован 02.04.2015 в 10:51 Последнее изменение: 02.04.2015 в 10:52
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.