Часть 1.
В папке "письма" находится набор писем, нужно разложить их по 2м папкам "спам" и "не спам".
Обязательно нужно создать файл с обоснованием почему то или иное письмо спам или не спам.
Часть 2.
I. В папке "рассылки" собраны две рассылки.
1) Разложите их на две папки (хочется увидеть список команд на bash)
2) Предложите диапазон размеров файлов, который хорошо описывает каждую из этих рассылок.
3) Воспользовавшись вызовами команды grep с ключами, выведите:
a) список тем (subject) писем.
б) список урлов в формате:
tracking.msadcenter.msn.c... www.rolex.com.gripfork.co... www.rolex.com/images/emai... Без имён файлов и лишнего текста вокруг
4) Напишите регулярные выражения по темам (Subject) этих писем. Эти регулярные выражения должны матчить тему полностью (начинаться с ^ и заканчиваться $).
Внимание!
При проверке этого задания, в папку с маймами будут добавлены дополнительные файлы из этих рассылок, которых НЕТ в присланном вам архиве.
II. Разобраться в синтаксисе и упростить регулярки
Мы работаем с детекцией строк. Т.е. нам важно, сработала регулярка или нет.
Например строку Buy Viagra можно задетектировать любой из регулярок:
a. Buy Viagra
b. (Now and always )?Buy Viagra
c. Buy [V]ia(?:g)ra
d. .*Buy Viagra.*
e. Buy Viagra(Pi == 3.1415)?
Но самым простым и хорошим является вариант a.
Перепишите(упростите) следующие выражения, так, чтобы:
Они срабатывали на всём, что ловит оригинальная регулярка, и не детектировали ничего, чего не детектирует оригинальная регулярка.
1) (Are you )?[Ll]ooking for a (soulmate|bride|wife|girlfriend)?\? Maybe I'm the (?:woman|lady|girl) that (?:interest you|will be of interest to you)?
2) ^[^\W\D]{1,3}_days_of_static/(\w+)|(\w+/\w+)$
3) ([\w\d]+\.){1,3}narod\.ru/index\.(exe|scr)?$