Основной проблемой поиска в интернете по заданной статье является время, затраченное пользователем на обработку результатов поиска. Облегчить рутинную работу отбора смогла бы система, которая будет решать задачи поиска информации, отбирать нужные материалы и выводить их пользователю в структурированном виде в автоматическом режиме. Таким образом, пользуясь подобной системой, пользователь уменьшает время отбора текстов и увеличивает время для решения непосредственно своих задач. Была поставлена задача: разработать систему отбора статей в Интернете. Система обладает следующими функциями:
1. Автоматизированный поиск в поисковой системе
2. Автоматизированная загрузка текстов из сети
3. Автоматизированный анализ ключевых слов в статье
4. Сравнение статей на релевантность
5. Визуальное представление результатов работы программы для пользователя
В результате была спроектирована, реализована и протестирована система, выключающая в себя следующие модули:
1. Модуль для работы с поисковой системой Яндекс
2. Модуль работы со статьей и содержимым веб сайтов:
Алгоритмы для анализа html кода, и прочих видов индексируемых в поисковых системах данных.
3. Модуль поиска ключевых слов в статье
Алгоритмы статистической обработки текста, базирующиеся на правиле Ципфа
4. Модуль сравнения статей по найденным ключевым словам:
Алгоритм векторного распознавания релевантности статей
5. Визуальный интерфейс для работы пользователя с программой