image
Основной проблемой поиска в интернете по заданной статье является время, затраченное пользователем на обработку результатов поиска. Облегчить рутинную работу отбора смогла бы система, которая будет решать задачи поиска информации, отбирать нужные материалы и выводить их пользователю в структурированном виде в автоматическом режиме. Таким образом, пользуясь подобной системой, пользователь уменьшает время отбора текстов и увеличивает время для решения непосредственно своих задач. Была поставлена задача: разработать систему отбора статей в Интернете. Система обладает следующими функциями: 1. Автоматизированный поиск в поисковой системе 2. Автоматизированная загрузка текстов из сети 3. Автоматизированный анализ ключевых слов в статье 4. Сравнение статей на релевантность 5. Визуальное представление результатов работы программы для пользователя В результате была спроектирована, реализована и протестирована система, выключающая в себя следующие модули: 1. Модуль для работы с поисковой системой Яндекс 2. Модуль работы со статьей и содержимым веб сайтов: Алгоритмы для анализа html кода, и прочих видов индексируемых в поисковых системах данных. 3. Модуль поиска ключевых слов в статье Алгоритмы статистической обработки текста, базирующиеся на правиле Ципфа 4. Модуль сравнения статей по найденным ключевым словам: Алгоритм векторного распознавания релевантности статей 5. Визуальный интерфейс для работы пользователя с программой