Алексей Михальский [adverto]
adverto
Алексей Михальский [adverto]
На сайте 14 лет и 1 месяц (заходил 7 дней 6 часов назад)
+ 35  0  - 0
0
1165
Рейтинг1165
1165
Отзывы+ 35  0  - 0
+ 35  0  - 0
Все (1)       Проекты (1)        Вакансии (0)       Конкурсы (0)
Опубликовать проект
20 Июля 2019
Бюджет: 1000 ₽
Приветствую.
1) Есть задача спарсить с форума (много страниц, структура простая – 1 ссылка +1 странички): темы (названия обсуждений) и (желательно) количество сообщений в каждой теме (количество сообщений уже выведено на страницах форума рядом с названиями тем).

2) Далее нужно придумать алгоритм: определяются наиболее часто повторяющиеся ключевые слова по всем темам (по корням слов с ?__?) , разложить все темы по группам по этим словам (допустим групп тем, содержащих "огур*" или "рыб*") – типа по категориям. Эти слова должны как-то автоматически получиться (если алгоритм придумать не получается – проще самому сделать это в екселе, или предложите другое решение)...

На выходе имеем кластеры (группы) тем по ключевым словам, рейтинг частотности (повторяемость ключевых слов в группах) тем. Также имеем рейтинг по длительности (количеству сообщений). Тем много – на одной странице форума – по 25 тем, страниц взять чем больше тем лучше (напишите ограничение).

ЖДУ ОТ ВАС: цену за п.1., предложения по цене или вариант реализации п.2., и сколько тем получится охватить.
Задачка скорее на хитрость, бюджет не большой (делаю для своего личного научного исследования).
Спасибо заранее.

Прошло времени с момента публикации: 1 месяц 2 дня 5 часов 51 минута
Раздел: Программирование / Веб-программирование