Доброго дня, необходимо реализовать функционал для ускорения работ по поиску страниц канибалов.
Что нужно сделать:
1) Реализовать функцию которая сможет составить список частотности биграм и триграм. Подробнее про данную функцию
habr.com/ru/post/312490/ Данные на вход:
- Переменная с текстом.
- Флаг в каком режиме нужны данные (1 биграммы 2 триграммы 0 частотный словарь по отдельным словам)
На выходе:
Массив слов или биграмов (В зависимости от флага который передан) с сортировкой от самого частотного до менее частотного. в формате Вхождение : частота
Дополнительно: учитывать минус слова указанные в отдельном массиве, (например указанные в файле в формате построчно) т.е вхождения которые указаны в этом файле не должны участвовать в расчете.
2. Необходимо реализовать выборку из массива текстов общие слова в каждом тексте по модели LSI.
Пример: на вход поступает 10 текстов одной тематики нужно построить матрицу для каждого текста с вхождением каждого слова и поиск наиболее связанных слов.
подробнее
habr.com/ru/post/110078/ На вход:
- Флаг в процентах по связанности (например что нас интересуют слова которые имеют связь 90% то есть имеются в 9 текстах из 10)
- Массив текстов
На выходе:
Список общих слов с сортировкой от самой сильной связанности к самой не сильно связанной, в формате Слово : процент связанности.
Реализация:
Реализовать необходимо на C# в формате функции.