Сравнение текстов на сходство: Портфолио фрилансера Александр Копытов 06.02.2010, работа №7 - FL.RU
К списку работ
Александр Копытов
Александр Копытов

Сравнение текстов на сходство

image
Алгоритм оценки схожести текстов с учетом русской морфологии и использованием векторов в многомерном пространстве. Метод позволяет с намного большей достоверностью оценить схожесть текстов, чем это делает шингл-алгоритм. Так тексты оцениваемые по шинглам со сходством в 30-50% оказывались на самом деле схожими на 90-95%. Алгоритм использует в работе довольно большую (свыше 100 мб) базу словоформ русского языка и тяжелые вычисления. Так поиск дубликатов 100000 документов на сайте статей выполнялся около недели с использованием 10 серверов. Анализ обнаруженного дублированного контента с привлечением человека показал, что статьи являются очень качественным рерайтом.