Добрый день!
Необходимо выполнить задание, связанное с языком R и только средствами данного языка. Дедлайн до 23:59 23 декабря по МСК.
"Данные для домашней работы:
Этот набор данных представляет собой подборку из десяти школьных задачников по математике, изданных в советский период. Численные примеры и пояснения удалены из текстов, основное содержание и главный предмет для анализа составляют текстовые задачи.
Коллекцию можно (хроно)логически разделить на две части: довоенную (1920е-1930е) и послевоенную (1950е-1980е).
Задания:
Составьте частотные списки слов по довоенной и послевоенной частям коллекции (по лемматизированным tsv-файлам). Частотность каких слов в наибольшей степени различается между довоенной и послевоенной частями коллекции? Приведите список таких слов (не более 30), с указанием численных различий в их частотности. (*)Используйте отношение правдоподобия (Dunning G^2) для выявления слов с наиболее значимыми различиями в частотности в двух частях коллекции. Отличается ли этот список от списка, полученного прямым сравнением относительных частотностей? В чем заключаются отличия двух списков?
Проведите кластеризацию текстов задачников с помощью пакета stylo. Можно ли подобрать параметры выбора частотной лексики, на основании которой выполняется кластеризация, таким образом чтобы довоенные и послевоенные части коллекции оказались максимально разделены? Укажите, при каких параметрах достигается наилучшее разделение, приведите график иерархической кластеризации (дерево) и кратко прокомментируйте лексический состав списка признаков (features), использованных при кластеризации какого рода лексика оказалась наиболее информативной?
Выберите случайным образом по 100 задач из разных учебников довоенной и послевоенной частей коллекции и сформируйте из них тестовую выборку (secondary_set). Остальные задачи формируют обучающую выборку primary_set (не забудьте удалить из нее те задачи, которые перенесены в тестовую выборку). Проведите классификацию текстов с помощью пакета stylo на два класса: довоенные и послевоенные. При каких параметрах выбора частотной лексики качество классификации (на тестовой выборке) достигает максимального значения? Укажите, при каких параметрах достигается наилучшее разделение, приведите получившееся значение точности классификации, кратко прокомментируйте лексический состав списка признаков (features), использованных при классификации какого рода лексика оказалась наиболее информативной?
Форма представления задания: одним файлом, в который включены все результаты и комментарии по текстам, а также изображения. Код, написанный в ходе решения задания, следует включить в конце файла в качестве приложения."