Заказчик

На сайте 6 лет и 7 месяцев (заходил 6 лет 5 месяцев 24 дня назад)

+ 1 - 0

168.87

Рейтинг

168.87

Безопасные сделки

Отзывы

+ 1 - 0

Редактирование бюджета

по договорённости

Сохранить или закрыть без изменений

Все (2) Заказы (2) Вакансии (0) Конкурсы (0)

Разместить заказ

22 Декабря 2019

Бюджет: 2 000

1 предложение

Задание в R

Добрый день!
Необходимо выполнить задание, связанное с языком R и только средствами данного языка. Дедлайн до 23:59 23 декабря по МСК.

"Данные для домашней работы: maslinsky.spb.ru/courses/...

Этот набор данных представляет собой подборку из десяти школьных задачников по математике, изданных в советский период. Численные примеры и пояснения удалены из текстов, основное содержание и главный предмет для анализа составляют текстовые задачи.

Коллекцию можно (хроно)логически разделить на две части: довоенную (1920е-1930е) и послевоенную (1950е-1980е).

Задания:

Составьте частотные списки слов по довоенной и послевоенной частям коллекции (по лемматизированным tsv-файлам). Частотность каких слов в наибольшей степени различается между довоенной и послевоенной частями коллекции? Приведите список таких слов (не более 30), с указанием численных различий в их частотности. (*)Используйте отношение правдоподобия (Dunning G^2) для выявления слов с наиболее значимыми различиями в частотности в двух частях коллекции. Отличается ли этот список от списка, полученного прямым сравнением относительных частотностей? В чем заключаются отличия двух списков?

Проведите кластеризацию текстов задачников с помощью пакета stylo. Можно ли подобрать параметры выбора частотной лексики, на основании которой выполняется кластеризация, таким образом чтобы довоенные и послевоенные части коллекции оказались максимально разделены? Укажите, при каких параметрах достигается наилучшее разделение, приведите график иерархической кластеризации (дерево) и кратко прокомментируйте лексический состав списка признаков (features), использованных при кластеризации – какого рода лексика оказалась наиболее информативной?

Выберите случайным образом по 100 задач из разных учебников довоенной и послевоенной частей коллекции и сформируйте из них тестовую выборку (secondary_set). Остальные задачи формируют обучающую выборку – primary_set (не забудьте удалить из нее те задачи, которые перенесены в тестовую выборку). Проведите классификацию текстов с помощью пакета stylo на два класса: довоенные и послевоенные. При каких параметрах выбора частотной лексики качество классификации (на тестовой выборке) достигает максимального значения? Укажите, при каких параметрах достигается наилучшее разделение, приведите получившееся значение точности классификации, кратко прокомментируйте лексический состав списка признаков (features), использованных при классификации – какого рода лексика оказалась наиболее информативной?

Форма представления задания: одним файлом, в который включены все результаты и комментарии по текстам, а также изображения. Код, написанный в ходе решения задания, следует включить в конце файла в качестве приложения."

Прошло времени с момента публикации: 6 лет 5 месяцев 24 дня 7 часов 21 минута
Раздел: Программирование / Базы данных

08 Ноября 2019

Бюджет: 4 000

2 предложения

Выполнить задание в R

Добрый день!

Необходимо выполнить университетское задание, связанное с языком программирования R.
Для знающих язык задание вроде как не сложное:)
Итак, что нужно сделать:

1. Высылаемый массив (kouprianov.students.extra.20191017.txt) данных надо аккуратно соединить с имеющимися данными из других файлов (Doc.txt, doc1.txt)

2. На основании этих данных необходимо построить стандартный набор графиков и продемонстрировать способность использовать адекватные методы формального анализа.

Минимальный набор графиков должен включать следующие элементы:

(1) Графики, описывающие одну переменную: как минимум, одна гистограмма и одна столбчатая диаграмма.

(2) Графики, отражающие взаимодействие двух переменных: по крайней мере один график каждого типа: (2.1) диаграмма рассеяния, (2.2) графики временных рядов для (a) абсолютных и (b) относительных значений изменяющегося параметра, (2.4) множественный boxplot, (2.5) диаграмма рассеяния с "размывкой" (jitter), (2.6) мозаика или структурированная столбчатая диаграмма. Данные для 2.2 необходимо добыть самостоятельно или воспользоваться данными из прилагаемого файла (abo-helsingfors.tutorial.txt)

(3) Специальные графики: сетевой граф и карту с отображением количественной информации на основе агрегированных или неагрегированных данных.

Для построения сетевого графа можно использоват данные из файла abo-helsingfors.tutorial.txt или собственный массив данных. Данные для построения карты могут быть взяты, например, из материалов "Первой всеобщей переписи населения Российской империи 1897 года", shapefiles – из набора shapefiles электронного атласа Marx.1905. Можно воспользоваться своими данными и картами.

Все графики должны быть представлены в двух версиях: (1) для академического журнала (черно-белое, векторное (PDF) или растровое изображение необходимого размера), (2) для экранной презентации (разумным образом расцвеченное [возможно, и даже иногда желательно, использование цветного фона] растровое изображение необходимого размера). Графики должны сопровождаться массивом данных (не требуется, если массив предоставлен преподавателем) и скриптом, который должен включать все необходимые преобразования исходных данных и команды печати.

Безупречный набор иллюстраций, основанный на тренировочных массивах данных оценивается на 10 баллов. Несовершенства снижают оценку сообразно тому, насколько грубые ошибки были допущены. Скрипт должен быть готов к исполнению в пакетном режиме при условии, что массив данных и скрипт находятся в одной и той же папке, графика и текстовые элементы должны легко читаться, тип графика – соответствовать типу визуализируемых данных и характеру изображаемых связей.

Минимальный набор методов формального анализа включает: (1) сравнение двух и более выборок параметрическими или непараметрическими методами (включая post-hoc анализ при необходимости), (2) линейную регрессию, (4) анализ таблиц сопряженности.

Прошло времени с момента публикации: 6 лет 7 месяцев 7 дней 10 часов 12 минут
Раздел: Программирование / Базы данных