Решить задачу с помощью Java-программы на MapReduce

Откликнуться
a
Заказчик
Отзывы фрилансеров: + 1 - 0
Зарегистрирован на сайте 7 лет и 3 месяца
Бюджет: 2 000 руб
25.72 $ — 22.18 €
Найти самых лучших специалистов по Hadoop в России на Stackoverflow и записать суммарное время обработки данных

«Лучшими» специалистами можно считать пользователей с наибольшим рейтингом (Score). В простейшем варианте, можно использовать рейтинг самого пользователя (из Users.xml) и смотреть есть ли у него ответы на вопросы с тегами "Hadoop". Но туда могут попасть пользователи которые, например, хорошо отвечали на множество вопросов по Java, а на Hadoop ответили только на 1 вопрос. Более честный вариант был бы только тот, который учитывал рейтинг ответов по тегу "Hadoop".
Поле Location в users – текстовое поле со свободным вводом любого текста. Поэтому, для определения того, находится ли пользователь в России, придется провести анализ данных поля Location и определять это по наличию подстрок "Russia", "Moscow", "Russian Federation" и др. Для этого можно вывести список уникальных Location, отсортированный по сумме рейтингов и просмотреть глазами верхние N строк, которые покрывают большую часть кандидатов.

Предлагаемые шаги
1. Просмотреть исходные структуры данных, пути где они лежат и выписать используемые атрибуты. Просмотреть примеры значений исходных атрибутов, для того, чтобы оценить качество данных и необходимость их очистки или преобразования (trim(), toLowerCase()).
2. Составить на бумаге план выполнения задачи в простых шагах (группировка, сортировка, join)
Разделы:
Опубликован:
19.06.2019 | 10:39
Откликнуться

Выберите способ верификации:

Обновите страницу после прохождения верификации.

Посмотреть другие заказы Разместить заказ

Теги: нужен программист, ищу программиста, резюме программиста, требуется база данных

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».