Бюджет:
2 000 руб
Найти самых лучших специалистов по Hadoop в России на Stackoverflow и записать суммарное время обработки данных
«Лучшими» специалистами можно считать пользователей с наибольшим рейтингом (Score). В простейшем варианте, можно использовать рейтинг самого пользователя (из Users.xml) и смотреть есть ли у него ответы на вопросы с тегами "Hadoop". Но туда могут попасть пользователи которые, например, хорошо отвечали на множество вопросов по Java, а на Hadoop ответили только на 1 вопрос. Более честный вариант был бы только тот, который учитывал рейтинг ответов по тегу "Hadoop".
Поле Location в users текстовое поле со свободным вводом любого текста. Поэтому, для определения того, находится ли пользователь в России, придется провести анализ данных поля Location и определять это по наличию подстрок "Russia", "Moscow", "Russian Federation" и др. Для этого можно вывести список уникальных Location, отсортированный по сумме рейтингов и просмотреть глазами верхние N строк, которые покрывают большую часть кандидатов.
Предлагаемые шаги
1. Просмотреть исходные структуры данных, пути где они лежат и выписать используемые атрибуты. Просмотреть примеры значений исходных атрибутов, для того, чтобы оценить качество данных и необходимость их очистки или преобразования (trim(), toLowerCase()).
2. Составить на бумаге план выполнения задачи в простых шагах (группировка, сортировка, join)