Заказ закрыт
data collection & preprocessing

Бюджет: 1 300 руб
15.87 $ – 13.96 €
ВАЖНО: CSV НА АНГЛ 

Мне нужны реальные данные со Spotify, НО не обязательно через API — можно использовать любой публичный Spotify dataset (Kaggle, Spotify Million Playlist Dataset, Spotify Tracks dataset, Spotify dumps и т.п.).

Главное — это должны быть Spotify-треки, Spotify-метаданные и взаимодействия пользователей с треками.



ОСНОВНАЯ ЦЕЛЬ

Создать два чистых CSV-файла:
• ratings.csv
• items.csv

Они должны быть идеально связаны между собой (item_id совпадает)
и быть готовыми для SVD + K-means (K-means для объявления k).



1. ratings.csv (ДАННЫЕ ПОЛЬЗОВАТЕЛЬ–ТРЕК)

Обязательные поля:

Поле Описание
user_id уникальный ID пользователя
item_id (track_id) ID трека (совпадает с items.csv)
rating любая числовая оценка взаимодействия обычно =1

Про rating:

Может быть:
• количество прослушиваний (playcount)
• implicit оценка (1–5)
• like/dislike, преобразованное в число
• или популярность взаимодействия

Главное: число, которое можно использовать в SVD.

Минимальные требования:
• 20 000 уникальных пользователей
• у каждого пользователя ≥ 20 взаимодействий
минимум ~200k строк (можно больше)
все item_id должны существовать в items.csv



2. items.csv (ДАННЫЕ О ТРЕКАХ СО СПОТИФАЯ)

Это обязательно Spotify-треки, не рандом.

Обязательные поля:

Поле Описание
item_id (track_id) ID трека → должен совпадать с ratings.csv
track_name название трека
artist_name исполнитель

Требуемые дополнительные поля (обязательны):

Поле Описание
genre жанр трека
duration_ms длительность в миллисекундах
popularity популярность трека (если поле доступно)*

Популярность — это стандартное поле во многих Spotify датасетах (0–100).
Если dataset не содержит popularity → укажи ближайший аналог, типа playcount/popularity_score.

Минимальное требование:
• минимум 40 000–80 000 треков
• все поля заполнены
• без Unknown Artist
• без пустых item_id
• все item_id встречаются в ratings.csv



3. Источник данных

ДАННЫЕ ДОЛЖНЫ БЫТЬ СО СПОТИФАЯ.

Можно использовать:
• Spotify Million Playlist Dataset
• Spotify Tracks dataset on Kaggle
• Spotify “Audio Features + Metadata” dataset
• Spotify streaming history datasets
• и любые другие Spotify-based наборы данных



4. Формат результата

Фрилансер должен предоставить:

1. ratings.csv

Пример:

user_id,item_id,rating
u123,54sgd3,5
u123,88sd99,3
u998,54sgd3,4



2. items.csv

Пример:

item_id,track_name,artist_name,genre,duration_ms,popularity
54sgd3,"Blinding Lights","The Weeknd","pop",200880,95
88sd99,"IDGAF","Dua Lipa","pop",210500,88



3. README
• какой Spotify dataset использован
• как отбирались users
• как формировался rating
• как чистились данные


5. Для чего это нужно

Для проекта по рекомендательным системам:
• SVD (Surprise library)
• K-Means clustering → Elbow Method → выбор k
• оценка RMSE
• оценка NDCG@K

Данные должны быть 100% готовыми для ML/RecSys анализа
Опубликован 26.11.2025 в 17:04
Заказ находится в архиве

Выберите способ верификации:

Обновите страницу после прохождения верификации.