ВАЖНО: CSV НА АНГЛ
Мне нужны реальные данные со Spotify, НО не обязательно через API — можно использовать любой публичный Spotify dataset (Kaggle, Spotify Million Playlist Dataset, Spotify Tracks dataset, Spotify dumps и т.п.).
Главное — это должны быть Spotify-треки, Spotify-метаданные и взаимодействия пользователей с треками.
⸻
ОСНОВНАЯ ЦЕЛЬ
Создать два чистых CSV-файла:
• ratings.csv
• items.csv
Они должны быть идеально связаны между собой (item_id совпадает)
и быть готовыми для SVD + K-means (K-means для объявления k).
⸻
1. ratings.csv (ДАННЫЕ ПОЛЬЗОВАТЕЛЬ–ТРЕК)
Обязательные поля:
Поле Описание
user_id уникальный ID пользователя
item_id (track_id) ID трека (совпадает с items.csv)
rating любая числовая оценка взаимодействия обычно =1
Про rating:
Может быть:
• количество прослушиваний (playcount)
• implicit оценка (1–5)
• like/dislike, преобразованное в число
• или популярность взаимодействия
Главное: число, которое можно использовать в SVD.
Минимальные требования:
• 20 000 уникальных пользователей
• у каждого пользователя ≥ 20 взаимодействий
минимум ~200k строк (можно больше)
все item_id должны существовать в items.csv
⸻
2. items.csv (ДАННЫЕ О ТРЕКАХ СО СПОТИФАЯ)
Это обязательно Spotify-треки, не рандом.
Обязательные поля:
Поле Описание
item_id (track_id) ID трека → должен совпадать с ratings.csv
track_name название трека
artist_name исполнитель
Требуемые дополнительные поля (обязательны):
Поле Описание
genre жанр трека
duration_ms длительность в миллисекундах
popularity популярность трека (если поле доступно)*
Популярность — это стандартное поле во многих Spotify датасетах (0–100).
Если dataset не содержит popularity → укажи ближайший аналог, типа playcount/popularity_score.
Минимальное требование:
• минимум 40 000–80 000 треков
• все поля заполнены
• без Unknown Artist
• без пустых item_id
• все item_id встречаются в ratings.csv
⸻
3. Источник данных
ДАННЫЕ ДОЛЖНЫ БЫТЬ СО СПОТИФАЯ.
Можно использовать:
• Spotify Million Playlist Dataset
• Spotify Tracks dataset on Kaggle
• Spotify “Audio Features + Metadata” dataset
• Spotify streaming history datasets
• и любые другие Spotify-based наборы данных
⸻
4. Формат результата
Фрилансер должен предоставить:
1. ratings.csv
Пример:
user_id,item_id,rating
u123,54sgd3,5
u123,88sd99,3
u998,54sgd3,4
⸻
2. items.csv
Пример:
item_id,track_name,artist_name,genre,duration_ms,popularity
54sgd3,"Blinding Lights","The Weeknd","pop",200880,95
88sd99,"IDGAF","Dua Lipa","pop",210500,88
⸻
3. README
• какой Spotify dataset использован
• как отбирались users
• как формировался rating
• как чистились данные
⸻
5. Для чего это нужно
Для проекта по рекомендательным системам:
• SVD (Surprise library)
• K-Means clustering → Elbow Method → выбор k
• оценка RMSE
• оценка NDCG@K
Данные должны быть 100% готовыми для ML/RecSys анализа
Опубликован 26.11.2025 в 17:04
Заказ находится в архиве