Бюджет:
4 000 руб
При помощи pandas из БД забираю таблицу со столбцами (номер аккунта/дата) за определённый временной период (к примеру месяц)
Таблица большая от 2 до 10 миллионов строк.
Необходимо написать скрипт на Python обрабатывающий данную таблицу и на выходе выдающий в excel файл массив в формате: номер/количество его повторов (сколько раз он встречается в таблице в соответствии с заданными критериями).
Критерии:
Для каждого уникального аккаунта необходимо подсчитать количество записей в ранее установленный промежуток времени,
а также количество записей за пределами данного временного промежутка, если от последней записи до новой прошёл промежуток менее 7 дней (аналогично и в другую сторону раньше первой записи, есть другая в промежутке 7 дней)
То есть для каждой последней строки по конкретному аккаунту, для столбца со временем записи нужно увеличивать интервал "create_date = create_date + 7", до тех пор, пока записи по данному аккаунту не будут найдены.
Также для каждой первой строки по конкретному аккаунту, для столбца со временем записи нужно увеличивать интервал "create_date = create_date 7", до тех пор, пока записи по данному аккаунту не будут найдены.
И в итоге подсчитать количество записей.
На выходе должна получиться таблица с двумя столбцами:
номер аккаунта, количество записей.
Дополнительно, нужно объяснить логику запроса.
Также, по возможности, нужно максимально сократить трудозатратность вычислений скрипта, так как предполагается, что он будет обрабатывать большие массивы данных.