Бюджет:
20 000 руб
Требуется написание парсера-шпиона instagam подписчиков + быстрая фильтрация подписчиков по стоп-вайт листам
1.Работа парсера осуществляется через готовые инстаграм аккаунты, следовательно первостепенно требуется научить парсер аккуратно работать аккаунтами , так как из-за большого количества запросов они могут быстро баниться.
2.При старте работы программы мы имеем список доноров(блогеры за которыми мы будем шпионить и собирать их новых подписчиков) аккаунты должны мониторить их подписчиков , и собирать никнеймы или айди новых подписчиков , которые подписались на них в течении минуты.
а)В списках блогеров будут и закрытые блоги , следовательно некоторые аккаунты должны подписаться на наих , дождаться подтвержения подписки ,а после уже мониторить их новых подписчиков
б) Аккаунты instagram которые мониторят или собирают для нас новых подписчиков работают через ipv6 прокси
3.Собранные подписчки(В никнэймах или айди) мы пргоняем через фильтрацию
а)Фильтрация проводится по:
- стоп словам(которые не должны содержаться в графах Имя аккаунта Описание аккаунта).Стоп слова это имена и слова которые никак не подходят для нас в выделении целевой аудитории , они укомплектованны в ТХТ документ.
По большей части это арабские, турецкие иперсидские имена
- Вайт словам (которые должны содержаться в графах Имя аккаунта Описание аккаунта)Вайт слова это имена и слова которые подходят для нас, они укомплектованны в отдельный ТХТ документ.Вайт слова это европейские имена , нас интересует , чтобы программа смогла находить их в имени аккаунты(не путать с никнеймом!) и описании аккаунта
Условное моделирование
Наш парсер делает обновление списка новых подписчиков по всем имеющимся донорам,
условно за 1 минуту на наших доноров подписалось 5 человек
парсер сохраняет их в тхт документ.
На 5 собранных аккаунтов он определяет что
3 аккаунта содержат:
EDIZ
EMN
EMRE
вот эти имена в описании или в имени профиля
а 2 аккаунта:
содержат
CHARLES
CHARLEY
Следовательно , 3 аккаунта верхних , удаляются из списка а остаются только:
CHARLES
CHARLEY
Обновление и фильтрация происходит с интервалом в 1 минуту
то есть за 1 минуту наш парсер
а)собирает новых подписчиков
б)Фильтрует их, выцепляя тех кто нам нужен
в)Сохраняет их в тхт документ