В вк апи есть база
vk.com/dev/database Нужно полностью ее выкачать по всем методам в таблицы mysql
Грамотно построить связи в таблицах
Примеры ссылок:
Страны
api.vk.com/method/databas... Регионы
api.vk.com/method/databas... Города
api.vk.com/method/databas... Университет
api.vk.com/method/databas... Школа
api.vk.com/method/databas... Школьные классы
api.vk.com/method/databas... Факультеты
api.vk.com/method/databas... Список кафедр по факультету
api.vk.com/method/databas... Обратите внимание на параметр offset, он везде разный, иногда в ответе вмещается не все.
Сразу делаем элементарный просчет
В базе более 2000 000 городов, чтобы спарсить университеты нужно пробежаться по всем странам и по всем городам = в ответ вернется куча университетов , у каждого университета есть факультеты и кафедры
Не трудно догадаться что нужно отправить несколько десятков миллионов запросов чтобы получить результат.
Но еще труднее всего будет обработать ошибки, не должно так получится что глюканет связь и нескольких строк не будет в базе.
Однопоточный парсер на php будет работать минимум неделю и скорее всего даст сбой.
Так что задачка не простая...
От вас:
- язык на котором сможете написать парсер
- стоимость
- сроки
Программа должна уметь работать с несколькими потоками
Сохранять ссылки на неудавшиеся подключения чтобы второй раз их обработать (так же как в Filezilla при разрыве соединения можно докачать файлы)
Напрямую подключаться к MySQL
Отправлять запросы на вставку прямо из программы