Вторая программа дописывается, поэтому подробное описание позже...
Вкратце:
Парсинг данных с html файлов
Получение и парсинг данных с Post запросов
Использование Proxy серверов
Многопоточность (+алгоритмы распределения proxy серверов потокам, в случае отказа работы одного из proxy)
Генерация таблиц/схем статистики