Было написано несчетное количество больших объемов данных с использованием: - PHP, phpQuery, SimpleXML, ...; - Ruby, nokogiri, poltergeist, ...; Парсеры собирали в итоге макс. до 10Гб и обходили около 10 млн. страниц. Впечатления от проекта ... лучше не куда. Не каждый день стоит задача обойти защиту от ботов в нескольких всемирно известных сервисах.