имеется скрипт реализующий некоторый нужный функционал. на основе его думаю проще будет делать.
мне нужен следующий функционал.
- копирование на диск html страниц сайта из кэша с обрезанием шапки гугла(pdf, doc наверно не получится из кэша доставать, но было бы не плохо). проще говоря нужно пропарсить запрос к гуглу site:domain.com . обрезание шапки означает: если нажать на cache в выдаче гугла по мимо кэшированной страницы вверху будет блок с доп информацией от гугла вот это надо удалять.
- составление ассоциативного массива url => local_file_name( напримерпример "/index.php?u=dfvsuhgkjhg"=>"/papka1/1.html"
local_file_name имя файла на локальном диске
url реальный url страницы из кэша.
- создание файла .htaccess на основе ассоциативного массива:
так что бы запрос domain.com/index.php?u=dfvsuhgkjhg
открывал файл domain.com/papka1/1.html
- ф файле .htaccess любые запросы основных типов картинок должны преобразовываться в domain.com/images/default.jpg(или png или другой тип в зависимости от типа запрашиваемой картинки) это нужно так как картинки из кэша гугла не достать.
- с помощью .htaccess предотвратить not found страницы. т.е. что б при запросе к любой не существующей странице выдавалась специальная страница domain.com/notfound.html но с кодом ответа 200.
- автоматической создание создание файла robots.txt и sitemap.xml для гугла.
говоря вообщем мне нужен скрипт, позволяющий автоматически доставать контент перекупленого домена из кэша гугла. и готовить полученый контент для разворачивания уже на своем хостинге.
скрипт рассчитан на запуск из консоли и вводные параметры задаются с помощью файла config.txt
Опубликован 07.02.2011 в 15:11