Заказчик
Заказчик serviceparse | FL.RU

Заказчик

На сайте 10 лет и 7 месяцев (заходил 10 лет 7 месяцев 9 дней назад)
0
1
Рейтинг
1
Все (1)       Заказы (1)        Вакансии (0)       Конкурсы (0)
Разместить заказ
24 Июля 2014
По договоренности
Требуется написать парсер web-сайтов.

Тематика сайтов: перечень услуг организаций.

Тип данных: список услуг, предложений с описанием и ценами.

Парсер должен работать согласно правилам, т.е. вся логика (путь к странице, CSS, XPath, Ajax) указывается в правиле. Для каждого сайта должны быть свои правила. Для одного сайта может быть несколько правил: для разных языков сайта, для разных филиалов и отделений и т.д.

Данные могут быть разных типов:
1. Текст
2. HTML текст (вместе с тегами)
3. Файл (документ, изображение, swf файл)
4. Некоторые данные могут приходить через Ajax в формате Json или Html
Парсер может работать постоянно и проверять сайты согласно правилу. Если изменения, по сравнению с предыдущим проходом есть, то собирать всю информацию. Если изменений в данных нет, то пропускать сайт и проходить к следующему.
Изменения могут быть как текстовых данных, так и в картинках. В этом случае надо как-то отличать файлы.

Требуется выбирать следующие данные со страниц сайтов (если они есть):
1. Название организации,
2. Описание организации,
3. Адреса (юридический, почтовый, фактический) организации (если есть, то карта и координаты),
4. Логотип и фотографии организации,
5. Контактные данные (телефоны, emails, skype и т.д.),
6. Список услуг с ценами.
Необходимые данные для каждой услуги:
a. Название,
b. Описание,
c. Дополнительное описание (тут может быть состав или перечень),
d. Фотографии услуги (если есть),
e. Количество единиц (если есть, тут может быть время, количество),
f. Цена
g. Категория (если есть)
h. Подкатегория (если есть)
i. Тип (задается вручную)
Полученные данные для каждого заведения необходимо складывать в базу данных (MS SQL), а файлы в определенную папку на диске (или cdn). Перечень необходимых данных вышлю в полном ТЗ.

Некоторые данные берутся не с сайта. В этом случае они либо заполняются автоматически (например, дата разбора, версия), либо задаются статично в правиле. Например, название организации – если оно указано картинкой на сайте. Эти данные затем просто перекидываем в результирующие данные.

Каждая услуга может относиться к какой-то категории или типу. Это определяется автоматически (берутся данные с сайта) или настраивается в правиле. Например, перебираются услуги автомойки и шиномонтажа. В данном случае автомойка и шиномонтаж – это категории. Услуги для категорий могут находиться на сайте по разным url или наоборот будут находиться все на одной странице. Это необходимо учесть при написании парсера.
Необходимо учесть, что если название категории берется из какого-то конкретного места (например, заголовок раздела на странице), то он должен добавляться всем услугам, которые относятся к данной категории.
Внимание, повторюсь, что данные могут быть представлены быть не только текстом, но и картинками, так же они могут подгружаться на страницы через Ajax. С такими данными парсер так же должен уметь работать. Тип данных задается в правиле.

Данные могут быть на сайте как в постраничном отображении, так и полностью на одной странице.
Парсер должен будет состоять из 2-х частей:
1. Редактор правил. Web-приложение, которое написано на ASP.Net MVC на C#.
2. Сервис парсера. Консольное приложение, написанное на C#.
Более детальное описание требований и проекта предоставляю тем, кто выполнит небольшое тестовое задание.
С выбранным кандидатом возможно постоянно сотрудничество в будущем.

Тестовое задание перед тем, как взяться за работу.
Задание не сложное и не долгое, но по нему, мне будет видно, насколько вы готовы к работе со мной. Без выполнения тестового задания ваши заявки не обсуждаются и сразу идут в отказ. Для работы требуются внимательные и ответственные исполнители, поэтому если вы не дочитали весь текст задания и тестовое задание выполнено не будет, то значит вы невнимательные. И нам с вами не по пути.
Подготовьте небольшое описание структуры одного правила для работы с сайтом парсера на примере любого сайта, который удовлетворяет структуре данных, описанной выше. Можно даже схемкой или картинкой. Я уверен, что это займет не больше 10-20 минут вашего времени.
Мне хотелось бы посмотреть насколько понятным будет у вас правило и все ли оно учитывает.

Так же мне от вас нужна стоимость работы, и срок ее реализации.

Условия работы и оплата
Оплата производится в 3 этапа:
1. Этап оплачивается, когда вы покажете первую версию работающего парсера (изучаем баги и тестируем).
2. Этап оплачивается, когда версия полностью готова и у меня нет к ней претензий (буду проверять по определенным сайтам, список предоставлю в ТЗ).
3. Этап оплачивается, когда вы передадите мне все исходники (загрузка в мой TFS и проверка работоспособности).

Прошло времени с момента публикации: 10 лет 7 месяцев 10 дней 3 часа 7 минут
Раздел: Программирование / Базы данных
Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».