Александра Бужкевич [Aleksandra_spb]

Aleksandra_spb

Александра Бужкевич [Aleksandra_spb]

На сайте 8 лет и 9 месяцев (заходила 5 лет 4 месяца назад)
+ 0  0  - 0
0
142
Рейтинг142
142
Отзывы+ 0  0  - 0
+ 0  0  - 0
Все (2)       Заказы (2)        Вакансии (0)       Конкурсы (0)
Разместить заказ
05 Октября 2016
По договоренности
Удаленная работа для специалиста по парсингу.
Специализация – рынок недвижимости (объявления по продаже и аренде).

Сайты и регионы самые разные.
magazan.ru/
cian.ru/
realty.dmir.ru/
office.realty-guide.ru/
bcinform.ru/
torgi.gov.ru/
www.domofond.ru/
сайты девелоперских проектов, агентств недвижимости и прочие небольшие

Плановая работа – 1 выгрузка, которая выполняется в последних числах каждого месяца.
Плюс может быть еще 1,2 заявки.

Задачу, как правило, ставлю заранее (за неделю или две до дедлайна).
В основном задачи стандартные, требуют только внимательности и ответственного подхода, исключающего ошибки.
Иногда от Вас может потребоваться применение нестандартных решений.

Примерный перечень скачиваемых данных из объявлений во вложении.
В зависимости от поставленной задачи может меняться.

В дальнейшем заявок на парсинг может быть значительно больше.

В отклике укажите, имеете ли опыт подобной работы, какой?
Цена договорная.

Прошло времени с момента публикации: 5 лет 7 месяцев 15 дней 8 часов 50 минут
Раздел: Программирование

27 Апреля 2016
По договоренности
Необходимо написать макросы или программы для обработки данных.
Таблица содержит данные о предложениях на рынке недвижимости (по аренде / продаже различных объектов недвижимости).
В ходе обработки сталкиваемся со следующими сложностями:

1. некорректное удаление дублей средствами Excel, а именно: Excel не видит в качестве дублей ячейки, отличающиеся хоть на один пробел. Зачастую бывает так, что описание отличается незначительно (дописали какое-то слово), площадь одинаковая, и по факту это дубли… Бывает, что описание совпадает, а площадь отличается на 1 кв.м или десятые… Excel не видит это в качестве дубля.
А бывает так: описание на 90% совпадает, но площадь явно разная – это не дубли. Нам приходится все это вычитывать.
Я вижу такой вариант решения проблемы – вводить условие (совпадение по столбцу "описание объекта" на 80% / отличие на 20%). По площади указывать диапазоны, например, +/- до 0,5 кв.м считать дублем.

2. Работа с запросами (фильтр по столбцу "описание объекта")
Сейчас используем условное форматирование или текстовые фильтры. Нужен более эффективный инструмент, позволяющий вводить множество условий.

Например, нужно вытащить из всего объема предложений только те объекты, которые расположены на цокольном этаже. Не на первом + цоколь, не в здании с цоколем, а только на цокольном этаже.
Текстовый фильтр Excel позволяет использовать оператор и / или. Например, я ввожу условие: не содержит "первый" и не содержит "здание". Но я не могу добавить множество условий: "и цоколь", "первого" и т. д.

Вот список (не полный перечень), тех слов или словосочетаний, при наличии которых в описании, я строку (предложение) оставляю.

знак плюс (+)
и подвал
2 этажа
1 этаж
1 эт.
2 эт.
с подвалом
здании
с полуподвалом
и подвальное
есть возможность покупки дополнительно подвального помещения
возможна покупка подвала
3 уровня
2 уровня
без подвала
два этажа
первый этаж
на 1 этаже
Возможна аренда подвального помещения
Имеется подвал

Вместо текстовых фильтров для множества условий я использовала "условное форматирование": сперва красным, например, выделяла те предложения, которые содержат "цоколь", а затем другими цветами проходилась по списку выше…

Аналогичная задача была по подвалам, первым этажам жилых домов и другим запросам с различными условиями!
Cписок регулярных выражений могу показать.

Нужна форма, в которой я самостоятельно смогу писать регулярные выражения, используя различные операторы (и / или / не …)

3. Поиск данных в описании (вытащить адрес, например)

В рамках ТЗ нам, например, необходимо сделать разбивку цен по районам Москвы.
При это далеко не во всех предложениях указан адрес в соответствующем столбце, хотя он есть в самом описании. Что тоже не всегда, но, тем не менее, таких много.
Вытаскивать их вручную, просматривая, очень трудозатратно и приводит к ошибкам.

Я вижу следующее решение:
Искать в описании ключевые слова, например, ул. / улица / проезд и вытаскивать в отдельный столбец некоторое количество символов, расположенных слева и справа от ключевого слова.

Аналогично может быть нужно вытащить площадь, этаж расположения... (то, что есть в описании, но по каким-то причинам не попало в предусмотренный для этого столбец при выгрузке…)

Примеры во вложении.

Важно, чтобы все, что отфильтровывается, не удалялось совсем, а сохранялось в отдельный файл, например.

Прошло времени с момента публикации: 6 лет 23 дня 14 часов 25 минут
Раздел: Программирование / Базы данных

Рейтинг: 1206.4 Исполнитель определен: