Сравнение выдачи поисковой системы по разным запросам.

Откликнуться
U
Заказчик
Отзывы фрилансеров: + 29 - 0
Зарегистрирован на сайте 12 лет и 6 месяцев
Бюджет: по договоренности
Сравнение выдачи поисковой системы по разным запросам.





Исходные данные:

1. Файл .tsv(с разделитеми табуляцией \t) с группами запросов для сравнения, каждая колонка соответствует отдельной группе. Первая строка в файле содержит названия групп запросов(колонок).





2. База данных sqlite с результатами парсинга поисковой системы по всем рассматриваемым запросам.

База данных обязательно содержит поля(может содержать еще другие поля, но их в рамках данной реализации мы не трогаем):

query – запрос, по которому парсилась поисковая выдача(часть из этих запросов будет в исходном .tsv файле).

position – позиция данного документа(url адреса) в поисковой выдаче по данному запросу. Позиция может лежать в диапазоне от 1 до 50(возможно после парсинга возникнут ошибки и для некоторых запросов выдача будет содержать не 50 url адресов).

url – url адрес находящийся в поисковой выдаче по данному запросу





Пароль на архив:

S4rP0C1mzAweR2n







Что нужно сделать:

Сравнить выдачу поисковых систем до задаваемой на вход позиции(рассматриваемый топ, по умолчанию топ 50) по разным группам запросов по указанным ниже алгоритмам сравнения. Сравнивать между собой нужно запросы находящиеся в одной строке .tsv файла с запросами, но в разных группах(столбцах).



Сравнивать нужно будет попарно каждую группу с каждой(на выходе будет сравнений = число сочетаний из числа групп по 2.). В паре сравнения группу с наибольшим номером(порядок столбцов) стоит сравнивать с группой с наименьшим номером

Алгоритмы сравнения выдачи по группам запросов(для 1-й строки):

1) Для каждого url из рассматриваемого топ считаем абсолютное значение изменения позиции(не важно поднялся или опустился url в выдаче). Если url не поменял позицию – изменение позиции 0. Если url вылетел за пределы рассматриваемого топ или влетел в топ – изменение позиции равно значению рассматриваемого топа(по умолчанию 50).

Процент изменение выдачи по строке будет равен сумме для всех url абсолютных значений изменения позиции разделенный на максимально возможное суммарное изменение позиций равное топ * топ( в случае топ 10 = 100, в случае топ 50 = 2500).



2) Для всех url из рассматриваемого топа рассматриваем попарные изменения между url в топ. Считаем число попарных изменений и делим на число пар(топ – 1, по умолчанию 49).



Расчитываем общее изменение выдачи по всем строкам исходного .tsv файла. Суммируем значения изменение выдачи по всем строкам, делим на число строк и умножаем на 100%.



Для лучшего понятия алгоритмов сравнения стоит посмотреть вспомогательный файл «анализ апдейтов.xlsx». Алгоритм сравнения 1 отображен в столбцах H-K, алгоритм сравнения 2 отображен в столбцах L-O.



Выходные данные:

Таблица(матрица) в столбцах и строках которой будут находиться названия групп из 1-й строки исходного .tsv файла. На пересечении строк и столбцов для соответствующих групп должно стоять суммарное значения изменения выдачи между данными группами по всем запросам, выраженное в процентах. При сравнении группы с собой ставим 0. Таблицу вывести в .tsv файл.





Примечания:

Желательно, чтобы скрипт был написан на python 2.x. Нужно, чтобы скрипт мог работать с большими входными объемами данных(от 100к строк в .tsv на вход)!
Разделы:
Опубликован:
11.03.2014 | 19:54 [последние изменения: 11.03.2014 | 19:59]
Откликнуться

Выберите способ верификации:

Обновите страницу после прохождения верификации.

Посмотреть другие заказы Разместить заказ

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».