Бюджет:
1000 руб
Функции для подсчета мер связности для заданного слова по частотному списку сочетаемостей:
Для заданного слова – определение его сочетаемости с другими словами по мерам: коэффициент Дайса, взаимная информация, коэффициент логарифмического правдоподобия, критерий хи-квадрат, t-критерий Стьюдента, коэффициент соотношения остатков. Вывод частотного списка в зависимости от значения меры для всех сочетаний со словом.
Ограничение только на левый контекст / только правый контекст (подсчет мер для сочетаемостей только со словами слева от искомого и справа от искомого)
Предусмотреть возможность подключение списка стоп-слов (слов, сочетания с которыми для исходной единицы не рассматриваются, подсчеты для таких сочетаний не производятся, в финальный список на выходе такие сочетания не включатся).
На входе – а) заданное слово; б) частотный список 2-грамов в формате слово слово {частота}; в) выбор меры подсчета; г) выбор режима (левый/правый контекст/оба). На выходе –список сочетаемостей заданного слова, ранжированный в зависимости от выбранной меры и режима.
Обще положение
Для этой задачи, входные и выходные данные (корпус текстов, базы знаний, частотные списки)- в формате текстового файла, кодировка – utf-8.
Все конкордансы на выходе – должны быть представлены в формате csv:
левый_контекст; искомое_вхождение; правый_контекст
Для всех задач, должна быть предусмотрена возможность динамически (базой знаний) задать символы, которые считаются элементами слова. Напр., для англ. яз. – это может быть буквы от ‘A’ до ‘Z’, от ‘a’ до ‘z’, символы “’” и “-”. Тогда, напр., soft-drink, o’clock – рассматривается как одно слово, т.к. состоят из подряд идущих символов, заданных как допустимые в слове.
Для задачи должна быть проведена декомпозиция. Каждая подзадача – реализуется через разработку собственных функций (в т.ч. вложенных) – в блоках def.