Подключите нашего Telegram-бота для уведомлений о новых проектах

Заказ закрыт
Разработка модуля обработки данных

Разместить заказ
n
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 1 месяц
Бюджет: 50 000 руб
626.94 $ — 547.65 €
Проблема (Для чего этот заказ)
1. Разработка проекта: "система трендвотчинга с использованием AI". Конечный проект должен принимать любую информацию в blackbox, обрабатывать ее и в понятном интерфейсе строить саммари, прогнозы по запросу юзера. (Например, я запрашиваю у программы "Кейсы CS", ожидаемый результат: полный объем данных в этой категории (Какой спрос, тенденции, сколько кейсов торгуется, какой объем рынка, какие кейсы продаются, сегментация) + прогноз ("анализ показал, что кейс1 вырастет в цене на n% в связи с факт1,факт2). Вывод с дашбордами, графиками, и возможность перейти в прямые источники информации по запросу.
2. Весь проект делится на 3 вехи: 1) Алгоритм сбора информации и создание унифицированной rawdata 2) Обработка информации, кластеризация с нейросетями 3) Аналитика, дашборды, прогнозы. Этот заказ, это 2 веха этого проекта: "Алгоритм обработки данных"
3. Критически важно, чтобы архитектура проекта была гибкой и оптимизированной для завершения разработки родительского проекта

Название: Разработка NLP-алгоритма для обработки текстовых данных (кластеризация, векторизация, анализ)  
Цель проекта:  
Создать гибкую и масштабируемую программу на Python для обработки сырых текстовых данных (из RSS-фидов, Telegram-каналов) с использованием методов NLP. Результат — чистая токенизированная база данных с категориями, тегами, ключевыми словами и векторными эмбеддингами для последующего анализа нейросетью.  
Основные задачи:  
1. Предобработка данных:  
  – Очистка от HTML, эмодзи, стоп-слов
  – Токенизация с настраиваемым лимитом (от 1M до 64K токенов)
  – Лемматизация/стемминг (поддержка рус/англ/китайского языков)
2. NLP-анализ:  
  – Извлечение сущностей (даты, имена, локации)
  – Генерация тегов (TF-IDF, YAKE, KeyBERT)
  – Определение тональности текста
3. Кластеризация и векторизация:  
  – Группировка текстов по темам (K-means, HDBSCAN)
  – Генерация эмбеддингов (BERT, FastText)
  – Визуализация кластеров (t-SNE, опционально)
4. Структурирование данных:  
  – Формирование базы (SQL/NoSQL) с метаданными, категориями, векторами
  – Логирование ошибок и статистики
Технические требования:  
- Язык: Python  
- Масштабируемость: Обработка больших объемов данных
- Оптимизация: Минимизация RAM/CPU, кэширование
- Гибкость: Конфигурационные файлы для настройки параметров, модульная архитектура
Этапы разработки:  
1. Проектирование архитектуры и выбор NLP-моделей
2. Тест-прототип на датасете 100–500 записей
3. Интеграция кластеризации, NLP и векторизации 
4. Стресс-тесты (10k+ записей), оптимизация
5. Документация и руководство по настройке 
Критерии приемки:  
- Время обработки: ≤2 сек на 1000 текстов
- Полнота данных: все поля (источник, категория, теги, векторы) 
- Поддержка новых типов источников
Условия:  
- Сроки и бюджет: договорные
- Передача полного исходного кода и документации
Ищем исполнителя с опытом в:  
- NLP (библиотеки: spaCy, NLTK, Gensim)
- Кластеризация и ML (scikit-learn, HDBSCAN)
- Работа с векторными моделями (BERT, Word2Vec)
- Оптимизация Python-кода для больших данных
- Интеграция с БД (PostgreSQL, MongoDB)
Разделы:
Опубликован:
30.04.2025 | 08:40 [поднят: 30.04.2025 | 08:40] [последние изменения: 07.05.2025 | 15:00]
Заказ находится в архиве
Откликнуться Посмотреть другие заказы

Теги:

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».