Проблема (Для чего этот заказ)
1. Разработка проекта: "система трендвотчинга с использованием AI". Конечный проект должен принимать любую информацию в blackbox, обрабатывать ее и в понятном интерфейсе строить саммари, прогнозы по запросу юзера. (Например, я запрашиваю у программы "Кейсы CS", ожидаемый результат: полный объем данных в этой категории (Какой спрос, тенденции, сколько кейсов торгуется, какой объем рынка, какие кейсы продаются, сегментация) + прогноз ("анализ показал, что кейс1 вырастет в цене на n% в связи с факт1,факт2). Вывод с дашбордами, графиками, и возможность перейти в прямые источники информации по запросу.
2. Весь проект делится на 3 вехи: 1) Алгоритм сбора информации и создание унифицированной rawdata 2) Обработка информации, кластеризация с нейросетями 3) Аналитика, дашборды, прогнозы. Этот заказ, это 2 веха этого проекта: "Алгоритм обработки данных"
3. Критически важно, чтобы архитектура проекта была гибкой и оптимизированной для завершения разработки родительского проекта
Название: Разработка NLP-алгоритма для обработки текстовых данных (кластеризация, векторизация, анализ)
Цель проекта:
Создать гибкую и масштабируемую программу на Python для обработки сырых текстовых данных (из RSS-фидов, Telegram-каналов) с использованием методов NLP. Результат — чистая токенизированная база данных с категориями, тегами, ключевыми словами и векторными эмбеддингами для последующего анализа нейросетью.
Основные задачи:
1. Предобработка данных:
Очистка от HTML, эмодзи, стоп-слов
Токенизация с настраиваемым лимитом (от 1M до 64K токенов)
Лемматизация/стемминг (поддержка рус/англ/китайского языков)
2. NLP-анализ:
Извлечение сущностей (даты, имена, локации)
Генерация тегов (TF-IDF, YAKE, KeyBERT)
Определение тональности текста
3. Кластеризация и векторизация:
Группировка текстов по темам (K-means, HDBSCAN)
Генерация эмбеддингов (BERT, FastText)
Визуализация кластеров (t-SNE, опционально)
4. Структурирование данных:
Формирование базы (SQL/NoSQL) с метаданными, категориями, векторами
Логирование ошибок и статистики
Технические требования:
- Язык: Python
- Масштабируемость: Обработка больших объемов данных
- Оптимизация: Минимизация RAM/CPU, кэширование
- Гибкость: Конфигурационные файлы для настройки параметров, модульная архитектура
Этапы разработки:
1. Проектирование архитектуры и выбор NLP-моделей
2. Тест-прототип на датасете 100–500 записей
3. Интеграция кластеризации, NLP и векторизации
4. Стресс-тесты (10k+ записей), оптимизация
5. Документация и руководство по настройке
Критерии приемки:
- Время обработки: ≤2 сек на 1000 текстов
- Полнота данных: все поля (источник, категория, теги, векторы)
- Поддержка новых типов источников
Условия:
- Сроки и бюджет: договорные
- Передача полного исходного кода и документации
Ищем исполнителя с опытом в:
- NLP (библиотеки: spaCy, NLTK, Gensim)
- Кластеризация и ML (scikit-learn, HDBSCAN)
- Работа с векторными моделями (BERT, Word2Vec)
- Оптимизация Python-кода для больших данных
- Интеграция с БД (PostgreSQL, MongoDB)
Разделы:
Опубликован:
30.04.2025 | 08:40 [поднят: 30.04.2025 | 08:40] [последние изменения: 07.05.2025 | 15:00]