Rubert-tiny для определения токсичности текста
Классифицирует русскоязычные тексты по категориям токсичности и определяет степень опасности высказываний.

Описание
Обзор модели
Эта модель основана на cointegrated/rubert-tiny и дообучена для классификации токсичности и неуместности коротких неформальных русскоязычных текстов, например, комментариев в социальных сетях.
Проблема сформулирована как многоклассовая классификация со следующими категориями:
: текст НЕ содержит оскорблений, нецензурной лексики и угроз в соответствии с соревнованием OK ML Cup.
: текст является неуместным в смысле работы Бабакова и соавт., то есть может нанести вред репутации говорящего.
Текст может считаться безопасным, если он одновременно является и НЕ .
Параметры модели
Архитектура: BertForSequenceClassification
Размерность скрытого состояния (hidden_size): 312
Количество слоев (num_hidden_layers): 3
Количество заголовков внимания (num_attention_heads): 12
Размер словаря (vocab_size): 29564
Максимальная позиционная эмбеддинга (max_position_embeddings): 512
Тип задачи: multi_label_classification (многоклассовая классификация)
Применение
Пример использования модели для оценки токсичности текста:
Обучение
Модель была обучена на объединенном наборе данных OK ML Cup и Бабакова и соавт. с использованием оптимизатора Adam, скорости обучения 1e-5 и размера батча 64 в течение 15 эпох. Текст считался неуместным, если его оценка неуместности была выше 0.8, и уместным – если она была ниже 0.2. Показатели ROC AUC на наборе для разработки по каждой метке:
МеткаROC AUCnon-toxic0.9937insult0.9912obscenity0.9881threat0.9910dangerous0.8295
Ссылки
cointegrated/rubert-tiny-toxicity
Ссылки
https://https://huggingface.co/cointegrated/rubert-tiny-toxicity
Предпросмотр файлов
В этой модели нет файлов для предпросмотра.