RoBERTa для классификации новостей NYT
Классифицирует заголовки новостей New York Times по темам.

Описание
Описание
Эта модель – fine-tuned версия roberta-base, обученная на наборе данных NYT News. Датасет содержит 256 000 заголовков статей, опубликованных с 2000 года по настоящее время (источник: Kaggle).
Что умеет
Классифицирует заголовки новостей по 8 темам: Спорт, Искусство, Бизнес, Здоровье, Стиль жизни, Наука, Политика и Криминал.
Достигает высокой точности (accuracy), F1-меры, precision и recall – 0.91 на тестовом наборе данных.
Как обучена
Модель была обучена с использованием:
Оптимизатора Adam с learning rate 5e-05.
Размера пакета (batch size) 8.
5 эпох обучения.
Linear scheduler для learning rate с 500 шагами разогрева (warmup).
Результаты обучения:
Training Loss Эпоха Шаг Validation Loss Accuracy F1 Precision Recall 0.3192 1.0 20480 0.4078 0.8865 0.8859 0.8892 0.8865 0.2863 2.0 40960 0.4271 0.8972 0.8970 0.8982 0.8972 0.1979 3.0 61440 0.3797 0.9094 0.9092 0.9098 0.9094 0.1239 4.0 81920 0.3981 0.9117 0.9113 0.9114 0.9117 0.1472 5.0 102400 0.4033 0.9137 0.9135 0.9134 0.9137
Применение
Модель может быть использована для автоматической категоризации новостных статей, анализа трендов в новостях и создания персонализированных новостных лент.
Пример использования:
Ссылки
dstefa/roberta-base_topic_classification_nyt_news
Ссылки
https://https://huggingface.co/dstefa/roberta-base_topic_classification_nyt_news
Предпросмотр файлов
В этой модели нет файлов для предпросмотра.