Rus News Classifier/data-silence
Набор данных для обучения моделей на задаче многоклассовой классификации новостных текстов на русском языке, включающий новости за последние 5 лет (примерно до 2025 года) с хорошим балансом категорий.

Источник данных:data-silence
Описание
Датасет "rus_news_classifier" предназначен для задач классификации новостных текстов на русском языке. Он содержит тексты новостей с метками категорий (от 0 до 10), где каждая запись включает:
news: Текст новости (строка, длина 18–35.3k символов), охватывающий темы из различных источников, такие как происшествия, технологии, политика, спорт и другие.
labels: Метка категории (int32, от 0 до 10), соответствующая следующим классам: 0 — climate (климат), 1 — conflicts (конфликты), 2 — culture (культура), 3 — economy (экономика), 4 — gloss (глянец/развлечения), 5 — health (здоровье), 6 — politics (политика), 7 — science (наука), 8 — society (общество), 9 — sports (спорт), 10 — travel (путешествия).
Датасет хорошо сбалансирован по категориям и включает новости за последние 5 лет (ориентировочно 2020–2025 годы). Он подходит для обучения моделей многоклассовой классификации, анализа тем новостей или обработки естественного языка на русском. Точное количество записей не указано в карточке, но preview показывает разнообразные примеры из реальных новостей (например, о происшествиях, технологиях, международных отношениях). Датасет загружен 51 раз за последний месяц, что указывает на умеренную популярность.
Предпросмотр файлов
В этом датасете нет файлов для предпросмотра.