Rus News Classifier/data-silence

Набор данных для обучения моделей на задаче многоклассовой классификации новостных текстов на русском языке, включающий новости за последние 5 лет (примерно до 2025 года) с хорошим балансом категорий.

Обновлено 11.06.2026
2 файлов
0 комментариев
Rus News Classifier/data-silence
Подходит для задач:
NLP
Text Classification
Форматы файлов:
Другое
Типы данных:
Текст
Таблицы

Источник данных:data-silence

Описание

  1. Датасет "rus_news_classifier" предназначен для задач классификации новостных текстов на русском языке. Он содержит тексты новостей с метками категорий (от 0 до 10), где каждая запись включает:

    • news: Текст новости (строка, длина 18–35.3k символов), охватывающий темы из различных источников, такие как происшествия, технологии, политика, спорт и другие.

    • labels: Метка категории (int32, от 0 до 10), соответствующая следующим классам: 0 — climate (климат), 1 — conflicts (конфликты), 2 — culture (культура), 3 — economy (экономика), 4 — gloss (глянец/развлечения), 5 — health (здоровье), 6 — politics (политика), 7 — science (наука), 8 — society (общество), 9 — sports (спорт), 10 — travel (путешествия).

    Датасет хорошо сбалансирован по категориям и включает новости за последние 5 лет (ориентировочно 2020–2025 годы). Он подходит для обучения моделей многоклассовой классификации, анализа тем новостей или обработки естественного языка на русском. Точное количество записей не указано в карточке, но preview показывает разнообразные примеры из реальных новостей (например, о происшествиях, технологиях, международных отношениях). Датасет загружен 51 раз за последний месяц, что указывает на умеренную популярность.

Предпросмотр файлов

В этом датасете нет файлов для предпросмотра.

Просмотры

Скачивания

Похожие датасеты

Оценка

Детали датасета

Автор: Andrew
Дата добавления: 15.08.2025
Объем: 16.46 МБ
Комментарии: 0
Просмотры: 92
Скачивания: 4
Лицензия: MIT

Автор

Andrew

Andrew

Админ

Профиль автора
Загрузка...
Загрузка комментариев...