Детектор именованных сущностей

Распознаёт именованные сущности в тексте: персоны, организации, локации, прочее.

0/5
0 скачиваний
0 отзывов
Детектор именованных сущностей
Подходит для задач:
Token Classification
Сферы:
Юридические услуги
Маркетинг и реклама
Контент и копирайтинг

Описание

bert-base-NER

Если мои модели с открытым исходным кодом были вам полезны, пожалуйста, рассмотрите возможность поддержать меня в создании небольших, полезных моделей ИИ для всех (и помогите мне оплатить медицинскую школу / помочь моим родителям в финансовом плане). Спасибо!

Описание модели

  • - это модель BERT, которая была дообучена и готова к использованию для

  • Named Entity Recognition

  • и достигает

  • state-of-the-art performance

  • для задачи NER. Она была обучена распознавать четыре типа сущностей: местоположение (LOC), организации (ORG), человек (PER) и разное (MISC).

  • В частности, эта модель является

  • моделью, которая была дообучена на английской версии стандартного датасета

  • CoNLL-2003 Named Entity Recognition.

  • Если вы хотите использовать более крупную модель BERT-large, дообученную на том же наборе данных, то также доступна версия

  • .

Доступные NER модели

Model NameDescriptionParameters (NEW!)Дообученный DistilBERT - меньшая, более быстрая, облегченная версия BERT66M Дообученный - более крупная модель с немного лучшей производительностью340M -( uncased )Дообученный , доступен как в cased, так и в uncased версиях110M

Предполагаемое использование и ограничения

  • Как использовать

  • Вы можете использовать эту модель с Transformers

  • для NER.

Ограничения и предвзятость

Эта модель ограничена своим обучающим набором данных, содержащим новостные статьи с аннотациями сущностей за определенный период времени. Это может плохо обобщаться для всех вариантов использования в разных областях. Кроме того, модель иногда помечает субсловные токены как сущности, и для обработки этих случаев может потребоваться постобработка результатов.

Обучающие данные

Эта модель была дообучена на английской версии стандартного

CoNLL-2003 Named Entity Recognition

датасета.

Обучающий набор данных различает начало и продолжение сущности, так что если есть смежные сущности одного и того же типа, модель может указать, где начинается вторая сущность. Как и в наборе данных, каждый токен будет классифицирован как один из следующих классов:

AbbreviationDescription OЗа пределами именованной сущности B-MISCНачало разной сущности сразу после другой разной сущности I-MISCРазная сущность B-PERНачало имени человека сразу после имени другого человека I-PERИмя человека B-ORGНачало организации сразу после другой организации I-ORGОрганизация B-LOCНачало местоположения сразу после другого местоположения I-LOCМестоположение

CoNLL-2003 English Dataset Statistics

Этот набор данных был получен из корпуса Reuters, который состоит из новостных статей Reuters. Вы можете прочитать больше о том, как был создан этот набор данных, в статье CoNLL-2003.

# количества обучающих примеров на тип сущности

DatasetLOCMISCORGPER Train7140343863216600 Dev183792213411842 Test166870216611617

# количества статей/предложений/токенов на набор данных

DatasetArticlesSentencesTokens Train94614,987203,621 Dev2163,46651,362 Test2313,68446,435

Процедура обучения

  • Эта модель была обучена на одной NVIDIA V100 GPU с рекомендуемыми гиперпараметрами из

  • original BERT paper

  • который обучил и оценил модель на задаче CoNLL-2003 NER.

Результаты оценки

metricdevtest f195.191.3 precision95.090.7 recall95.391.9

Тестовые метрики немного ниже, чем официальные результаты Google BERT, которые кодировали контекст документа и экспериментировали с CRF. Подробнее о воспроизведении исходных результатов

here

.

BibTeX entry and citation info

Источник: https://huggingface.co/dslim/bert-base-NER

Предпросмотр файлов

В этой модели нет файлов для предпросмотра.

Просмотры

Скачивания

Похожие модели

Кейсы внедрения

Обсудите модель
с топами рынка в бизнес чате
Есть вопросы по модели?
Написать автору

Оценка

Детали модели

Автор: Qubu Team
Объем: 2.01 ГБ
Комментарии: 0
Просмотры: 16
Скачивания: 0
Лицензия: MIT
Дата добавления: 26.03.2026

Автор

Qubu Team

Qubu Team

Команда

Профиль команды
Загрузка...
Загрузка комментариев...