Детектор именованных сущностей
Распознаёт именованные сущности в тексте: персоны, организации, локации, прочее.

Описание
bert-base-NER
Если мои модели с открытым исходным кодом были вам полезны, пожалуйста, рассмотрите возможность поддержать меня в создании небольших, полезных моделей ИИ для всех (и помогите мне оплатить медицинскую школу / помочь моим родителям в финансовом плане). Спасибо!
Описание модели
- это модель BERT, которая была дообучена и готова к использованию для
Named Entity Recognition
и достигает
state-of-the-art performance
для задачи NER. Она была обучена распознавать четыре типа сущностей: местоположение (LOC), организации (ORG), человек (PER) и разное (MISC).
В частности, эта модель является
моделью, которая была дообучена на английской версии стандартного датасета
CoNLL-2003 Named Entity Recognition.
Если вы хотите использовать более крупную модель BERT-large, дообученную на том же наборе данных, то также доступна версия
.
Доступные NER модели
Model NameDescriptionParameters (NEW!)Дообученный DistilBERT - меньшая, более быстрая, облегченная версия BERT66M Дообученный - более крупная модель с немного лучшей производительностью340M -( uncased )Дообученный , доступен как в cased, так и в uncased версиях110M
Предполагаемое использование и ограничения
Как использовать
Вы можете использовать эту модель с Transformers
для NER.
Ограничения и предвзятость
Эта модель ограничена своим обучающим набором данных, содержащим новостные статьи с аннотациями сущностей за определенный период времени. Это может плохо обобщаться для всех вариантов использования в разных областях. Кроме того, модель иногда помечает субсловные токены как сущности, и для обработки этих случаев может потребоваться постобработка результатов.
Обучающие данные
Эта модель была дообучена на английской версии стандартного
CoNLL-2003 Named Entity Recognition
датасета.
Обучающий набор данных различает начало и продолжение сущности, так что если есть смежные сущности одного и того же типа, модель может указать, где начинается вторая сущность. Как и в наборе данных, каждый токен будет классифицирован как один из следующих классов:
AbbreviationDescription OЗа пределами именованной сущности B-MISCНачало разной сущности сразу после другой разной сущности I-MISCРазная сущность B-PERНачало имени человека сразу после имени другого человека I-PERИмя человека B-ORGНачало организации сразу после другой организации I-ORGОрганизация B-LOCНачало местоположения сразу после другого местоположения I-LOCМестоположение
CoNLL-2003 English Dataset Statistics
Этот набор данных был получен из корпуса Reuters, который состоит из новостных статей Reuters. Вы можете прочитать больше о том, как был создан этот набор данных, в статье CoNLL-2003.
# количества обучающих примеров на тип сущности
DatasetLOCMISCORGPER Train7140343863216600 Dev183792213411842 Test166870216611617
# количества статей/предложений/токенов на набор данных
DatasetArticlesSentencesTokens Train94614,987203,621 Dev2163,46651,362 Test2313,68446,435
Процедура обучения
Эта модель была обучена на одной NVIDIA V100 GPU с рекомендуемыми гиперпараметрами из
original BERT paper
который обучил и оценил модель на задаче CoNLL-2003 NER.
Результаты оценки
metricdevtest f195.191.3 precision95.090.7 recall95.391.9
Тестовые метрики немного ниже, чем официальные результаты Google BERT, которые кодировали контекст документа и экспериментировали с CRF. Подробнее о воспроизведении исходных результатов
here
.
BibTeX entry and citation info
Предпросмотр файлов
В этой модели нет файлов для предпросмотра.