Экстрактор палеоэкологических метаданных
MetaExtractor Эта модель извлекает метаданные из научных статей, связанных с палеоэкологией. Объекты, обнаруживаемы

Описание
MetaExtractor
Эта модель извлекает метаданные из научных статей, связанных с палеоэкологией.
Объекты, обнаруживаемые этой моделью:
AGE: когда упоминаются исторические эпохи, такие как 1234 год нашей эры или 4567 лет до нашей эры (до настоящего времени)
TAXA: названия таксонов растений или животных, указывающие, что содержат образцы
GEOG: географические координаты, указывающие, где были взяты образцы, например, 12'34"N 34'23"W
SITE: названия мест, где были взяты образцы
REGION: более общие регионы, обеспечивающие контекст для местоположения сайтов
EMAIL: адреса электронной почты исследователей в статьях, которые можно использовать для последующей связи
ALTI: высота мест, откуда были взяты образцы, например, 123 м над уровнем моря
Model Details
Model Description
Developed by:
Ty Andrews, Jenit Jain, Shaun Hutchinson, Kelly Wu, and Simon Goring
Shared by:
Neotoma Paleocology Database
Model type:
Token Classification
Language(s) (NLP):
English
License:
MIT
Finetuned from model:
roberta-base
Model Sources
Repository:
https://github.com/NeotomaDB/MetaExtractor
Paper:
TBD
Demo:
TBD
Uses
Эта модель может быть использована для извлечения объектов из любого текста, который относится к палеоэкологии или смежным областям. Потенциальные применения включают в себя идентификацию уникальных названий SITE в научных статьях в других областях.
Direct Use
Эта модель развернута на серверах xDD (ранее GeoDeepDive), куда поступают новые научные статьи, относящиеся к Neotoma, и возвращаются извлеченные данные.
Этот подход может быть адаптирован к другим областям, используя код для обучения и разработки, который можно найти по адресу:
github.com/NeotomaDB/MetaExtractor
для выполнения аналогичного извлечения данных для других областей исследований.
Bias, Risks, and Limitations
Эта модель была обучена исключительно на англоязычных научных статьях и, вероятно, не будет хорошо работать с исследованиями на других языках. Кроме того, статьи, используемые для обучения модели, были выбраны на основе их уже присутствия в базе данных Neotoma, и поэтому могут иметь предвзятость отбора, поскольку они представляют то, что уже известно как релевантное для Neotoma, и могут неправильно обрабатывать новые, ранее пропущенные статьи.
How to Get Started with the Model
Используйте код ниже, чтобы начать работу с моделью.
Training Details
Training Data
Модель была обучена с использованием набора из 39 научных статей, признанных релевантными для базы данных Neotoma. Все статьи были написаны на английском языке. Объекты были помечены командой проекта, наряду с использованием предварительной маркировки с помощью ранних моделей для ускорения процесса маркировки.
Было использовано разделение train/val/test 70/15/15, которое имело следующее распределение слов и объектов.
TrainValidationTest Articles2866 Words2208573780936098 TAXA Entities3352650570 SITE Entities1228177219 REGION Entities2314318258 GEOG Entities188378 AGE Entities919206153 ALTI Entities992414 Email Entities14411
Training Procedure
Для получения полной информации об обучении, пожалуйста, обратитесь к репозиторию GitHub и Wiki:
github.com/NeotomaDB/MetaExtractor
Results & Metrics
Полные результаты модели см. в отчете здесь:
Final Project Report
Источник: https://huggingface.co/finding-fossils/metaextractor
Предпросмотр файлов
В этой модели нет файлов для предпросмотра.