reconocimiento de entidades nombradas

MultiCoNER-ES

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos  como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga.

DIANN-2023-ES

El corpus contiene resúmenes de artículos científicos de revistas de Elsevier  del dominio biomédico. En concreto, los textos se recopilaron entre 2017 y 2018. El corpus se proporciona en dos particiones, una de entrenamiento y otra de evaluación. La partición de entrenamiento contiene 500 textos. Estos textos se corresponden con las particiones de entrenamiento y evaluación hechas públicas para la competición DIANN en Iberlef 2018. Además se proporciona una partición privada de test que contiene 100 textos.