reconocimiento de entidades nombradas

MultiCoNER-ES

Lee más sobre MultiCoNER-ES
Inicie sesión o registrese para enviar comentarios

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga.

DIANN-2023-ES

Lee más sobre DIANN-2023-ES
Inicie sesión o registrese para enviar comentarios

El corpus contiene resúmenes de artículos científicos de revistas de Elsevier del dominio biomédico. En concreto, los textos se recopilaron entre 2017 y 2018. El corpus se proporciona en dos particiones, una de entrenamiento y otra de evaluación. La partición de entrenamiento contiene 500 textos. Estos textos se corresponden con las particiones de entrenamiento y evaluación hechas públicas para la competición DIANN en Iberlef 2018. Además se proporciona una partición privada de test que contiene 100 textos.

MultiCoNER-EN

Lee más sobre MultiCoNER-EN
Inicie sesión o registrese para enviar comentarios

Suscribirse a reconocimiento de entidades nombradas