SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

La tarea compartida se centra en detectar alucinaciones y otros errores de sobregeneración en la salida de modelos de lenguaje de gran tamaño ajustados mediante instrucciones. Mu-SHROOM aborda modelos de propósito general en 14 idiomas y plantea el problema de la detección de alucinaciones como una tarea de etiquetado de fragmentos.

Forum