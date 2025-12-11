La expansión de mensajes ofensivos y expresiones de odio en el entorno digital se ha convertido en un reto urgente de resolver. Aunque las plataformas intentan frenarlo, sigue siendo complicado identificar este tipo de contenidos de manera automática, sobre todo cuando se trata de idiomas distintos del inglés, como el español. Con este panorama en mente, un grupo de investigadores de la Escuela Politécnica de la Universidad de Extremadura ha creado SHS-ALBETO, un modelo específicamente entrenado para reconocer discurso de odio en español y construido sobre la arquitectura BERT.

BERT —acrónimo de Bidirectional Encoder Representations from Transformers— fue desarrollado por Google en 2018 para mejorar la comprensión del lenguaje natural por parte de las máquinas. A partir de esa base surge ALBETO, una variante ligera inspirada en ALBERT y A Lite BERT, diseñada para funcionar con menos recursos y entrenar más rápido sin renunciar a buenos resultados. Esta eficiencia lo convierte en un candidato ideal para aplicaciones que requieren respuestas inmediatas.

SHS-ALBETO es un modelo de aprendizaje profundo basado en Transformers, una tecnología de procesamiento del lenguaje que utiliza mecanismos de auto-atención para interpretar el contexto de cada palabra dentro de una frase. Gracias a este enfoque, es capaz de captar matices complejos, como ironía, sarcasmo o ambigüedades, elementos que suelen dificultar la identificación automática del discurso de odio. Para comprobar su eficacia, el equipo de la UEx entrenó y afinó el modelo con datos reales extraídos de la red social X: “Queríamos saber si realmente podía superar a otras herramientas ya existentes. También nos interesaba compararlo con modelos previos como BETO o DistilBETO, todos ellos basados en BERT, para valorar si nuestro planteamiento ofrecía mejoras reales”, explica Carlos Javier Pérez Sánchez, catedrático del área de Matemáticas en la Escuela Politécnica.

Una parte clave del trabajo fue la utilización del conjunto de datos HatEval, perteneciente al certamen internacional SemEval 2019. Este corpus reúne unos 6.600 tuits en español, clasificados según contengan o no discursos de odio, especialmente centrados en mensajes dirigidos contra mujeres e inmigrantes. SemEval, conocido por su prestigio en el ámbito del procesamiento del lenguaje, sirve como punto de encuentro para investigadores que evalúan y comparan sistemas capaces de interpretar lenguaje humano. Los resultados obtenidos por SHS-ALBETO fueron especialmente notables. Al estar construido sobre una versión optimizada y más ligera de BERT, el modelo no solo se mostró más eficiente, sino también más preciso. En las pruebas realizadas con HatEval, alcanzó una puntuación F1 cercana a 0.78, superando con claridad a modelos anteriores, cuyas cifras solían situarse entre 0.70 y 0.72. En términos más concretos, el equipo de la UEx reporta que SHS-ALBETO mejoró alrededor de un 10% en métricas fundamentales como precisión, sensibilidad y exactitud frente a alternativas como el BERT multilingüe o BETO.

Un modelo diseñado para el mundo real

La combinación de precisión y eficiencia convierte a SHS-ALBETO en un aliado prometedor para reforzar los sistemas de moderación automatizada en redes sociales y plataformas digitales en las que el español supone un desafío particular. La escasez de datos bien etiquetados y la enorme diversidad dialectal del idioma complican la creación de modelos robustos, por lo que herramientas especializadas como esta tienen un valor añadido.

Con su capacidad para identificar y frenar con rapidez mensajes de odio, SHS-ALBETO podría ayudar a evitar la difusión de contenidos dañinos. “Los medios digitales podrían integrarlo para mejorar la revisión de comentarios que pasan desapercibidos a sus mecanismos actuales. Y en instituciones públicas, centros educativos o entidades que luchan contra la discriminación, el modelo serviría para monitorizar tendencias o incidentes de odio en tiempo real, permitiendo reaccionar antes y con más información”, señala Pérez Sánchez.