agosto 28, 2025

Guía de estilo para la simplificación de oraciones del Diario de Madrid

Antonio Menta y Ana García Serrano
Guía de estilo para la simplificación de oraciones del Diario de Madrid. Creación de un corpus para el desarrollo de un modelo del lenguaje

Informe técnico (TR-2025-01).
Madrid, Universidad Nacional de Educación a Distancia (UNED): Escuela Técnica Superior de Ingeniería Informática, 2024.
La página incluye enlace para descarga libre de la guía. Disponible también en Google Drive de plaka logika.



Uno de los campos dentro de las Humanidades Digitales que ha recibido mucha atención con el uso de técnicas de IA es el estudio de textos históricos. Uno de los primeros trabajos que mostró cómo trabajar con este tipo de textos fue el foro de evaluación HIPE (Ehrmann et al., 2022), donde se propuso el uso de periódicos en tres idiomas diferentes para la extracción de menciones a entidades nombradas (Personas, Organizaciones, Ubicaciones y otras).

El objeto de investigación del proyecto CLARA-DH es el periódico El Diario de Madrid, en su versión digitalizada por la Biblioteca Nacional de España (BNE). Se publicó de 1788 a 1825 y en ellos es de especial interés la sección de «Noticias Particulares», en la que se anunciaban ventas, alquileres, bajas o puestos de trabajo que forman una muestra que refleja los hábitos, las costumbres y la cultura del Madrid de la época (García-Serrano et al., 2022; Moreno et al., 2024).

El tratamiento automático de estos documentos digitales no es fácil, debido principalmente a su baja calidad del escaneado y a la necesidad de utilizar un modelo de transcripción específico para obtener el texto con el menor número de errores (Menta et al., 2022, Sánchez et al., 2023). Las dificultades no acaban ahí. El vocabulario, las reglas de acentuación y las estructuras sintácticas empleadas hacen difícil la lectura de las diferentes secciones de los periódicos para un lector moderno interesado en los siglos XVIII y XIX. De esta dificultad surgió la necesidad de «traducir» de alguna manera el contenido para el público simplificando los textos.

De esta dificultad surgió la necesidad de «traducir» de alguna manera el contenido para el público simplificando los textos. Una ventaja en este caso para una tarea general como la extracción de información en textos (Martínez y García Serrano, 2002), (Lastra et al., 2021) es que, en los textos de este periódico, no hay necesidad de tratar las imágenes (Benavent et al., 2010), ni evaluar su aporte de información (Martínez et al., 2003) porque no hay imágenes. Transcribir las tablas, sin embargo, es un problema aún no bien resuelto.

El motivo para traducir textos a una versión más sencilla, de corregir errores derivados de la transcripción, se debe a que las tipografías utilizadas en los periódicos antiguos son diferentes a las que se utilizan en la actualidad, por lo que los motores de transcripción cometen errores a la hora de extraer el texto. En el área del procesamiento automático del lenguaje natural (PLN), hace tiempo que la simplificación de textos se utiliza como paso de preprocesamiento para tareas como la traducción automática entre idiomas, la extracción de información en conversaciones (Calle et al., 2006) o el análisis sintáctico de oraciones (Chandrasekar et al., 1996).

[...]

Para la creación manual de un conjunto de datos, es necesario utilizar una guía de estilo o etiquetado completa, que suele crearse en diferentes turnos por consenso entre expertos en la materia (Ferrés y Saggion, 2022). Pero, construir manualmente un corpus con cerca de 600 pares necesarios para el aprendizaje (por refinamiento o transferencia de conocimiento) de un modelo del lenguaje, es una tarea laboriosa y que requiere mucho tiempo, por lo que se decidió por una parte construir una guía de estilo para que hubiera un nivel aceptable de acuerdo entre los escasos creadores y utilizar ChatGPT (OpenAI, 2023), para facilitar la creación manual del corpus, aportando automáticamente una primera versión que fuera la base para que los anotadores creen una versión posterior simplificada.

[...]

Para enseñar a un nuevo modelo a simplificar anuncios del corpus transcrito, y así automatizar la tarea, de nuevo no disponíamos de suficientes expertos para generar manualmente un conjunto de pares con los anuncios originales publicados y su correcta versión simplificada.

Así, nos apoyamos en una IA Generativa y en concreto en ChatGPT (el mejor a finales de 2023, con su modelo en abierto GPT-3.5 Turbo), porque habíamos probado lo bien que eliminaba errores ortográficos en los textos que simplificaba, aunque de momento, no resolvía nuestro problema con las palabras complejas ni con las largas oraciones casi ilegibles para un lector normal.

Esta es la solución que se abordó en el proyecto tras el análisis de diferentes aproximaciones en otros corpus existentes (Menta and García Serrano, 2024). El autor [de este informe], Antonio Menta [Garuz], construyó una aplicación web para que, con la versión original y la simplificada propuesta por chatGPT, con un promt como el siguiente:

Simplifica el siguiente texto. Escribe en español. Sustituye las palabras más difíciles y divide la oración si es larga en varias oraciones subordinadas. No comentes el resultado. No preguntes por el resultado. Texto: {texto a simplificar}

—Cita de la «Introducción», páginas 3, 4-5 y 5.



💡 SUGERENCIA: Consulta especialmente el capítulo «Niveles de simplificación», páginas 10 y siguientes, para cotejar con tus criterios de simplicación cuando te propones compartir información con expresión asequible.



ÍNDICE


INTRODUCCIÓN


CRITERIOS DE ESTILO PARA LA SIMPLIFICACIÓN

Criterios generales

Criterios específicos entre pares: oración original y simple


NIVELES DE SIMPLIFICACIÓN

Nivel de oración

Nivel de clausula

Nivel de palabra


OTROS EJEMPLOS DE ANOTACIÓN Y TRANSFORMACIÓN DEL CORPUS


REFERENCIAS





No hay comentarios:

Publicar un comentario