WP3 – CORTEX

plan de trabajo

PT3. Escenarios de generación del lenguaje natural y casos de uso

Este último paquete de trabajo contribuirá al cumplimiento de los objetivos OB4 y OB5, y su propósito es aplicar las propuestas y enfoques de GLN enriquecidos con conocimiento a diversos escenarios y casos de uso para validar y mostrar su idoneidad en contextos reales. Cada escenario integrará los hallazgos y resultados de los paquetes de trabajo PT1 y PT2, y serán evaluados con métricas específicas y estándares adecuados para los diversos escenarios. Este paquete de trabajo está liderado por el investigador Armando Suárez, y en concreto, para este proyecto se prevén los siguientes escenarios y se explican a continuación.

Tarea 3.1 Resumenes de textos

La tarea de resumir tiene como objetivo sintetizar la información manteniendo sólo lo relevante (Syed, Gaol y Matsuo, 2021). Aunque la investigación sobre enfoques extractivos es la más predominante, están limitados a copiar literalmente la información de entrada y pegarla en el texto de salida, formando así el resumen. Por otro lado, el resumen abstractivo está más alineado a cómo resumiríamos las personas, pero al mismo tiempo más complejo de generar de forma automática. El objetivo de esta tarea, coordinada por la investigadora Elena Lloret, es abordar el resumen abstractivo, integrando el enfoque de GLN resultado del PT2 como componente clave. Esto posibilitará la experimentación y aplicación del método de resúmenes propuesto en varios dominios (por ejemplo, economía, periodismo, salud, o educación, por nombrar algunos). La integración de un componente de GLN basado en el conocimiento durante el proceso de resumen abstractivo contribuiría a producir resúmenes más parecidos a los realizados por los seres humanos, ya que será posible detectar e inferir información relevante, incluso cuando esta información se describa a través de varias oraciones no consecutivas. También permitirá parafrasear de forma más fiable y precisa los documentos textuales a partir de los cuales se generará el resumen.

Hito: Análisis y desarrollo de un resumen de texto abstractivo que integre el enfoque de GLN de la tarea 2.3 como uno de sus componentes principales.

Tarea 3.2 Generación de textos creativos (textos narrativos y poesía)

Uno de los escenarios más complejos de GLN es la generación de lenguaje creativo, que incluye la producción de textos creativos, como narrativa de ficción o poesía (Barros et al., 2019; Bena and Kalita, 2019; Chakrabarty et al., 2021; Lau et al., 2018; Papay y Padó, 2020; Vicente et al., 2018; Wang et al., 2021). En ambos casos, un sistema de GLN debe tratar con fenómenos lingüísticos específicos, como el tipo y la estructura de los eventos narrativos, relaciones temporales o causales, representación de estados mentales, lenguaje figurado, o mecanismos prosódicos como la métrica y el ritmo, entre otros. Aunque estos fenómenos pueden aparecer en otro tipo de textos, es en el lenguaje creativo donde se utilizan con frecuencia.

El objetivo de este escenario, coordinado por el investigador Borja Navarro, es profundizar en el análisis computacional de estos fenómenos textuales y analizar en qué medida afectará a la GLN (Van Heerden & Bas 2021). Nuestro objetivo es doble. Primero, analizaremos y extraeremos automáticamente los eventos literarios, sus estructuras y las relaciones temporales o causales entre ellos (Sims et al. otros, 2019; Feder et al., 2021). Para esta tarea aprovecharemos el corpus European Literary Text Collection, un corpus multilingüe de novelas europeas (Odrebrech et al., 2019). En segundo lugar, exploraremos el análisis formal de la métrica y el ritmo en un corpus de poesía (como el corpus ADSO (Navarro Colorado et al., 2016), un gran corpus de poesía española con información métrica) para introducir prosodia en GLN.

Hito: un modelo computacional formal para el análisis y generación de textos creativos.

Tarea 3.3 Chatbots para la inteligencia emocional

La educación en Inteligencia Emocional (Goleman, 1995) es una asignatura pendiente para la sociedad que potencialmente podría contribuir a la solución de muchos problemas sociales actuales. Algunos de estos incluyen acoso, suicidio, violencia de género, estrés, ansiedad, depresión, anorexia, discriminación y autismo. En este escenario se propone demostrar los beneficios de los chatbots para ayudar a los usuarios a mejorar su inteligencia emocional y a gestionar mejor y comprender sus emociones. En concreto, el chatbot funcionará con “cuentos con mensaje”. Estas historias populares o fábulas son apropiadas porque representan la tradición milenaria del homo sapiens para transmitir y comprender hábilmente el conocimiento. Estas historias son fáciles de entender, a menudo con moraleja simple o metáforas asociadas. Los siguientes trabajos científicos previos justifican y apoyan la utilidad de estos relatos en este tipo de investigaciones: Färber & Färber (2015); Odabasi et al. (2012); Kulikovskaya y Andrienko (2016). Por ello, nuestro objetivo será aplicar la investigación realizada a las técnicas de generación de textos de los paquetes de trabajo anteriores para ayudar a los usuarios a desarrollar la cognición social (la capacidad de identificar y comprender situaciones (Uekerman et al., 2010)), así como para mejorar su nivel de comprensión lectora. Por ejemplo, un generador de preguntas de comprensión de lectora podrá ayudar al usuario a entender mejor el cuento. Este escenario está coordinado por el investigador Antonio Ferrández.

Hito: Desarrollar un chatbot de cuentos con mensaje que integre técnicas de generación de texto para mejorar la inteligencia emocional y la comprensión lectora.

Tarea 3.4 Hacer que las metáforas en inglés sean más inteligibles

El estudio de las metáforas en dominios específicos del inglés está motivado por el deseo de promover la inclusión y cae dentro del área conocida como inglés para propósitos específicos. La meta es facilitar la asimilación humana de información abstracta cuando esta sucede en un contexto desconocido, así como, en última instancia, proporcionar un significado equivalente de una manera más simple y directa. Esto es beneficioso para la nueva generación de ciudadanas y ciudadanos digitales que, a menudo utilizan el inglés como lengua vehicular. De hecho, según Rai y Chakraverty (2020), existe una necesidad apremiante de procesar las metáforas en un lenguaje común para todas las comunidades, ya que a menudo son ambiguas y requieren un conocimiento global actualizado para comprender su significado y propósito.

Por ejemplo, en el ámbito financiero, la comunicación diaria se produce muy a menudo mediante el uso de metáforas conceptuales que son difíciles de entender y que pueden hacer que las personas ajenas al ámbito financiero se sientan excluidas. Frases en inglés como “bear market bounce” or “dead cat bounce” tienen su propio significado en el dominio financiero que puede ser difícil de comprender, especialmente para comunidades no expertas u otras partes interesadas para quienes el inglés es un idioma extranjero. Por lo tanto, recursos que faciliten el acceso a este conocimiento a través del desarrollo de nuevas tecnologías tendrían un impacto positivo en, por ejemplo, la gestión de finanzas personales e inversiones. Para este escenario, nos basaremos en la teoría de la metáfora conceptual desarrollada por la investigación de Lakoff y Johnson (1980), complementándola con las técnicas de adquisición de conocimiento del PT1 que nos permitirá identificar metáforas, así como emplear los métodos desarrollados en el PT2 para hacerlas más inteligibles mediante el uso de un lenguaje sencillo y accesible, de forma que tanto expertos como no expertos en el dominio específico sean capaces de entenderlas. Este escenario está coordinado por la investigadora Tania Martin.

Hito: desarrollo de recursos para facilitar la inteligibilidad de metáforas de la lengua inglesa en dominios específicos.