Plan de trabajo

WP1. Sentido común, semántica, conocimiento del mundo e infraestructuras para la generación de lenguaje natural

El conocimiento semántico del mundo es esencial para resolver una variedad de decisiones profundas y complejas sobre la comprensión y generación del lenguaje natural. Además, para la gestión eficiente y eficaz de todos los nuevos y existentes conocimientos potenciales, también son necesarias las infraestructuras apropiadas. El propósito de este paquete de trabajo es explorar múltiples fuentes heterogéneas de conocimiento e infraestructuras existentes para obtener, inferir y gestionar el conocimiento, asegurando su calidad para su posterior integración en el proceso NLG (WP2). Este WP permitirá el logro de los objetivos OB1 y OB2, a través de la exitosa realización de las siguientes tres tareas.

Tarea 1.1 Exploración de las fuentes de conocimiento e infraestructuras lingüísticas existentes

El conocimiento en PLN se estudió inicialmente a través de la creación y desarrollo de recursos de conocimiento y de ontologías (por ejemplo, Wordnet (Fellbaum, 1998), BabelNet (Navigli y Ponzeto, 2010), Cyc (Lenat, 1995)). Aunque iniciativas más recientes, como ConceptNet (Speer, Chin y Havasi, 2017), ATOMIC (Sap et al., 2019) o LETO (Estevez-Velarde et al., 2019) son muy potentes para el entendimiento del lenguaje natural, al parecer, su explotación para NLG ha sido limitada. Junto con estos recursos de conocimiento antes mencionados, también podemos encontrar varias infraestructuras lingüísticas, por ejemplo, CLARIN o DARIAH-EU, cuyo desarrollo y uso hasta el momento carece de participación de grupos de investigación españoles. Adicionalmente, los proyectos, cuyo principal objetivo es obtener modelos de lenguaje abiertos y genéricos para fines de investigación y desarrollo industrial, también pueden ser fundados. Ejemplos de estos proyectos son MarIA, y LEIA (enfocados en el idioma español), o, Nós, o AINA; estos dos últimos aseguran el uso de la lengua gallega y catalana en el ámbito digital, respectivamente. Junto con estas infraestructuras y modelos, también están disponibles grandes conjuntos de datos, ej., Colossal Clean Crawled Corpus (C4) y sus versiones multilingües mC4 en más de 100 idiomas. 

Por lo tanto, el objetivo de esta tarea es explorar y analizar en profundidad la información y conocimiento existente, las infraestructuras y modelos lingüísticos disponibles, para identificar el potencial de estos recursos y sus limitaciones para NLG multilingüe. Esta tarea resulta en un cálculo específico de recopilación de conocimientos adecuada para NLG. Además, explora en qué medida los grandes recursos disponibles de modelos de lenguaje e infraestructuras se pueden utilizar como base para futuras investigaciones en las tareas 1.2, 1.3 y en los próximos paquetes de trabajo. 

Hito: Modelos lingüísticos multilingües, infraestructuras lingüísticas,  fuentes de conocimiento existentes y conjuntos de datos para NLG.

Tarea 1.2 Extracción y control de calidad del conocimiento

Asegurar una alta calidad y precisión del conocimiento es crucial para crear modelos NLG que aprendan a evitar la incorporación de sesgos sociales e información inexacta en pasos posteriores (Sheng et al., 2021). Esto también es necesario antes de extraer información que puede ser utilizada en el desarrollo de tareas y aplicaciones posteriores, con resultados potencialmente negativos si los conjuntos de datos empleados y los recursos lingüísticos no se limpian adecuadamente ni están libres de sesgos. Por lo tanto, el objetivo de esta tarea es definir una metodología y unas métricas para analizar y detectar posibles sesgos en las fuentes de conocimiento analizadas en la Tarea 1.1. 

Hito: Metodología y conjunto de métricas que determinan y aseguran la calidad de los modelos lingüísticos para garantizar que estén libres de sesgos.

Tarea 1.3 Descubrimiento y representación del conocimiento

Una vez que el conocimiento de las tareas anteriores (Tarea 1.1 y Tarea 1.2) se haya limpiado y preparado, el objetivo de esta tarea es centralizarlo y representarlo por medio de un Knowledge Lake interactivo (KL) que contendrá información heterogénea y multilingüe. Nuestra idea es coger inspiración del recurso “Know Your Data”  creado por Google, pero con la novedad de ampliarlo con información no estructurada (es decir, texto) y no solo datos estructurados, como ocurre ahora. El KL podría explotarse de las siguientes maneras: i) como un recurso de conocimiento independiente para realizar actividades analíticas con el fin de obtener más información sobre un tema, entidad, etc., basándose potencialmente en ontologías para este propósito; ii) descubrir conocimiento implícito que puede ser inferido sobre el conocimiento que ya contiene a través de aprendizaje profundo y redes neuronales, por ejemplo; y, iii) al extenderse y ser enriquecido con nuevos conocimientos de entrada asegurando siempre la calidad del conocimiento a incorporar. 

Ya sea para descubrir nuevos conocimientos implícitos o ampliar el conocimiento existente, los enfoques basados en gráficos de conocimiento, como en COMET (Bosselut et al., 2019), así como las técnicas de arranque combinadas con machine learning o deep learning (Consuegra-Ayala et al., 2021) pueden ser utilizados.

Hito: desarrollo de un knowledge lake interactivo, heterogéneo y multilingüe.