WP1 – CORTEX

Plan de trabajo

PT1: Sentido común, semántica, conocimiento del mundo e infraestructuras para la generación de lenguaje natural

El conocimiento semántico del mundo es esencial para resolver una serie de decisiones profundas y complejas en la comprensión y generación del lenguaje natural. Además, para gestionar de forma eficiente y eficaz todo el conocimiento nuevo existente y potencial, también son necesarias infraestructuras lingüísticas adecuadas. El propósito de este paquete de trabajo es explorar múltiples fuentes heterogéneas de conocimiento e infraestructuras existentes para obtener, inferir y gestionar el conocimiento, asegurando su calidad para su posterior integración en el proceso de GLN (PT2). Este paquete de trabajo permitirá la consecución de los objetivos OB1 y OB2, mediante la finalización con éxito de las tres tareas que se describen a continuación. Está coordinado por la investigadora Elena Lloret.

Tarea 1.1 Análisis de las fuentes de conocimiento e infraestructuras lingüísticas existentes

El conocimiento en PLN se estudió inicialmente a través de la creación y desarrollo de recursos de conocimiento y de ontologías (por ejemplo, Cyc (Lenat, 1995), Wordnet (Fellbaum, 1998) o BabelNet (Navigli y Ponzeto, 2010)). Existen otras iniciativas más recientes, como ConceptNet (Speer, Chin y Havasi, 2017), ATOMIC (Sap et al., 2019) o LETO (Estevez-Velarde et al., 2019) con un gran potencial para la comprensión del lenguaje natural, pero su integración y explotación para la generación del lenguaje ha sido limitada. Junto con estos recursos de conocimiento, también podemos encontrar varias infraestructuras lingüísticas, por ejemplo, CLARIN o DARIAH-EU, en las que España se ha integrado como miembro de pleno derecho en septiembre de 2023. Adicionalmente, también encontramos proyectos, cuyo principal objetivo es obtener modelos de lenguaje abiertos y genéricos para fines de investigación y desarrollo industrial. Ejemplos de estos proyectos son MarIA, y LEIA (enfocados en el idioma español), Nós (para la lengua gallega), o AINA o VIVES; estos dos últimos aseguran el uso de la lengua catalana y valenciana en el ámbito digital, respectivamente. Junto con estas infraestructuras y modelos, también están disponibles grandes conjuntos de datos, ej., Colossal Clean Crawled Corpus (C4) y sus versiones multilingües mC4 en más de 100 idiomas.

Por lo tanto, el objetivo de esta tarea, coordinada por el investigador Manuel Palomar, es analizar y explorar en profundidad la información y conocimiento existente, las infraestructuras y modelos de lenguaje disponibles, para identificar el potencial de estos recursos y sus limitaciones para abordar GLN multilingüe. Como resultado, esta tarea recopilará recursos y conocimiento específico para la tarea de GLN. Además, explorará en qué medida los grandes modelos de lenguaje e infraestructuras lingüísticas están disponibles y se pueden utilizar como base para futuras investigaciones en las tareas 1.2, 1.3, así como en el resto de los paquetes de trabajo del proyecto.

Hito: Recopilación de modelos de lenguaje multilingües, infraestructuras lingüísticas, fuentes de conocimiento existentes y conjuntos de datos para GLN.

Tarea 1.2 Extracción y control de calidad del conocimiento

Asegurar una alta calidad y precisión del conocimiento es crucial para crear modelos de GLN que aprendan a evitar la incorporación de sesgos sociales e información inexacta en pasos intermedios o finales de los algoritmos (Sheng et al., 2021). Esto también es necesario antes de extraer información que puede ser utilizada en el desarrollo de tareas y aplicaciones posteriores, con resultados potencialmente negativos si los conjuntos de datos empleados y los recursos lingüísticos no se limpian adecuadamente ni están libres de sesgos. Por lo tanto, el objetivo de esta tarea, coordinada por la investigadora Paloma Moreda, es definir una metodología y un conjunto de métricas para analizar y detectar posibles sesgos en las fuentes de conocimiento analizadas en la Tarea 1.1.

Hito: Metodología y conjunto de métricas que determinan y aseguran la calidad de los modelos lingüísticos para garantizar que estén libres de sesgos.

Tarea 1.3 Descubrimiento y representación del conocimiento

Una vez que el conocimiento de las tareas anteriores (Tarea 1.1 y Tarea 1.2) se haya limpiado y preparado, el objetivo de esta tarea, coordinada por el investigador Manuel Palomar, es centralizarlo y representarlo por medio de un Knowledge Lake (KL) interactivo que contendrá información heterogénea y multilingüe. Tomando como fuente de inspiración el recurso “Know Your Data”[1] creado por Google, la idea sería ampliarlo con información no estructurada (es decir, texto) y no solo datos estructurados, como ocurre ahora. El KL podría explotarse de las siguientes maneras: i) como un recurso de conocimiento independiente para realizar actividades analíticas con el fin de obtener más información sobre un tema, entidad, etc., basándose potencialmente en ontologías para este propósito; ii) descubrir conocimiento implícito que puede ser inferido sobre el conocimiento que ya contiene a través de aprendizaje profundo y redes neuronales, por ejemplo; y, iii) extenderse y enriquecerse con nuevo conocimiento asegurando siempre la calidad del conocimiento a incorporar.

Ya sea para descubrir nuevos conocimientos implícitos o ampliar el conocimiento existente, los enfoques basados en grafos de conocimiento, como COMET (Bosselut et al., 2019), así como las técnicas de bootstrapping combinadas con aprendizaje automático o neuronal (Consuegra-Ayala et al., 2021) también podrían ser analizados como vía alternativa.

Hito: desarrollo de un knowledge lake interactivo, heterogéneo y multilingüe.