CFP: OpenCor 2024 • Latin American and Iberian Languages Open Corpora Forum

Esta será la quinta edición de OpenCor, un foro anual cuyo objetivo es agrupar a la comunidad trabajando en la creación de recursos libres para la gran variedad de lenguajes hablados en los países ibéricos y latinoamericanos.

En años recientes el campo de Lingüística Computacional se ha consolidado gracias a la explotación de corpus más grandes, mejores y mejor anotados. La falta de cobertura en los corpus actuales es uno de los cuellos de botella para el procesamiento de lenguaje natural. Por otro lado, producir y mantener dichos recursos es una tarea compleja que muchas veces requiere tiempo, una cantidad considerable de fondos económicos y la cooperación de varios expertos. Esta situación, en la que por un lado necesitamos dichos corpus y por otro lado producirlos con una calidad adecuada y hacerla disponible no es un asunto trivial. Mientras que el “big data” es una tendencia cada vez más en el campo, producir corpus continúa siendo una tarea fuera de los focos en el Procesamiento del Lenguaje Natural, en particular para lenguajes diferentes del inglés. Así, estas lenguas o variantes poseen un menor número de datos a veces no necesariamente suficientes para metodologías de aprendizaje automático u otras. En esta situación es dificultoso publicar y debatir propiamente el trabajo que estos y estas investigadoras realizan. Además, muchos de los eventos más importantes de Procesamiento de Lenguaje Natural no son tan abiertos a descripciones de corpus. Por último, un caso especial es el de las lenguas minoritarias o en peligro de extinción donde tampoco existen demasiados foros donde debatir.

Las comunidades ibéricas y latinoamericanas que producen corpus abiertos tampoco tienen un evento ya establecido en el cual especialistas del área puedan compartir ideas y dificultades, además de obtener una retroalimentación sobre su trabajo. Algunos encuentros especializados han sido celebrados en los últimos años, pero estos no han tenido continuidad o eran muy específicos y no abarcaban a toda la comunidad. Dadas estas condiciones, es común que grupos de países ibéricos y latinoamericanos que comparten intereses y desafíos, no se conozcan o no tengan conocimiento sobre trabajos recién producidos que pueden ser de gran interés.

El Foro OpenCor pretende crear un evento permanente para debatir sobre la producción, anotación y mantenimiento de corpus abiertos para lenguas latinoamericanas e ibéricas, y también crear una lista extensiva para estos recursos. OpenCor acepta trabajos sobre portugués y gallego, español, lenguas indígenas, catalán, aragonés, astur-leones, aranés y cualquier otra lengua hablada en Latinoamérica y en los países ibéricos. Los trabajos sobre lenguas minoritarias, en extinción y/o con pocos recursos son particularmente bienvenidos.

El evento

Esta es la quinta edición del Foro OpenCor, una tentativa de agregar la comunidad que produce, mantiene y distribuye corpus abiertos para la gran variedad de lenguas habladas en Latinoamérica, en los países ibéricos o en inglés. Todos los trabajos aceptados formarán parte de la Lista OpenCor, una iniciativa de catalogar recursos abiertos producidos para esas lenguas. El evento da la bienvenida, pero no está restringido, a los siguientes temas:

Lanzamiento de nuevos corpus abiertos
Descripción de corpus abiertos ya establecidos
Directivas de creación, estrategias de anotación y mejores prácticas
Mantenimiento y manejo de corpus
Curación y verificación de corpus
Diseño y evaluación de corpus
Estrategias de creación de corpus y dificultades enfrentadas por la comunidad
Aspectos éticos en la creación de corpus

Este año OpenCor Forum será parte de PROPOR 2024 - 16th International Conference on Computational Processing of Portuguese en Santiago de Compostela (Galiza) del 14 al 15 de marzo.

Envío de trabajos

El Foro OpenCor acepta resúmenes extendidos de hasta una páginas. Los resúmenes deben ser anónimos. Los envíos deben seguir el formato de LNCS sin abstract y pueden estar en una lengua de la Latinoaméricana o Iberérica o Inglés. Los resúmenes aceptados serviran como descripción de los recursos sometidos y aparecerán en la lista de descripción. OpenCor es no archivable, es decir, son bienvenidos los trabajos ya publicados o a ser publicados y el envío al OpenCor no impide futuras publicaciones.

Los autores y las autoras deben proporcionar en sus resúmenes el link de acceso a los recursos descritos. Se espera que esta lista ayude a la comunidad a divulgar y dar continuidad a estos corpus.

Como una de las mayores dificultades para las comunidades en cuestión es justamente la financiación, todos los trabajos aceptados estarán disponibles en la página del evento y aparecerán en la Lista OpenCor, independiente de la presencia de los autores y autoras en el día del encuentro. Con esa iniciativa se pretende que todos los grupos, incluso los que no tengan financiación, puedan tener sus recursos disponibles. Al enviar un trabajo, los autores tendrán que indicar si éste debe ser tenido en cuenta para la presentación o si prefieren proporcionar un video de cinco minutos en cualquier plataforma para reproducirlo durante el evento.

Fechas

Fecha límite para someter: ~~17 de enero~~ 21 de enero
Notificación de aceptación: 1o de febrero
Taller: Día a anunciarse, 14 o 15 de marzo

Organización

Livy Real – americanas s.a. Digital Lab - livyreal [at] gmail.com
Ivan Vladimir Meza – Universidad Nacional Autónoma de Mexico / IIMAS
Valeria de Paiva - Topos Institute

Comité del programa

Carlos Ricardo Cruz Mendoza, IIMAS, UNAM
Carlos Hernandez-Mena, BSC
Fernanda López, ENaCiF-UNAM
Amália Mendes,
Victor Mijangos, FC-UNAM
Manuel Alejandro Sanchez Fernandez, UABC

Contacto

Cualquier pregunta puede ser enviado a los organizadores: livyreal [at] gmail.com; ivanvladimir [at] turing.iimas.unam.mx