CFP: OpenCor 2021 • Latin American and Iberian Languages Open Corpora Forum

Esta será la cuarta edición de OpenCor, un foro anual cuyo objetivo es agrupar a la comunidad trabajando en la creación de recursos libres para la gran variedad de lenguajes hablados en los países ibéricos y latinoamericanos.

En años recientes el campo de Lingüística Computacional se ha consolidado gracias a la explotación de corpus más grandes, mejores y mejor anotados. La falta de cobertura en los corpus actuales es uno de los cuellos de botella para el procesamiento de lenguaje natural. Por otro lado, producir y mantener dichos recursos es una tarea compleja que muchas veces requiere tiempo, una cantidad considerable de fondos económicos y la cooperación de varios expertos. Esta situación, en la que por un lado necesitamos dichos corpus y por otro lado producirlos con una calidad adecuada y hacerla disponible no es un asunto trivial. Mientras que el “big data” es una tendencia cada vez más en el campo, producir corpus continúa siendo una tarea fuera de los focos en el Procesamiento del Lenguaje Natural, en particular para lenguajes diferentes del inglés. Así, estas lenguas o variantes poseen un menor número de datos a veces no necesariamente suficientes para metodologías de aprendizaje automático u otras. En esta situación es dificultoso publicar y debatir propiamente el trabajo que estos y estas investigadoras realizan. Además, muchos de los eventos más importantes de Procesamiento de Lenguaje Natural no son tan abiertos a descripciones de corpus. Por último, un caso especial es el de las lenguas minoritarias o en peligro de extinción donde tampoco existen demasiados foros donde debatir.

Las comunidades ibéricas y latinoamericanas que producen corpus abiertos tampoco tienen un evento ya establecido en el cual especialistas del área puedan compartir ideas y dificultades, además de obtener una retroalimentación sobre su trabajo. Algunos encuentros especializados han sido celebrados en los últimos años, pero estos no han tenido continuidad o eran muy específicos y no abarcaban a toda la comunidad. Dadas estas condiciones, es común que grupos de países ibéricos y latinoamericanos que comparten intereses y desafíos, no se conozcan o no tengan conocimiento sobre trabajos recién producidos que pueden ser de gran interés.

El Foro OpenCor pretende crear un evento permanente para debatir sobre la producción, anotación y mantenimiento de corpus abiertos para lenguas latinoamericanas e ibéricas, y también crear una lista extensiva para estos recursos. OpenCor acepta trabajos sobre portugués y gallego, español, lenguas indígenas, catalán, aragonés, astur-leones, aranés y cualquier otra lengua hablada en Latinoamérica y en los países ibéricos. Los trabajos sobre lenguas minoritarias, en extinción y/o con pocos recursos son particularmente bienvenidos.

El evento

Esta es la cuarta edición del Foro OpenCor, una tentativa de agregar la comunidad que produce, mantiene y distribuye corpus abiertos para la gran variedad de lenguas habladas en Latinoamérica, en los países ibéricos o en inglés. Todos los trabajos aceptados formarán parte de la Lista OpenCor, una iniciativa de catalogar recursos abiertos producidos para esas lenguas. El evento da la bienvenida, pero no está restringido, a los siguientes temas:

Lanzamiento de nuevos corpus abiertos
Descripción de corpus abiertos ya establecidos
Directivas de creación, estrategias de anotación y mejores prácticas
Mantenimiento y manejo de corpus
Curación y verificación de corpus
Diseño y evaluación de corpus
Estrategias de creación de corpus y dificultades enfrentadas por la comunidad
Aspectos éticos en la creación de corpus

Este año OpenCor Forum será en línea, as a parte de STIL 2021 - Symposium in Information and Human Language Technology:

Envío de trabajos

El Foro OpenCor acepta resúmenes extendidos de hasta una páginas. Los resúmenes deben ser anónimos. Los envíos deben seguir el formato de LNCS sin abstract y pueden estar en una lengua de la Latinoaméricana o Iberérica o Inglés. Los resúmenes aceptados serviran como descripción de los recursos sometidos y aparecerán en la lista de descripción. OpenCor es no archivable, es decir, son bienvenidos los trabajos ya publicados o a ser publicados y el envío al OpenCor no impide futuras publicaciones.

Los autores y las autoras deben proporcionar en sus resúmenes el link de acceso a los recursos descritos. Se espera que esta lista ayude a la comunidad a divulgar y dar continuidad a estos corpus.

Como una de las mayores dificultades para las comunidades en cuestión es justamente la financiación, todos los trabajos aceptados estarán disponibles en la página del evento y aparecerán en la Lista OpenCor, independiente de la presencia de los autores y autoras en el día del encuentro. Con esa iniciativa se pretende que todos los grupos, incluso los que no tengan financiación, puedan tener sus recursos disponibles. Al enviar un trabajo, los autores tendrán que indicar si éste debe ser tenido en cuenta para la presentación o si prefieren proporcionar un video de cinco minutos en cualquier plataforma para reproducirlo durante el evento.

Fechas

Septiembre 08: Primer llamado a artículos
Septiembre 30: Segundo llamado a artículos
Octubre 21 ~~Octubre 13~~: Fecha límite para someter
Notificación de aceptación: Noviembre 1o
Sesión: A ser confirmada pronto (entre noviembre 29 a Diciembre 3, 2021)

Registro al foro

A anunciarse

Organización

Livy Real – americanas s.a. Digital Lab - livyreal [at] gmail.com
Ivan Vladimir Meza – Universidad Nacional Autónoma de Mexico / IIMAS

Comité del programa

Samuel González-López, Technological University of Nogales
Amália Mendes, Centro de Linguística da Universidade de Lisboa
Ximena Gutierrez, University of Zürich
Gabriela Ramírez-De-La-Rosa, Universidad Autónoma Metropolitana Unidad Cuajimalpa
Renata Vieira, PUCRS
Carlos Daniel Hernández Mena, Reykjavík University
Marcos Garcia, Universidade de Santiago de Compostela
Manuel Sánchez, El Colegio de Méxio
Humberto Pérez-Espinosa, CICESE-UT3
Fernanda López, Universidad Nacional Autónoma de México
Víctor Mijangos de La Cruz, Universidad Nacional Autónoma de México
Ignacio Arroyo, Universidad Tecnológica de la Mixteca
Manuel Mager, University of Stuttgart
Aline Villavicencio, University of Sheffield and Federal University of Rio Grande do Sul

Contacto

Cualquier pregunta puede ser enviado a los organizadores: livyreal [at] gmail.com; ivanvladimir [at] turing.iimas.unam.mx