Proyecto de Reconocimiento de Habla Busca Revitalizar el Quechua

Captura de pantalla de video de YouTube, publicado por el ingeniero Luis Camacho Caballero.

Kuélap no es solamente un importante sitio arqueológico preincaico peruano de la cultura chachapoyas que se ubica en la región Amazonas. Es también el nombre de la herramienta de recopilación del proyecto QuechuaASR que busca crear un sistema de reconocimiento automático de habla, o RAH, con el quechua.

Luis Camacho es el ingeniero electrónico detrás de este proyecto. Lo puso en marcha motivado por su preocupación real ante el intenso trabajo que se necesita para evitar que ciertos idiomas originarios desaparezcan antes del fin de este siglo. Así lo expresa en su página de Facebook, llamada Atuq Kamachikuq (“atuq” es zorro en quechua):

Voy detrás de mi mayor sueño: la portabilidad computacional de todas las lenguas andino amazónicas.

En una publicación en la misma red social de 2015, Luis Camacho pidió la colaboración de quechuahablantes para registrar por lo menos cien mil palabras, todas habladas por al menos cien personas. Ahora bien, las cien personas en cuestión debían ser hablantes nativos de quechua, y no personas que lo hubiesen aprendido quechua como segunda lengua.

Para lograrlo, se hizo una convocatoria a voluntarios que sean hablantes nativos de lenguas autóctonas, independientemente de dónde vivan. En el primer tipo de acción, los voluntarios dan lectura a los textos compilados.

Para el segundo tipo de acción, los voluntarios se encargan de transcribir el audio. Finalmente, para los grupos focales se ha convocado a un grupo de personas para conversar diferentes temas de la vida cotidiana y con eso se grabarán los audios a transcribir.

Los contenidos de las grabaciones no son la materia principal de investigación. El punto central está en la recopilación del léxico a modo de diccionario de voces. La investigación busca registrar el léxico vigente de las lenguas autóctonas con el objetivo de acopiar ese léxico para construir una base de datos que pueda aplicarse en el desarrollo de instrumentos de computación.

Global Voices conversó brevemente con Luis Camacho sobre los avances de su proyecto.

Luis Camacho (LC): Ya hemos reunido cien horas de corpus de voz y texto alineados a nivel de frases. Esto lo hemos conseguido gracias a donaciones de audio de empresas de radio difusión del sur del Perú y también gracias a la contribución de más de mil voluntarios.
Dejo constancia de que la construcción del Corpus es un proceso permanente, por lo que seguimos necesitando decenas de miles de voluntarios. ¡Todos son bienvenidos!

GV: ¿Cuál es la meta final a la que apunta el proyecto?

LC: El traductor automático es la meta final. Actualmente, estamos trabajando en la primera etapa, que es el conversor de voz a texto. Estamos comprometidos a lanzar esto a comienzos de 2018.

GV: ¿Qué planes tienes después de esto?

LC: Continuar hasta terminar el traductor. También espero este año empezar con la recopilación de corpus de otros idiomas, aymara y ashaninka en primer lugar. Entre mis planes a largo plazo están realizar portabilidad computacional completa de la mayor parte de nuestros idiomas e incluso de algunos otros idiomas sudamericanos. Para eso se necesita financiación, y estoy en búsqueda permanente de fondos.

Por si lo anterior fuera poco, Camacho también se ha propuesto elaborar un traductor automático de quechua/aymara a castellano, inglés y chino y viceversa. En este video, nos explica funcionamiento de la herramienta de transcripción de audios narrados en quechua.

Para participar en el proyecto, contacta con el ingeniero Luis Camacho al correo electrónico qichwa@pucp.pe.

Inicie la conversación

Autores, por favor Conectarse »

Guías

  • Por favor trate a los demás con respeto. Comentarios conteniendo ofensas, obscenidades y ataque personales no serán aprobados.