El proyecto, liderado por la Universidad de La Frontera, abre la primera base de datos abierta para procesamiento de lenguaje natural en una lengua originaria.
El corpus reúne textos, grabaciones y transcripciones recopiladas junto a comunidades y hablantes, con foco en preservar variantes territoriales del mapudungun.
El equipo liberó el conjunto de datos bajo licencia abierta para que otros grupos puedan entrenar y auditar modelos, en un campo donde las lenguas originarias suelen quedar fuera.
