Em busca das línguas perdidas
Será a tecnologia informática uma nova “Pedra de Roseta“? O trabalho de investigadores do Massachusetts Institute of Technology (MIT) parece estar a demonstrar que sim.
As técnicas de tradução estão intimamente relacionadas com a evolução da linguística e a compreensão mais profunda dos idiomas atualmente utilizados no mundo: e é impossível continuar a evoluir neste campo sem saber mais sobre as chamadas línguas “mortas” que precederam os nossos atuais sistemas de comunicação verbal e escrita.
Foi com este objetivo que Regina Barzilay e Jiaming Luo, investigadores do Computer Science and Artificial Intelligence Laboratory (CSAIL), um laboratório do MIT, deram início, em 2021, a um projeto de software de tradução que poderá decifrar línguas antigas cuja compreensão tem escapado aos linguistas da atualidade. A equipa espera poder criar uma ferramenta que permita decifrar estas línguas “mortas” recorrendo apenas aos poucos segmentos de texto disponíveis e algumas pistas contextuais e históricas.
O sistema “Phonetic Prior” permite descortinar estas estruturas linguísticas, com base em regras científicas da linguística que permitem detetar padrões na evolução das mesmas ao longo dos séculos — por exemplo, os símbolos utilizados em línguas aparentadas tendem para uma distribuição e regularidade semelhantes; as palavras aparentadas tendem a possuir uma ordem de caracteres semelhante; e assim por diante.
A partir deste conjunto de conhecimentos, e recorrendo à análise, comparação e processamento de dados via machine learning, torna-se possível decifrar uma língua anteriormente desconhecida.
Um dos “casos de teste” dos investigadores foi o “Linear B”, uma forma de escrita utilizada pela civilização minóica, na ilha grega de Creta, entre os séculos XIV e XII A.C.. Alguns séculos mais tarde, o grego antigo tornou-se a língua mais falada e escrita na região.
A partir destas pistas contextuais e dos dados disponíveis sobre a língua dos antigos gregos, o programa comparou os caracteres e possíveis fonemas com a língua posterior, permitindo assim decifrar grande parte do significado do texto através da correlação de padrões linguísticos.
Esta é para já a limitação desta tecnologia: é preciso ter alguma informação sobre o idioma que sucedeu à língua que está a ser analisada. Seja como for, trata-se de um desenvolvimento importante no campo da linguística que poderá levar ao surgimento de novas ferramentas para uso na área da tradução profissional.
Esta investigação poderá levar a novos avanços nas tecnologias de tradução automática utilizadas diariamente pelo público em geral (através de ferramentas online em motores de busca) e por tradutores que recorrem a aplicações CAT (Computer Assisted Translation).