Auf der Suche nach verlorenen Sprachen
Ist die Computertechnologie ein neuer „Stein von Rosette“? Die Arbeit von Forschern am Massachusetts Institute of Technology (MIT) scheint dies zu beweisen.
Übersetzungstechniken stehen in engem Zusammenhang mit der Entwicklung der Linguistik und dem tieferen Verständnis der derzeit in der Welt gesprochenen Sprachen: Eine Weiterentwicklung in diesem Bereich ist nicht möglich, ohne mehr über die sogenannten „toten“ Sprachen herauszufinden, die unseren heutigen mündlichen und schriftlichen Kommunikationssystemen vorausgingen.
Zu diesem Zweck haben Regina Barzilay und Jiaming Luo, Forscher am Computer Science and Artificial Intelligence Laboratory (CSAIL), ein Labor des MIT, 2021 ein Projekt für eine Übersetzungssoftware gestartet, mit der alte Sprachen entschlüsselt werden sollen, die Sprachwissenschaftler bis heute nicht verstehen. Das Team hofft, ein Tool entwickeln zu können, das diese „toten“ Sprachen nur mithilfe der wenigen vorhandenen Textsegmente und kontextuellen und historischen Informationen entschlüsseln kann.
Mit dem System „Phonetic Prior“ können Sprachstrukturen auf der Grundlage wissenschaftlicher Regeln der Linguistik aufgedeckt und deren Entwicklungsmuster über die Jahrhunderte hinweg nachverfolgt werden – zum Beispiel haben die in verwandten Sprachen verwendeten Symbole tendenziell eine ähnliche Verteilung und Regelmäßigkeit und verwandte Wörter meistens eine ähnliche Schriftzeichenfolge.
Basierend auf diesen Erkenntnissen und durch auf maschinelles Lernen gestützte Analysen, Vergleiche und Datenverarbeitung lassen sich bisher unbekannte Sprachen entschlüsseln.
Einer der „Testfälle“ der Forscher war „Linear B“, eine Schriftform, die von der minoischen Zivilisation auf der griechischen Insel Kreta vom 14. bis 12. Jh. v. Chr. verwendet wurde. Einige Jahrhunderte später wurde das Altgriechische zur meistgesprochenen und -geschriebenen Sprache in der Region.
Ausgehend von diesen kontextuellen Hinweisen und den verfügbaren Daten über die Sprache der alten Griechen verglich das Programm die Schriftzeichen und möglichen Phoneme mit der späteren Sprache, sodass ein Großteil der Bedeutung des Textes durch die Korrelation der sprachlichen Muster entschlüsselt werden konnte.
Darin liegt vorerst auch die Einschränkung dieser Technologie: Sie setzt das Vorhandensein eines gewissen Maßes an Informationen über die Sprache voraus, die der analysierten Sprache nachfolgt. In jedem Fall handelt es sich um eine wichtige Entwicklung auf dem Gebiet der Linguistik, die zur Entwicklung neuer Instrumente für den Einsatz im Bereich der professionellen Übersetzung führen könnte.
Diese Forschung könnte zu weiteren technologischen Fortschritten bei der maschinellen Übersetzung führen, die täglich von der breiten Öffentlichkeit (über Online-Tools in Suchmaschinen) und von Übersetzern in Form von CAT-Anwendungen (Computer Assisted Translation) genutzt werden.