ProjektXEI – Extremely Efficient Inference for Large Context Length

Grunddaten

Akronym:
XEI
Titel:
Extremely Efficient Inference for Large Context Length
Laufzeit:
01.10.2024 bis 30.09.2027
Abstract / Kurz- beschreibung:
Das Projekt XEI - Extremely Efficient Inference for Large Context Length hat zum Ziel Transformer-Architekturen, wie sie in modernen KI-Modellen verwendet werden, effizient einsetzbar zumachen, insbesondere beim Verarbeiten von Anfragen mit großen Kontextlängen. Transformer-Architekturen haben verschiedene Bereiche der KI, wie die Verarbeitung natürlicher Sprache, revolutioniert. Allerdings bleibt ihre Bereitstellung, insbesondere bei großen Kontextlängen, aufgrund des erhöhten Rechen- und Speicherbedarfs eine Herausforderung.
Dieses Projekt hat sich zum Ziel gesetzt, eine Architektur zu entwickeln, die eine effiziente Inferenz über extrem lange Kontextbereiche ermöglicht. Dazu wird eine dreistufige Pipeline verwendet: Ein Memory-Modul liefert eine semantisch komprimierte Darstellung über einen langen Kontext, z.B. eine Dokumentation oder Nachrichten-Korpora. Die Ausgabe dieses Moduls wird an (2) ein Mid-Range-Attention-Modul weitergeleitet. Diese Mid-Range-Attention wird semantische Blöcke nutzen, um effizient Token über mittlere Sequenzlängen zu generieren, die weiter auf die Benutzereingaben abgestimmt werden können. Die Ausgabe wird dann durch ein klassisches Transformer-Modul erzeugt, basierend auf den Kontext-Tokens der Mid-Range-Attention.
Eine solche effiziente Inferenz auf großen Datenmengen wird zukünftigen KI-Modellen erlauben, mehr Eingabedaten mittels einfacherer Hardware zu verarbeiten. Da die Kosten für Inferenz den größten Teil der laufenden Kosten kommerzieller KI-Systeme ausmachen, kann die Reduzierung des Gesamtspeicherverbrauchs entweder den Einsatz kleinerer, kostengünstigerer Hardware ermöglichen oder größere Batch-Größen für GPUs mit größerem Speicher nutzen. Beides erlaubt darüber hinaus die CO2-Emissionen solcher Systeme zu verringern. Darüber hinaus könnte das vorgeschlagene System für mehr Transparenz und Sicherheit in kommerziellen Anwendungen sorgen, indem es relevante Merkmale in wenigen semantischen Konzepten erfasst und deren direkte Manipulation ermöglicht. Insgesamt bieten diese Aspekte – Effizienz und Transparenz – einen Wettbewerbsvorteil im Vergleich zu internationalen Mitbewerbern und machen es insbesondere für den EU-Markt attraktiv.

Beteiligte Mitarbeiter/innen

Leiter/innen

Fachbereich Informatik
Mathematisch-Naturwissenschaftliche Fakultät

Ansprechpartner/innen

Mathematisch-Naturwissenschaftliche Fakultät
Universität Tübingen
Institut für Theoretische Physik (ITP)
Fachbereich Physik, Mathematisch-Naturwissenschaftliche Fakultät
SFB 1233 - Robustheit des Sehens – Prinzipien der Inferenz und der neuronalen Mechanismen
Sonderforschungsbereiche und Transregios
Bernstein Center for Computational Neuroscience Tübingen (BCCN)
Interfakultäre Institute
Tübingen AI Center
Fachbereich Informatik, Mathematisch-Naturwissenschaftliche Fakultät

Lokale Einrichtungen

Tübingen AI Center
Fachbereich Informatik
Mathematisch-Naturwissenschaftliche Fakultät
Institut für Theoretische Physik (ITP)
Fachbereich Physik
Mathematisch-Naturwissenschaftliche Fakultät

Geldgeber

Bonn, Nordrhein-Westfalen, Deutschland
Hilfe

wird permanent gelöscht. Dies kann nicht rückgängig gemacht werden.