ProjectXEI – Extremely Efficient Inference for Large Context Length
Basic data
Acronym:
XEI
Title:
Extremely Efficient Inference for Large Context Length
Duration:
01/10/2024 to 30/09/2027
Abstract / short description:
Das Projekt XEI - Extremely Efficient Inference for Large Context Length hat zum Ziel Transformer-Architekturen, wie sie in modernen KI-Modellen verwendet werden, effizient einsetzbar zumachen, insbesondere beim Verarbeiten von Anfragen mit großen Kontextlängen. Transformer-Architekturen haben verschiedene Bereiche der KI, wie die Verarbeitung natürlicher Sprache, revolutioniert. Allerdings bleibt ihre Bereitstellung, insbesondere bei großen Kontextlängen, aufgrund des erhöhten Rechen- und Speicherbedarfs eine Herausforderung.
Dieses Projekt hat sich zum Ziel gesetzt, eine Architektur zu entwickeln, die eine effiziente Inferenz über extrem lange Kontextbereiche ermöglicht. Dazu wird eine dreistufige Pipeline verwendet: Ein Memory-Modul liefert eine semantisch komprimierte Darstellung über einen langen Kontext, z.B. eine Dokumentation oder Nachrichten-Korpora. Die Ausgabe dieses Moduls wird an (2) ein Mid-Range-Attention-Modul weitergeleitet. Diese Mid-Range-Attention wird semantische Blöcke nutzen, um effizient Token über mittlere Sequenzlängen zu generieren, die weiter auf die Benutzereingaben abgestimmt werden können. Die Ausgabe wird dann durch ein klassisches Transformer-Modul erzeugt, basierend auf den Kontext-Tokens der Mid-Range-Attention.
Eine solche effiziente Inferenz auf großen Datenmengen wird zukünftigen KI-Modellen erlauben, mehr Eingabedaten mittels einfacherer Hardware zu verarbeiten. Da die Kosten für Inferenz den größten Teil der laufenden Kosten kommerzieller KI-Systeme ausmachen, kann die Reduzierung des Gesamtspeicherverbrauchs entweder den Einsatz kleinerer, kostengünstigerer Hardware ermöglichen oder größere Batch-Größen für GPUs mit größerem Speicher nutzen. Beides erlaubt darüber hinaus die CO2-Emissionen solcher Systeme zu verringern. Darüber hinaus könnte das vorgeschlagene System für mehr Transparenz und Sicherheit in kommerziellen Anwendungen sorgen, indem es relevante Merkmale in wenigen semantischen Konzepten erfasst und deren direkte Manipulation ermöglicht. Insgesamt bieten diese Aspekte – Effizienz und Transparenz – einen Wettbewerbsvorteil im Vergleich zu internationalen Mitbewerbern und machen es insbesondere für den EU-Markt attraktiv.
Dieses Projekt hat sich zum Ziel gesetzt, eine Architektur zu entwickeln, die eine effiziente Inferenz über extrem lange Kontextbereiche ermöglicht. Dazu wird eine dreistufige Pipeline verwendet: Ein Memory-Modul liefert eine semantisch komprimierte Darstellung über einen langen Kontext, z.B. eine Dokumentation oder Nachrichten-Korpora. Die Ausgabe dieses Moduls wird an (2) ein Mid-Range-Attention-Modul weitergeleitet. Diese Mid-Range-Attention wird semantische Blöcke nutzen, um effizient Token über mittlere Sequenzlängen zu generieren, die weiter auf die Benutzereingaben abgestimmt werden können. Die Ausgabe wird dann durch ein klassisches Transformer-Modul erzeugt, basierend auf den Kontext-Tokens der Mid-Range-Attention.
Eine solche effiziente Inferenz auf großen Datenmengen wird zukünftigen KI-Modellen erlauben, mehr Eingabedaten mittels einfacherer Hardware zu verarbeiten. Da die Kosten für Inferenz den größten Teil der laufenden Kosten kommerzieller KI-Systeme ausmachen, kann die Reduzierung des Gesamtspeicherverbrauchs entweder den Einsatz kleinerer, kostengünstigerer Hardware ermöglichen oder größere Batch-Größen für GPUs mit größerem Speicher nutzen. Beides erlaubt darüber hinaus die CO2-Emissionen solcher Systeme zu verringern. Darüber hinaus könnte das vorgeschlagene System für mehr Transparenz und Sicherheit in kommerziellen Anwendungen sorgen, indem es relevante Merkmale in wenigen semantischen Konzepten erfasst und deren direkte Manipulation ermöglicht. Insgesamt bieten diese Aspekte – Effizienz und Transparenz – einen Wettbewerbsvorteil im Vergleich zu internationalen Mitbewerbern und machen es insbesondere für den EU-Markt attraktiv.
Involved staff
Managers
Department of Informatics
Faculty of Science
Faculty of Science
Contact persons
Faculty of Science
University of Tübingen
University of Tübingen
Institute for Theoretical Physics (ITP)
Department of Physics, Faculty of Science
Department of Physics, Faculty of Science
CRC 1233 - Robust Vision — Inference Principles and Neural Mechanisms
Collaborative research centers and transregios
Collaborative research centers and transregios
Bernstein Center for Computational Neuroscience Tübingen (BCCN)
Interfaculty Institutes
Interfaculty Institutes
Tübingen AI Center
Department of Informatics, Faculty of Science
Department of Informatics, Faculty of Science
Local organizational units
Tübingen AI Center
Department of Informatics
Faculty of Science
Faculty of Science
Institute for Theoretical Physics (ITP)
Department of Physics
Faculty of Science
Faculty of Science
Funders
Bonn, Nordrhein-Westfalen, Germany