FIT - Projekt

Grunddaten

Akronym:

GeMTeX

Titel:

Medizininformatik-Plattform "German Medical Text Corpus"

Laufzeit:

01.06.2023 bis 30.09.2024

Abstract / Kurz- beschreibung:

GeMTeX wird ein umfangreiches anonymisiertes deutschsprachiges Textkorpus mit klinischen Texten aus Informationssystemen von sechs Universitätskliniken bereitstellen. Der Inhalt dieser Texte wird für NLP durch Annotation von Entitäten und Relationen zugänglich gemacht, die mit zusätzlichen Metainformationen über die Texte angereichert werden. Eine konsequente Governance bietet einen stabilen rechtlichen Rahmen für die Nutzung des Korpus, basierend auf den Vorschriften der MII. Modernste NLP-Methoden werden zum Aufbau, zur Vorannotation und Annotation des Korpus und zum Training von Sprachmodellen eingesetzt.
Im Kern wird GeMTeX klinische Texte für NLP an sechs deutschen Universitätskliniken bereitstellen, die von geschulten Annotatoren annotiert werden. Die Texte werden so ausgewählt, dass sie verschiedene medizinische Fachrichtungen und Textarten ausgewogen repräsentieren (z. B. Entlassungsberichte, Befundberichte). Meta-Informationen werden hinzugefügt, um die Texte näher zu beschreiben. Außerdem kann auf strukturierte Daten aus den Datenintegrationszentren zu den entsprechenden Patienten zugegriffen werden. Die Annotation wird von Teams aus geschulten studentischen Hilfskräften und Dokumentaren nach Annotationsrichtlinien durchgeführt. Die Teams führen für jedes Dokument eine Basisannotation durch und zusätzlich werden in vier medizinischen Bereichen (Kardiologie, Pathologie, Pharmazie und Neurologie) vertiefende Annotationen durchgeführt, jeweils für einen Teilkorpus. Für die Annotation wird ein strukturiertes Annotationsvokabular verwendet, das auf semantischen Standards wie standardisierten Terminologien (z. B. SNOMED CT, ICD-10, TNM und anderen), Ontologien und Informationsmodellen (FHIR) basiert. Für die Annotation werden modernste Tools eingesetzt, um eine möglichst effiziente und qualitativ hochwertige Annotation zu erreichen. Vorannotationen, die auf bestehenden Terminologien, Algorithmen und Modellen basieren, vereinfachen und beschleunigen den Annotationsprozess. Der Open-Source Annotationseditor INCEpTION wird eingesetzt, da er Modelle zur Unterstützung der Annotation auf der Grundlage interaktiven Lernens integrieren kann. Die Annotationsrichtlinien werden mit den Annotationswerkzeugen erprobt und später validiert. Für die Annotatoren wird eine Blended-Learning-Schulung angeboten, und die Qualität der Annotationen wird kontinuierlich überprüft und verbessert.
GeMTeX wird nicht nur einen Textkorpus zur Verfügung stellen, sondern auch aktuelle Werkzeuge und Methoden zur Korpusgenerierung und zum NLP. Je nach Fragestellung können unterschiedliche Integrationsszenarien für Texte in GeMTeX realisiert werden, die eine lokale, verteilte und zentrale Nutzung ermöglichen. Daher wird auch verteiltes maschinelles Lernen innerhalb von GeMTeX und in Kooperation mit anderen Projekten umgesetzt. State-of-the-Art Deep-Learning-Modelle werden für konkrete Anwendungsszenarien trainiert und validiert.

Beteiligte Mitarbeiter/innen

Leiter/innen

Eickhoff, Carsten

Medizinische Fakultät
Universität Tübingen

Department für IT und Angewandte Medizininformatik (DITAMI)
Kliniken und klinische Institute, Medizinische Fakultät

Institut für Angewandte Medizininformatik (AMI)
Department für IT und Angewandte Medizininformatik (DITAMI), Kliniken und klinische Institute, Medizinische Fakultät

Interfakultäres Institut für Biomedizinische Informatik (IBMI)
Interfakultäre Institute

Lokale Einrichtungen

Medizinisches Datenintegrationszentrum (meDIC)

Department für IT und Angewandte Medizininformatik (DITAMI)
Kliniken und klinische Institute, Medizinische Fakultät

Fachbereich Informatik

Mathematisch-Naturwissenschaftliche Fakultät
Universität Tübingen

Geldgeber

Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR)

Bonn, Nordrhein-Westfalen, Deutschland

Forschungs-Information Tübingen (FIT)

ProjektGeMTeX – Medizininformatik-Plattform "German Medical Text Corpus"

Grunddaten

Beteiligte Mitarbeiter/innen

Leiter/innen

Lokale Einrichtungen

Geldgeber