ProjectGeMTeX – Medizininformatik-Plattform "German Medical Text Corpus"

Basic data

Acronym:
GeMTeX
Title:
Medizininformatik-Plattform "German Medical Text Corpus"
Duration:
01/06/2023 to 30/09/2024
Abstract / short description:
GeMTeX wird ein umfangreiches anonymisiertes deutschsprachiges Textkorpus mit klinischen Texten aus Informationssystemen von sechs Universitätskliniken bereitstellen. Der Inhalt dieser Texte wird für NLP durch Annotation von Entitäten und Relationen zugänglich gemacht, die mit zusätzlichen Metainformationen über die Texte angereichert werden. Eine konsequente Governance bietet einen stabilen rechtlichen Rahmen für die Nutzung des Korpus, basierend auf den Vorschriften der MII. Modernste NLP-Methoden werden zum Aufbau, zur Vorannotation und Annotation des Korpus und zum Training von Sprachmodellen eingesetzt.
Im Kern wird GeMTeX klinische Texte für NLP an sechs deutschen Universitätskliniken bereitstellen, die von geschulten Annotatoren annotiert werden. Die Texte werden so ausgewählt, dass sie verschiedene medizinische Fachrichtungen und Textarten ausgewogen repräsentieren (z. B. Entlassungsberichte, Befundberichte). Meta-Informationen werden hinzugefügt, um die Texte näher zu beschreiben. Außerdem kann auf strukturierte Daten aus den Datenintegrationszentren zu den entsprechenden Patienten zugegriffen werden. Die Annotation wird von Teams aus geschulten studentischen Hilfskräften und Dokumentaren nach Annotationsrichtlinien durchgeführt. Die Teams führen für jedes Dokument eine Basisannotation durch und zusätzlich werden in vier medizinischen Bereichen (Kardiologie, Pathologie, Pharmazie und Neurologie) vertiefende Annotationen durchgeführt, jeweils für einen Teilkorpus. Für die Annotation wird ein strukturiertes Annotationsvokabular verwendet, das auf semantischen Standards wie standardisierten Terminologien (z. B. SNOMED CT, ICD-10, TNM und anderen), Ontologien und Informationsmodellen (FHIR) basiert. Für die Annotation werden modernste Tools eingesetzt, um eine möglichst effiziente und qualitativ hochwertige Annotation zu erreichen. Vorannotationen, die auf bestehenden Terminologien, Algorithmen und Modellen basieren, vereinfachen und beschleunigen den Annotationsprozess. Der Open-Source Annotationseditor INCEpTION wird eingesetzt, da er Modelle zur Unterstützung der Annotation auf der Grundlage interaktiven Lernens integrieren kann. Die Annotationsrichtlinien werden mit den Annotationswerkzeugen erprobt und später validiert. Für die Annotatoren wird eine Blended-Learning-Schulung angeboten, und die Qualität der Annotationen wird kontinuierlich überprüft und verbessert.
GeMTeX wird nicht nur einen Textkorpus zur Verfügung stellen, sondern auch aktuelle Werkzeuge und Methoden zur Korpusgenerierung und zum NLP. Je nach Fragestellung können unterschiedliche Integrationsszenarien für Texte in GeMTeX realisiert werden, die eine lokale, verteilte und zentrale Nutzung ermöglichen. Daher wird auch verteiltes maschinelles Lernen innerhalb von GeMTeX und in Kooperation mit anderen Projekten umgesetzt. State-of-the-Art Deep-Learning-Modelle werden für konkrete Anwendungsszenarien trainiert und validiert.

Involved staff

Managers

Faculty of Medicine
University of Tübingen
Department for IT and Applied Medical Informatics (DITAMI)
Hospitals and clinical institutes, Faculty of Medicine
Institute for Applied Medical Informatics (AMI)
Department for IT and Applied Medical Informatics (DITAMI), Hospitals and clinical institutes, Faculty of Medicine
Institute for Bioinformatics and Medical Informatics (IBMI)
Interfaculty Institutes

Local organizational units

Medical Data Integration Center (meDIC)
Department for IT and Applied Medical Informatics (DITAMI)
Hospitals and clinical institutes, Faculty of Medicine
Department of Informatics
Faculty of Science
University of Tübingen

Funders

Bonn, Nordrhein-Westfalen, Germany
Help

will be deleted permanently. This cannot be undone.