ProjektTrustworthy multi-scale manifold learning for genomic and transcriptomic data

Grunddaten

Titel:
Trustworthy multi-scale manifold learning for genomic and transcriptomic data
Laufzeit:
01.01.2022 bis 01.01.2025
Abstract / Kurz- beschreibung:
In den letzten Jahren sind große hochdimensionale Datensätze in der
Biologie alltäglich geworden. Zum Beispiel produziert die Einzelzell-
Transkriptomik routinemäßig Datensätze mit Stichprobengrößen von
Hunderttausenden von Zellen und einer Dimensionalität von
Zehntausenden von Genen. In ähnlicher Weise können genomische
Datensätze Hunderttausende von Genomen von Menschen
umfassen, die mit Millionen von Einzelnukleotid-Polymorphismen
profiliert sind. Ein charakteristisches Merkmal solcher Datensätze ist
ihre hierarchische Organisation, mit biologisch bedeutsamen
Strukturen auf mehreren Ebenen. Solche Datensätze erfordern
adäquate computergestützte Methoden zur Datenanalyse,
einschließlich der unüberwachten Datenexploration, um den
Forschern eine kompakte Darstellung und sinnvolle Nutzung ihrer
Daten zu ermöglichen. In der Einzelzell-Transkriptomik ist es üblich,
niedrig-dimensionale Einbettungen der Daten mit Algorithmen wie z.B.
t-SNE oder UMAP zu generieren, aber die existierenden Methoden
reichen nicht aus, um die hierarchische Struktur der Daten
darzustellen. Während sie sich durch die Erhaltung der lokalen
Struktur auszeichnen, sind sie nicht in der Lage, die größere, globale
Struktur, die oft in den Daten vorhanden ist, zu rekapitulieren, was
eine korrekte Interpretation der Einbettung erschwert. In diesem
Projekt ist es unser erstes Ziel, eine
Dimensionalitätsreduktionsmethode zu entwickeln, die in der Lage ist,
entscheidende Eigenschaften von hochdimensionalen Daten zu
erhalten, wie z. B. die lokale Clusterstruktur, kontinuierliche
Trajektorien und die globale hierarchische Organisation. Das zweite
Ziel ist es, eine Reihe von Qualitätsmetriken zu entwickeln, die es uns
ermöglichen, bestehende und neue Algorithmen an einer Reihe von
anspruchsvollen Datensätzen zu messen. Schließlich ist das dritte
Ziel, diese Maschinerie an ultra-hochdimensionale Daten aus der Populationsgenomik anzupassen. Auf der technischen Ebene werden
wir uns auf die k-nearest-neighbour Graphen und das Graph Coarse-
Graining stützen. Unsere Arbeit wird für praktische Anwendungen in
der Biologie und Bioinformatik nützlich sein, während sie gleichzeitig
von großem Interesse für den Manifold-Learning-Teil der Machine-
Learning-Community ist.

Beteiligte Mitarbeiter/innen

Leiter/innen

Hertie Institute for Artificial Intelligence in Brain Health (HIAI)
Nichtklinische Institute, Medizinische Fakultät

Ansprechpartner/innen

Hertie Institute for Artificial Intelligence in Brain Health (HIAI)
Nichtklinische Institute, Medizinische Fakultät
Interfakultäres Institut für Biomedizinische Informatik (IBMI)
Interfakultäre Institute
Exzellenzcluster: Maschinelles Lernen: Neue Perspektiven für die Wissenschaft (CML)
Zentren oder interfakultäre wissenschaftliche Einrichtungen
Tübingen AI Center
Fachbereich Informatik, Mathematisch-Naturwissenschaftliche Fakultät

Lokale Einrichtungen

Universitäts-Augenklinik
Department für Augenheilkunde
Kliniken und klinische Institute, Medizinische Fakultät
Forschungsinstitut für Augenheilkunde
Department für Augenheilkunde
Kliniken und klinische Institute, Medizinische Fakultät
Werner Reichardt Centrum für Integrative Neurowissenschaften (CIN)
Zentren oder interfakultäre wissenschaftliche Einrichtungen
Universität Tübingen

Geldgeber

Bonn, Nordrhein-Westfalen, Deutschland
Hilfe

wird permanent gelöscht. Dies kann nicht rückgängig gemacht werden.