FIT - Projekt

Grunddaten

Titel:

Trustworthy multi-scale manifold learning for genomic and transcriptomic data

Laufzeit:

01.01.2022 bis 01.01.2025

Abstract / Kurz- beschreibung:

In den letzten Jahren sind große hochdimensionale Datensätze in der
Biologie alltäglich geworden. Zum Beispiel produziert die Einzelzell-
Transkriptomik routinemäßig Datensätze mit Stichprobengrößen von
Hunderttausenden von Zellen und einer Dimensionalität von
Zehntausenden von Genen. In ähnlicher Weise können genomische
Datensätze Hunderttausende von Genomen von Menschen
umfassen, die mit Millionen von Einzelnukleotid-Polymorphismen
profiliert sind. Ein charakteristisches Merkmal solcher Datensätze ist
ihre hierarchische Organisation, mit biologisch bedeutsamen
Strukturen auf mehreren Ebenen. Solche Datensätze erfordern
adäquate computergestützte Methoden zur Datenanalyse,
einschließlich der unüberwachten Datenexploration, um den
Forschern eine kompakte Darstellung und sinnvolle Nutzung ihrer
Daten zu ermöglichen. In der Einzelzell-Transkriptomik ist es üblich,
niedrig-dimensionale Einbettungen der Daten mit Algorithmen wie z.B.
t-SNE oder UMAP zu generieren, aber die existierenden Methoden
reichen nicht aus, um die hierarchische Struktur der Daten
darzustellen. Während sie sich durch die Erhaltung der lokalen
Struktur auszeichnen, sind sie nicht in der Lage, die größere, globale
Struktur, die oft in den Daten vorhanden ist, zu rekapitulieren, was
eine korrekte Interpretation der Einbettung erschwert. In diesem
Projekt ist es unser erstes Ziel, eine
Dimensionalitätsreduktionsmethode zu entwickeln, die in der Lage ist,
entscheidende Eigenschaften von hochdimensionalen Daten zu
erhalten, wie z. B. die lokale Clusterstruktur, kontinuierliche
Trajektorien und die globale hierarchische Organisation. Das zweite
Ziel ist es, eine Reihe von Qualitätsmetriken zu entwickeln, die es uns
ermöglichen, bestehende und neue Algorithmen an einer Reihe von
anspruchsvollen Datensätzen zu messen. Schließlich ist das dritte
Ziel, diese Maschinerie an ultra-hochdimensionale Daten aus der Populationsgenomik anzupassen. Auf der technischen Ebene werden
wir uns auf die k-nearest-neighbour Graphen und das Graph Coarse-
Graining stützen. Unsere Arbeit wird für praktische Anwendungen in
der Biologie und Bioinformatik nützlich sein, während sie gleichzeitig
von großem Interesse für den Manifold-Learning-Teil der Machine-
Learning-Community ist.

Beteiligte Mitarbeiter/innen

Leiter/innen

Kobak, Dmitry

Hertie Institute for Artificial Intelligence in Brain Health (HIAI)
Nichtklinische Institute, Medizinische Fakultät

Ansprechpartner/innen

Berens, Philipp

Hertie Institute for Artificial Intelligence in Brain Health (HIAI)
Nichtklinische Institute, Medizinische Fakultät

Interfakultäres Institut für Biomedizinische Informatik (IBMI)
Interfakultäre Institute

Exzellenzcluster: Maschinelles Lernen: Neue Perspektiven für die Wissenschaft (CML)
Zentren oder interfakultäre wissenschaftliche Einrichtungen

Tübingen AI Center
Fachbereich Informatik, Mathematisch-Naturwissenschaftliche Fakultät

Lokale Einrichtungen

Universitäts-Augenklinik

Department für Augenheilkunde
Kliniken und klinische Institute, Medizinische Fakultät

Forschungsinstitut für Augenheilkunde

Department für Augenheilkunde
Kliniken und klinische Institute, Medizinische Fakultät

Werner Reichardt Centrum für Integrative Neurowissenschaften (CIN)

Zentren oder interfakultäre wissenschaftliche Einrichtungen
Universität Tübingen

Geldgeber

Deutsche Forschungsgemeinschaft e.V. (DFG)

Bonn, Nordrhein-Westfalen, Deutschland