Daten- und Knowledge Management

Graphdatenbanken im Kampf gegen Diabetes

7. Mai 2019, 10:30 Uhr | Dirk Möller (Neo4j)
Mithilfe von Graphtechnologie können Daten standortübergreifend verbunden und abgefragt werden.
© DZD

Medizinische Daten sind heterogen, komplex und umfangreich. Das macht die Forschung an neuen Behandlungsmethoden und Medikamenten nicht gerade einfacher. Graphdatenbanken stellen hier die Weichen für eine neue Form von Daten- und Knowledge Management und öffnen die Tür zu neuen Erkenntnissen.

Egal ob in Krankenhäusern, in Forschungseinrichtungen, in der Pharmaindustrie oder bei Krankenkassen: Die Menge an medizinischen Daten wächst kontinuierlich und exponenziell. Die Datenvielfalt reicht von Blutwerten, Ultraschallaufnahmen und Röntgenbildern bis in das menschliche Genom. Hinzu kommen unzählige Daten aus Studien und Publikationen sowie Patientendaten, die sowohl klassisch beim Arzt als auch von medizinischen Geräten oder Apps rund um die Uhr gesammelt werden.

Der Mehrwert dieser Daten ist offensichtlich, vorausgesetzt »Big Data« lässt sich auch in »Smart Data« verwandeln. Das ist auch bei der Volkskrankheit Diabetes nicht anders. Allein in Deutschland leiden knapp 7 Millionen Menschen an der Stoffwechselkrankheit, wobei jedes Jahr bis zu 500.000 Neuerkrankungen hinzukommen. Das belastet das Gesundheitssystem jährlich insgesamt mit über 16 Milliarden Euro. Dabei ist Diabetes eine komplexe Erkrankung, die durch ein vielschichtiges Zusammenspiel von Genen, Lebensstil und Umweltfaktoren entsteht. Wissenschaftler des DZD (Deutsches Zentrum für Diabetesforschung) wissen, dass es nicht »den« einen Typ-2-Diabetes und damit die »eine« Behandlungsmethode gibt. Wer also die komplexen Zusammenhänge verstehen und individuelle Therapieansätze entwickeln will, braucht auch auf IT-Seite entsprechende Datenmanagement-Tools, um Daten aus verschiedenen Quellen zusammen zu bringen.

Das DZD entschloss sich daher, ein standortübergreifendes Daten- und Knowledge Management aufzubauen, um in Zukunft alle zur Verfügung stehenden Daten miteinander zu verknüpfen und damit Querverbindungen und Muster sichtbar zu machen. Im Sinne eines interdisziplinären Forschungsansatzes lassen sich so bislang verborgene Zusammenhänge der Krankheit aufdecken. Warum erkranken manche Menschen an Diabetes, andere nicht? Welche Rolle spielen dabei Gene, Ernährung, Bewegung und Umweltfaktoren? Lässt sich schon in jungen Jahren das Diabetesrisiko bestimmen, und kann man unter Umständen entsprechend vorbeugen? Die Verknüpfung unterschiedlicher Datensätze könnte hier grundsätzlich neue Antworten liefern.

Der Mehrwert steckt in Datenbeziehungen

Das Zusammenführen der Daten stellt jedoch eine Herausforderung dar. So stammen die medizinische Daten des DZD nicht nur aus unterschiedlichen Quellen wie klinischen Studien, Kohorten, präklinischen Modellen und Biobanken, sondern es wurden auch Studien unabhängig voneinander durchgeführt – zum Teil mit Überschneidungen. In vielen Fällen sind die Daten zudem über mehrere Standorte in Datensilos verteilt, was Wissenschaftlern den Zugriff erschwerte.

Neo4j
Komplexe Datenbeziehungen anschaulich im Graph abgebildet – am Beispiel der Panama Papers im Visualisierungstool Neo4jBloom (oben)
© Neo4j

Herkömmliche SQL-Datenbanksysteme tun sich hier schwer, denn sie sind schlichtweg nicht darauf ausgerichtet, stark heterogene Daten zu managen. Um Beziehungen abzufragen, braucht es in relationalen Datenbanken sogenannte Joins der Primär- und Fremdschlüssel-Tabelle. Will ein Forscher zum Beispiel eine Blutprobe hinsichtlich der darauf gemessenen Parameter betrachten und diese mit anderen Untersuchungen vergleichen, müssen mehrere Tabellen miteinander verbunden werden. Je komplexer und größer der Datensatz, desto länger die Antwortzeiten. Suchabfragen in Big Data gestalten sich daher in solchen Systemen als extrem umständlich, ressourcenintensiv und teuer.

Genau diese Zusammenhänge zwischen den Daten sind jedoch von besonderem Interesse – sowohl für die Wissenschaft aber auch im Bereich Kunden- und Content- Management, bei der Betrugsaufdeckung in Banken oder in der fertigenden Industrie. Gerätehersteller beispielsweise brauchen einen detaillierten Einblick über den ganzen Produktlebenszyklus. Dabei sind komplexe Verknüpfungen zwischen Produktdatenmanagement (PDM) und Masterdatenmanagement (MDM), Supply Chain, Vertrieb und Aftermarket Services zentral.

Graphtechnologie für komplexe Datenstrukturen

Das DZD setzte daher auf Graphdatenbanken. Sie eignen sich gut, um komplexe, heterogene Daten zu verbinden, zu analysieren und anschaulich darzustellen. Allgemein reichen die Anwendungsgebiete von Graphdatenbanken von der Erforschung neuer Moleküle und der Verknüpfung klinischer Studien im Healthcare- und Life-Science-Bereich bis zu Lessons-Learned-Datenbanken, HR-Plattformen sowie in der Entwicklung und Fertigung.

Das Datenmodell eines Graphen versteht jeder, der einmal auf einem Stück Papier seinen Familienstammbaum gezeichnet hat: Personen werden dabei als Kreise (Knoten) dargestellt, die über Linien (Kanten) miteinander verbunden sind. Jeder Kreis kann mit einem Namen, jede Linie mit einem Verwandtschaftsgrad (zum Beispiel verheiratet) versehen werden. Dieses einfache Modell lässt sich auf unterschiedlichste Datensätze übertragen. In der Lösung des DZD sind so einzelne Daten wie Blutprobe, Patient oder Forschungsprojekt miteinander verknüpft, zum Beispiel »entnommen von« oder »nimmt teil an«. Die Graphdatenbank liegt dabei als Layer über den relationalen Datenbanken vor und verknüpft unterschiedliche Systeme und Datensilos im DZD. Auf diese Art lassen sich Daten übersichtlich in einen semantischen Kontext rücken.

Neo4j
und abstrahiert für das PDM (unten).
© Neo4j

Hinzu kommt: Im Graphen lassen sich auch komplexe Zusammenhänge realitätsnah abbilden. Gibt es regionale oder altersspezifische Unterschiede? Und wie wirkt sich eine bestimmte Ernährungsweise auf den Krankheitsverlauf aus? Wo finden sich signifikante Übereinstimmungen zwischen Genen und einem Diabetes-Typ? Solche Auffälligkeiten und Muster treten deutlich sichtbarer hervor und dienen den Wissenschaftlern als neue Ausgangspunkte für weitere Forschungen.

Allerdings gilt es zu beachten, dass nicht jeder Anwender oderDiabetesforscher gleichzeitig auch ein IT-Profi ist. Umso wichtiger ist es, eine einfache Navigation sicherzustellen, damit Wissenschaftler selbstständig an den Daten forschen können. Umfangreiches IT-Wissen oder gar Programmiererfahrung sollte dafür nicht notwendig sein. Vielmehr lassen sich über einfache Abfragen (»Blutprobe des Patienten X mit dem Messwert Y aus Studie Z«) relevante Informationen sehr schnell finden.

Anschaulich, intuitiv und schnell

Tatsächlich arbeiten Graphendatenbanken im Vergleich zu relationalen Datenbanken je nach Szenario deutlich schneller und können so Ergebnisse in Millisekunden liefern. Die hohe Abfragegeschwindigkeit ist deshalb möglich, da nur die konkreten, für die Abfrage relevanten Beziehungen verarbeitet werden müssen und nicht wie SQL-Datenbanken die gesamte Anzahl der Daten mitsamt ihrer Verknüpfungsoperationen. Indem man den Verbindungen zwischen den Knoten folgt, lassen sich also Angaben wie Lagerort einer Bioprobe oder Wert und Zeitpunkt einer Blutzuckermessung über den kürzesten Weg finden.

Sowohl den einzelnen Datensätzen als auch den Verbindungen kann eine beliebige Anzahl von qualitativen oder quantitativen Eigenschaften zugewiesen werden, zum Beispiel der Zeitraum einer Studie oder ein gemessener Wert. Das erleichtert die Indexierung und Standardisierung von heterogenen Daten. Je detaillierter die Angaben bei der Datenmodellierung, desto leichter lassen sich die Daten später filtern. Mit einem Klick können beispielsweise alle Blutproben mit dem Messwert >xy oder alle Patienten über 69 Jahre innerhalb des DZD-Wissensarchivs für die weitere Nachforschung ausgewählt werden.

Neu gewonnene Informationen können hinzugefügt werden – und zwar ohne das System grundlegend zu verändern. In der Praxis ist diese Flexibilität von entscheidendem Vorteil: Misst Forschungsgruppe X etwa auf Blutprobe 0001 den Glukoselevel A, wird dieser Wert in der Datenbank gemeinsam mit Lagerort und Zeitpunkt der Messung hinterlegt. Andere Wissenschaftler können diese Information für ihre eigene Forschung heranziehen und die verbleibende Probe auf weitere Parameter untersuchen, ohne bereits erfolgte Messungen wiederholen zu müssen und hierbei Probenmaterial zu vergeuden. Zudem lässt sich das Datenmodell leicht mit zusätzlichen Hierarchien und Zugriffsstrukturen anreichern und damit auf Nutzergruppen ausweiten oder auch beschränken.

Hohe Erwartungen

Langfristig sollen möglichst viele DZD-Daten in die Graphdatenbank integriert werden. Neben Humandaten aus der klinischen Forschung zählen dazu beispielsweise auch hochstandardisierte Daten aus Tiermodellen. Eine speziesübergreifende Analyse könnte eventuell Gemeinsamkeiten aufdecken und neue Rückschlüsse auf die Krankheit erlauben.

Über Natural Language Processing (NLP) könnte das System in Zukunft Texte einlesen, analysieren und relevante Informationen selbstständig in die Datenbank integrieren, sobald zentrale Begriffe signifikant häufig oder im richtigen semantischen Umfeld auftreten. Bedenkt man, dass allein die Literaturdatenbank PubMed über 30 Millionen medizinische Fachtexte enthält, sind solche Erweiterungen nicht nur vorstellbar, sondern dringend notwendig. Auch prädiktive Modelle, die den Verlauf der Diabeteserkrankung mit einer angenommen Wahrscheinlichkeit vorhersagen, sowie KI-Lösungen werden an Relevanz gewinnen und entscheidenden zur Prävention und Behandlung von Krankheiten beitragen.

Über Neo4j

Neo4j ist das Unternehmen hinter der gleichnamigen Graphdatenbank für vernetzte Daten. Die Neo4j-Graph-Plattform unterstützt Unternehmen dabei, viele und heterogene Daten zu verknüpfen, die komplexen Zusammenhänge zwischen Personen, Prozessen und Systemen zu entschlüsseln und damit den Mehrwert der wachsenden Datenmenge im vollen Umfang zu nutzen.

Der Fokus auf Datenbeziehungen macht Anwendungen »smart« – von Künstlicher Intelligenz im Online-Shop über Betrugserkennung in Banken und Versicherungen bis zum Produkt- und Stammdatenmanagement bei Flugzeugbauern und Autoherstellern. Bei der Analyse der Panama Papers nutzte das Internationale Consortium of Investigative Journalists (ICIJ) die Graphdatenbank Neo4j, um das gewaltige Daten-Leak mit rund 2,6 Terabyte für die Recherche aufzubereiten.

Neo4j wurde 2002 als schwedisches Start-up gegründet und wird heute von über 300 kommerziellen Kunden sowie als Open-Source-Datenbank von einer 50.000 Mitglieder starken Community genutzt. Insgesamt nutzen sieben der Top Ten Retailer, 20 der Top 25 Finanzdienstleister sowie sieben der Top Ten Softwareanbieter Neo4j. Zu den Kunden gehören unter anderem Daimler, Walmart, UBS, Cisco, Volvo, eBay und die NASA. Neben dem Firmensitz in den USA ist das Unternehmen an Standorten in Deutschland, Großbritannien und Schweden vertreten.

 

Zuerst gesehen
Dieser Beitrag stammt aus der Medizin+elektronik Nr. 3 vom 02.05.2019. Hier geht’s zur vollständigen Ausgabe.

 


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu elektroniknet