Startseite > Medizintechnik > Systeme & Anwendungen > Verborgene Entscheidungen

Künstliche Intelligenz

Verborgene Entscheidungen

15. Juni 2021, 11:00 Uhr | Dr. Abtin Rad (Tüv Süd)

Künstliche Intelligenz ist intransparent – was ihren Einsatz in kritischen Anwendungen problematisch macht.

So wird die Black Box transparent

Künstliche Intelligenz (KI) und maschinelles Lernen (ML) bergen ein großes Potenzial. Daher finden sie auch in der Medizintechnik immer mehr Verwendung. Am weitesten fortgeschritten ist der Einsatz bisher bei der Analyse bildgebender Verfahren, die etwa in der Radiologie, Onkologie, Augenheilkunde oder Dermatologie angewandt werden. So lässt sich Osteoarthrose durch die die KI-gestützte Analyse von Magnetresonanztomographie-Aufnahmen drei Jahre vor den ersten Symptomen erkennen [1]. Normalerweise wird diese Indikation erst in einem späten Stadium erkannt, wenn bereits Schäden eingetreten sind. Anwendungen wie diese sind auf den ersten Blick beeindruckend, das Problem dabei: die Beteiligten können oft nicht nachvollziehen, warum die Künstliche Intelligenz diese Diagnose beziehungsweise Entscheidung getroffen hat. Die Systeme sind für den KI-Laien nicht erklärbar – eine sogenannte »Black Box«, deren Prozesse zwischen Dateneingabe und -ausgabe nicht transparent sind.

Hinzu kommt, KI-Methoden zur MRT- und CT-Bildrekonstruktion haben sich in der Praxis immer wieder als instabil erwiesen. Schon geringfügige Änderungen an den Eingabebildern können zu völlig unterschiedlichen Ergebnissen führen. Auch das liegt unter anderem daran, dass die besonderen Eigenschaften der Algorithmen von den Beteiligten nicht immer ausreichend verstanden beziehungsweise bei der Verifizierung nicht berücksichtigt werden können oder die Trainingsdaten nicht überprüfbar sind. Die medizinische Aussagekraft der Entscheidung lässt sich ohne transparente und nachvollziehbare KI-Vorhersagen jedoch anzweifeln.

Die Erklärbarkeit der KI in einem Medizinprodukt ist damit klinisch relevant und entscheidend für eine sichere Anwendung am Patienten, wie auch einige aktuelle Fehlverhalten von KI in pre-klinischen Anwendungen zeigen. So hat beispielsweise ein komplexes KI-System zur Vorhersage des Risikos, an einer Lungenentzündung zu erkranken, dieses ausgerechnet für Hochrisiko-Patienten als nicht-signifikant eingestuft. Untersuchungen des Modells zeigten schließlich die Ursache: Die Daten beinhalteten ein Muster, das eine Fehldiagnose begünstige. Mithilfe eines verständlichen Modells können diese Muster frühzeitig erkannt und entfernt werden [2].

Spezifische Regularien fehlen

Die Auswahl der Eingabedaten und die Entscheidungen einer KI auf der Grundlage eines Modells nachvollziehen zu können, ist also ein wesentlicher Faktor für die Umsetzbarkeit und den Erfolg Künstlicher Intelligenz in der Medizin und nicht zuletzt auch für die Sicherheit der Patientinnen und Patienten. Doch genaue spezifische Vorgaben dazu fehlen (noch) in den gängigen Regelwerken.

Die Medizinprodukte-Verordnung (MDR) definiert lediglich allgemeine Anforderungen an Software: Sie muss nach dem Stand der Technik entwickelt und hergestellt werden und so ausgelegt sein, dass sie sich bestimmungsgemäß verwenden lässt. Implizit bedeutet das, dass sich die Künstliche Intelligenz vorhersagbar und reproduzierbar verhalten muss, was ein verifiziertes und validiertes KI-Modell voraussetzt.

In den beiden Software-Standards IEC 62304 und IEC 82304-1 sind die Anforderungen an Validierung und Verifizierung zwar beschrieben, allerdings bestehen grundlegende Unterschiede zwischen konventioneller Software und Künstlicher Intelligenz mit maschinellem Lernen: KI beschreibt die Fähigkeit von Algorithmen, durch Nachahmung menschlicher Intelligenz Aufgaben und Entscheidungen zu übernehmen [3]. Maschinelles Lernen umfasst die Verfahren und Algorithmen, die mithilfe sogenannter Trainingsdaten Muster und Regeln ableiten. Die Erfahrungen aus dem Gelernten wenden die Algorithmen dann auf neue Daten an und treffen Entscheidungen basierend auf den gelernten Fähigkeiten.

Warum verhalten sich KI-Modelle häufig als Black Box – vor allem solche, die maschinelles Lernen beinhalten? Hintergrund ist die stark verschachtelte und nichtlineare Struktur, besonders bei Deep-Learning-Modellen mit neuronalen Netzen. Wenn die Trainingsdaten und das Modell nicht offen und verifizierbar konzipiert werden, sind die Entscheidungen nicht nachvollziehbar. Es kann nicht spezifiziert werden, welcher Teil der Eingabedaten zur konkreten Entscheidung der KI führt. Das bedeutet keineswegs, dass eine Black Box per se Vorhersagen von geringer Qualität trifft, doch um die Sicherheit einer medizinischen KI gewährleisten zu können, müssen sich Black Boxes öffnen.

Datengrundlage: Mehr Input, weniger »Garbage«

Einen entscheidenden Einfluss auf die von der KI gemachten Vorhersagen hat die Qualität der Trainingsdaten. Hier zeigt sich der Grundsatz »Garbage in, Garbage out«. Wird das Model mit Daten minderer Qualität trainiert, erhält man auch ein schlechteres Modell. Eine gewissenhafte Prüfung deckt problematische Aspekte auf, beispielsweise verzerrte Trainingsdaten (Bias), eine Über- beziehungsweise Unteranpassung (Over-fitting/under-fitting) des Modells oder Kennzeichnungsfehler (Labeling Error) in überwachten Lernmodellen. Verzerrungen und Kennzeichnungsfehler entstehen dabei oft unabsichtlich durch eine nicht ausreichende Vielfalt in den Trainingsdaten. Wenn ein KI-Modell beispielsweise auf das Erkennen von Katzen trainiert wird und die Trainingsdaten hauptsächlich gefleckte Katzen enthalten, dann ist es wahrscheinlich, dass die KI einen gefleckten Hund als Katze erkennt, aber eine einfarbige oder gestreifte Katze nicht. Das heißt, zufällige oder unbeabsichtigte Gemeinsamkeiten in einem eigentlich nebensächlichen Aspekt können von der KI unter Umständen als maßgeblich eingestuft werden – zwei Arme zu haben, darf beispielsweise nicht notwendig dafür sein, von einer KI als Mensch eingeordnet zu werden. Auch die statistische Verteilung der Daten muss begründet und dem realen Umfeld entsprechen.

Kennzeichnungsfehler entstehen häufig durch Subjektivität (»Schwere der Krankheit«) oder für den Zweck des Modells ungeeignete Bezeichner. Das Kennzeichnen großer Mengen Daten und die Auswahl geeigneter Bezeichner ist zeit- und kostenintensiv. Daher wird zeitweilig nur ein sehr geringer Anteil der Daten händisch bearbeitet, mit denen die KI geschult und angewiesen wird, die verbleibenden Daten zu kennzeichnen. Das gelingt nicht immer fehlerfrei und reproduziert Fehler, die das Modell unbrauchbar machen.

Neben der Datenqualität ist aber auch die Menge der verwendeten Daten entscheidend. Es existieren jedoch kaum Erfahrungswerte dafür, wie viele Daten für einen Algorithmus nötig sind. Grundsätzlich gilt zwar, dass bei ausreichender Datenmenge auch ein schwacher Algorithmus gut funktioniert. Die Anzahl verfügbarer, gekennzeichnete Daten und nicht zuletzt auch die vorhandene Rechenleistung begrenzen hier aber die Möglichkeiten. Der mindestens erforderliche Datenumfang hängt sowohl von der Komplexität des Problems als auch von der Komplexität des KI-Algorithmus ab. Nichtlineare Algorithmen benötigen zum Beispiel in der Regel mehr Daten als lineare. 70 bis 80 Prozent der verfügbaren Daten werden üblicherweise zum Training des Modells und der Rest zur Verifizierung der Vorhersagen verwendet. Die Trainingsdaten sollten dabei eine maximale Bandbreite von Attributen abdecken.