Cybersecurity & KI

Schlauer als Malware dank Machine Learning

7. April 2020, 8:30 Uhr | Dr. Sven Krasser
Cybersecurity-Studie
Die Hintergründe und Motivation für Cyberangriffe sind vielfältig und reichen von bloßer Neugier über Habgier bis hin zur Spionage.
© Pixabay/CC0

Moderne Sicherheitsprogramme nutzen Künstliche Intelligenz, um Cyber-Angriffen präventiv zu begegnen

Im Kern traditioneller Antiviren-Systeme stehen Signaturen, auf deren Basis Malware und Schadprogramme identifiziert werden. Signaturen sind wie Fingerabdrücke zu verstehen, die aus den spezifischen, charakteristischen Eigenschaften von Schadprogrammen erstellt werden. Zum Beispiel könnte eine solche Signatur überprüfen, ob eine bestimmte Zeichenkette in einer Datei vorkommt. Dank solcher »Indicators of Compromise« (IoC) können Antiviren -Programme Dateien analysieren, Malware identifizieren und so die Nutzer vor den Auswirkungen der Schadprogramme schützen.

Die Arbeit mit IoCs hat jedoch auch Nachteile. Sie können nur für bekannte Schadprogramme ermittelt werden. Das heißt, die Sicherheitssoftware muss ständig auf den neuesten Stand gebracht werden, um effektiv arbeiten zu können. Mit geringfügigen Modifikationen der Schadsoftware können IoCs leicht umgangen werden. Führt man sich die Massen an Malware-Varianten vor Augen, die tagtäglich auftauchen, ist nachvollziehbar, dass diese niemals alle rechtzeitig und richtig kategorisiert werden können, bevor Schaden entsteht.

    Beispiele für gezielte Malware
    Beispiele für gezielte Malware: Laut des Bundesamts für Sicherheit in der Informationstechnik (BSI) gab es im vergangenen Jahr durchschnittlich 320.000 neue Schadprogramme pro Tag.
    © Crowdstrike

    Ein signaturbasierter Schutz bietet zwar eine gewisse Sicherheit, kann aber nie Herr über die Millionen Schadprogramme werden, die im Umlauf sind. Ganz abgesehen davon ist die Arbeit der Hacker nicht nur auf klassische Malware begrenzt. Cyberkriminelle haben ein weitaus größeres Repertoire an Angriffsmethoden. Sie spionieren beispielsweise Zugangsdaten aus und arbeiten sich dann im sogenannten »Lateral Movement« mit ihren begrenzten Zugangsberechtigungen nach und nach weiter in sensible Bereiche vor.

    Malware-Identifikation mit heuristischen Ansätzen

    Anbieter von Sicherheitssoftware haben diese Herausforderung erkannt und entwickeln Werkzeuge, um diese Nachteile zu umgehen. Gegenwärtige Anti-Viren-Systeme nutzen deshalb heuristische Ansätze zur Angriffserkennung. Neuere Signaturen basierend auf Heuristiken verwenden ein komplexes Regelwerk, das die Eigenschaften beschreibt, die eine bösartige Datei mit hoher Wahrscheinlichkeit aufweist.

    Die Viren-Erkennung wird dadurch deutlich flexibler, da die Interpretation so weniger starr ist als zuvor. Es müssen aber zum einen ausreichend Regeln definiert sein, um alle Varianten der Malware zu erkennen. Zum anderen dürfen sie nicht so weit gefasst sein, dass legitime Dateien irrtümlich als Schadsoftware erkannt werden.

    Ein Kritikpunkt ist durch die Heuristiken also behoben, doch das Grundproblem bleibt bestehen. Die von menschlichen Experten definierten Heuristiken basieren auf bekannter Malware und deren Merkmalen. Sie müssen kontinuierlich an die Vielzahl der variierenden Schadprogramme angepasst werden. Außerdem ist die Komplexität der Regeln limitiert durch das menschliche Kognitionsvermögen.

    Was macht KI anders?

    Die neueste Generation der Anti-Malware-Systeme setzt den heuristischen Gedanken fort, nutzt aber zusätzlich zu menschlichem Know-how KI-basierte Algorithmen, um das Regelwerk zu definieren, das der Kategorisierung von Code zugrunde liegt. Machine Learning (ML) erkennt in großen verfügbaren Datenbeständen bestimmte Muster. Diese Muster werden benutzt, um ein statistisches Modell zu berechnen beziehungsweise zu trainieren. Das Modell analysiert Daten dadurch zunehmend besser und zuverlässiger.

    Die stetig wachsende Datenmenge erlaubt eine ständige Neuberechnung der Modelle. Die neuen Daten können einerseits Exemplare neuer Schadsoftware beinhalten, andererseits können sie aber auch Feedback zur Performance enthalten. Wenn beispielsweise eine neue Art von Schadsoftware nicht erkannt wurde, fließt diese Information in das Training der Modelle mit ein und wird von da an automatisch berücksichtigt. In den Fällen, in denen die berechnete Malware-Wahrscheinlichkeit nicht eindeutig ist, können auch Experten direkt Feedback einfließen lassen.

    Dieses Vorgehen wird als Active Learning bezeichnet. Im Gegensatz zu Signaturen, bei denen man für jede neue Schadsoftwarevariante von Null anfängt, baut jedes neue Modell auf das Vorgängermodell auf. So werden Modelle Schritt für Schritt weiter optimiert und liefern deshalb auch  mit jeder Iteration bessere Ergebnisse. Unbekannte Schadsoftware wird dadurch sehr viel zuverlässiger erkannt.

    Predictive Malware Detection

    Sicherheitssoftware wie die Falcon-Plattform (Crowdstrike) analysiert jeden Tag weit über 400 Milliarden Ereignisse und sicherheitsrelevante Vorkommnisse. Das ist wichtig, denn Machine Learning funktioniert umso besser, je größer die Datenmenge ist, mit der es arbeitet. Je mehr Daten zielgerichtete Algorithmen nach Bedrohungsmustern durchsuchen können, desto besser. Auch die Statistiken werden dann genauer und erkennen die gesamte Bedrohungslage besser.

      Übersicht Falcon-Plattform
      Übersicht Falcon-Plattform:Die Sicherheitssoftware analysiert jeden Tag weit über 400 Milliarden Ereignisse und sicherheitsrelevante Vorkommnisse.
      © Crowdstrike

      Für die Verarbeitung großer und variierender Datenmengen eignet sich besonders die Arbeit in der Cloud, da solche Lösungen einfach skalierbar sind. Eine große und breite Datenbasis ermöglicht eine globale Bedrohungsanalyse und erkennt Bedrohungssignale schon in sehr schwacher Form. Werden beispielsweise die Daten und Ereignisse von Hackerangriffen aus verschiedenen Systemen weltweit in die Analyse mit einbezogen, verringert dies das Risiko, dass sich Malware ausbreiten kann, extrem. Dank solcher Anti-Malware-Systeme, die auf einer großen Datenbasis beruhen und durch maschinelles Lernen gut trainiert sind, können Bedrohungen wie »Shamoon2«, »WannaCry« oder »NotPetya« erkannt und blockiert werden – und das ohne jegliches Softwareupdate.

      Und trotzdem: Der Mensch bleibt ein entscheidender Faktor bei der Erkennung von Malware. Es kommt nämlich auch auf die Köpfe an, die die Modelle trainieren und Anti-Malware-Systeme erfolgreich machen. Die Algorithmen sind komplex, ihre Berechnungen manchmal fehleranfällig und nicht immer interpretierbar. Es ist daher unerlässlich, den lernenden Maschinen menschliche Expertise zur Seite zu stellen.

      Autor

      Dr. Sven Krasser ist Chief Scientist bei Crowdstrike

      Links


      Verwandte Artikel

      WEKA FACHMEDIEN GmbH