Weltweite IT-Probleme wegen einer Firma - müssen wir uns daran gewöhnen?

Offenbar wegen einem schadhaften Update eines Herstellers von Sicherheitssoftware stehen aktuell weltweit Rechner still:

Meiner Ansicht nach ist das eine unmittelbare Folge des out-sourcing von IT-Kompetenz aus den jeweiligen Unternehmen an einige, wenige Anbieter. Insofern müssen wir uns an solche Domino-Effekte gewöhnen.

Unternehmen wir Crowdstrike, Cloudflare, AWS (Amazone) und Azure (Microsoft) sind so dominant, weil die von ihnen angebotenen Dienste (zumindest teilweise) sehr große Skaleneffekte benötigen, um zu funktionieren. Und für die Kunden dieser Dienstleister ist es prohibitiv teuer, mehrere konkurrierende Systeme einzubinden, damit man im extrem seltenen Fall, dass es ein Problem gibt umschalten kann.

Insofern wäre es vermutlich sinnvoll, systemkritische Softwareanbieter einer verschärften Regulierung zu unterwerfen. Zum Beispiel, indem Prozesse vorgeschrieben werden, dass Updates ausgiebig getestet werden müssen, nur schrittweise ausrollen dürfen, unabhängig geprüft werden müssen, etc.

Danke für den interessanten Themenvorschlag! In dem Forum gibt es zu wenig Themen zum tatsächlichen gesellschaftlichen Impact von Technologie auf unsere Welt, deswegen freue ich mich.

Zu Crowdstrike:
Spannend ist der Fall im Speziellen, weil hier nicht ein normales Windows Update Management outgesourced wurde, sondern das IT-Sicherheitsmanagement:
CrowdStrike says the issue has been identified and a fix has been deployed, but fixing these machines won’t be simple for IT admins. The root cause appears to be an update to the kernel-level driver that CrowdStrike uses to secure Windows machines. While CrowdStrike identified the issue and reverted the faulty update after “widespread reports of BSODs on Windows hosts,” it doesn’t appear to help machines that have already been impacted.

Verwunderlich finde ich, dass der Fehler nicht bei Test-Rollouts entdeckt wurde, denn nach meiner Erfahrung hätte er bei der Breitenwirkung schon bei ersten Testclients auffallen müssen.

Aber zur eigentlichen Frage:
Im Bereich IT-Knowhow sind die meisten Firmen generell auf externe Ressourcen angewiesen, sei es aus Mangel an Arbeitskräften intern oder um Skalierungseffekte zu nutzen. Insbesondere im Bereich der IT Security ist das sehr viel verschärfter.
Es gibt einfach zu wenige IT-Security-SpezialistInnen insgesamt. Dann hast du das Thema, dass es nicht nur um Clients und Server geht, sondern auch um Schnittstellen, Zero-Day-Exploits bei Eigenwentwicklungen etc. Zu jedem beliebigen Zeitpunkt wirst du für alle Softwarepakete kritische Schwachstellen finden, die du bewerten musst, ob sie noch tolerierbar sind, weil Maschinen nicht von außerhalb zu erreichen sind oder ob die Software dann nicht einsetzbar ist.

Ich will sagen: Die Security von deinen PC-Clients und den Servern ist da eigentlich Standard und am ehesten noch an einen externen Dienstleister abzutreten, weil Standardprozesse. Jede Firma hat mit ihren Applikationen schon genug zu tun, konform zu bleiben, besonders wenn man Teil der KRITIS-Infratstruktur ist.

Erschwerend kommt hinzu, dass ein KRITIS-zertifizierter Anbieter es für eine Firma qua Zertifikat einfacher macht, KRITIS-konform zu sein und zumindest das Verantwortungsrisiko zu minimieren.
Ist das gut? Im Zweifel nein, aber total nachvollziehbar. Ich selber habe aus all den Gründen schon für externe Dienstleister entschieden, zumal es unmöglich ist, in IT-Abteilungen alles Know-How in der gebotenen Tiefe abbilden zu können. Windows-Server und PCs machen ja nur noch 2% der eigentlichen Themen aus.

Müssen wir uns also dran gewöhnen? Absolut ja.
Ist es kritisch, dass wir so wenige Anbieter haben in den Spezialbereichen und damit eine Anfälligkeit? Unbedingt auch ja, weil es menschliche Fehler so stark multipiziert…
Sollte man für kritische Serverinfrastrukturen Linux-Server nutzen? Ja, ja und ja. :slight_smile:

Das Problem ist das Vertrauen auf Schlangenöl wie Crowdstrike. Ich habe absolut nichts gegen Linux ganz im Gegenteil. Hier wäre man mit dem Betriebssystem nicht von einem amerikanischen Großkonzern abhängig und könnte eigene IT Unternehmen in der EU oder sogar Deutschland stärken. Anstatt Geld in die Lizenzmaschine zu stecken.

Ein ähnliches Problem wie heute mit Windows gab es Ende April auch für Debian Linux 12, Nach dem Update auf Kernel Version 6.1.0-20 im Kombination mit falcon-sensor version 7.10 bis 7.14.

Ein Knackpunkt ist, dass diese „Allheilbringende Software“ nicht den in Firmen üblichen Rolloutprozess unterliegt und in Etappen ausgerollt wird. Es ist ja wichtig auf dem neuesten Stand zu sein um 0days abwehren zu können.

Ich bin mal gespannt ob Firmen die hier massive Schäden erlitten haben Regressforderungen an Crowdstrike stellen. Dann wäre die Firma ganz schnell Geschichte.

1 „Gefällt mir“

Gemäß eigener Darstellung ist Crowdstike ISO/IEC 27001:2022 zertifiziert. Alles andere hätte mich beim Einsatz an Flughäfen oder in Krankenhäusern echt gewundert. D.h. theoretisch gab es ausgereifte Prozesse um genau das zu verhindern. Sicher wird die Firma nur unter NDA die echte Ursache an wichtige Kunden weitergeben. Mal sehen, was so über die Zeit durchsickert. In einer automatisierten Welt wird sowas immer mal vorkommen. Jeder Vorfall wird die Sensibilität erhöhen und vielleicht darf der Ops Kollege doch mal eine halbe Stunde mehr in Tests investieren, bevor der Manager auf die Uhr schaut. Es muss ja die Marge für die Vermögenssteuer erwirtschaftet werden :slight_smile:

Eine Zertifizierung ist aber nochmal was anderes als eine Regulierung. Letztere kann zum Beispiel Transparenz gegenüber der regulierenden Behörde erzwingen oder bei Fehlverhalten enorme Strafzahlungen bzw auch strafrechtliche Konsequenzen für die Manager haben. Oder sehe ich das falsch?

Das ist klassisch ISO/IEC 27001. Strafzahlungen kommen in Betracht bei Verstößen gegen den Datenschutz. Warum aber sollte der Staat Strafzahlungen auferlegen, wenn die Befriedung der Kunden die Bilanz verhagelt? Das sieht mir eher danach aus, als wolle der Staat auch noch in die Tasche greifen - mit welchem Recht? Und welcher Staat eigentlich genau?

Wegen der systematischen Relevanz der Software. Wenn Flughäfen und Krankenhäuser bei einer Fehlfunktion ausfallen, dann hat der Staat ein gerechtfertigtes Interesse daran, den Einsatz so einer Software zu regulieren und muss sich nicht auf die Regulierungswirkung des Marktes verlassen.

Zum Beispiel hat die EU ja auch gerade Apple und anderen IT-Firmen vorgeschrieben, dass sie ihre Produkte nicht gegen Mitbewerber abriegeln können und zum Beispiel die Installation von Apps auf iPhones auch jenseits des Apple App Stores möglich sein muss. Das ist explizit mit der Begründung geschehen, dass diese Plattformen inzwischen systematische Bedeutung haben.

Bei uns vermutlich die EU per Verordnung oder Regulierung. Aber in anderen Fällen eher die Nationalstaaten (also zum Beispiel die US-Regierung für den US-amerikanischen Markt).

Die großen (Cloud)-Anbieter geraten zu solchen Momenten immer mal in den Fokus, sind aber um ein Vielfaches zuverlässiger, verfügbarer, wartbarer und sicherer als die üblichen selbst gehosteten Lösungen oder kleinere Anbieter. Natürlich muss man bei Infrastruktur aufpassen was man selbst macht, was man auslagert, eine sinnvolle Architektur aufsetzen etc. Aber dennoch gilt das oben geschriebene meist.
Ausnahmen bestätigen wie immer die Regel!

Hier noch ein lesenswerter Beitrag zum aktuellen Problem mit einer trefflichen Analyse wie es soweit kommen konnte und dass es eine Herstellerhaftung braucht um den Teufelskreis zu durchbrechen.

Werbung scheint zu wirken.

Alle großen Cloud Anbieter hatten bereits ihr Armageddon. Natürlich ändert das nichts am Status Quo, wo sollen die Kunden auch hin?
Generell sieht man an Crowdstrike, dass je weiter verbreitet ein Stück Software ist, desto größer das Risiko bei Problemen. Diese monolithischen Strukturen drehen an den Kosten, aber immer unter dem Risiko dass dann bei einem Problem eben alles betroffen ist.

Ich sag mal, eine typisch deutsche Lösung. Wir erfinden noch immer ein Formular was uns glauben lässt, das Problem damit zu lösen.

Hier möchte ich ein wenig dagegen argumentieren. Eine viel heterogenere SW Struktur wäre letzten Endes anfälliger für Attacken und viel Aufwändiger zu warten.

Wie im verlinkten Artikel beschrieben ist der Hauptknackpunkt warum es immer wieder zu solchen SW Problemen kommt die mangelnde Haftung der Hersteller, dadurch haben sie nur einen begrenzten Anreiz zu Testen, da sie viel mehr dem Betriebsergebnis verpflichtet sind. Da wird eben an der Qualität gespart. Und sobald man der Meinung ist es ist „gut genug“ wird geliefert.

Größere Systeme mit denen sehr viel Geld verdient wird, wie z.B. die Mautsysteme die mit hohen Regressforderungen versehen sind, erfolgt ein SW Rollout in langwierigen Prozessen, in mehreren Pilotoerungswellen mit begrenzten Testgruppen.

Leider widerspricht sich so ein Rolloutprozess mit der Notwendigkeit bei Sicherheitssoftware sehr schnell Updates auszurollen um auf neue Angriffe reagieren zu können.

Andererseits nehmen Unternehmen, Staat und Gesellschaft meines Erachtens schwerwiegende SW Pannen zu einfach hin. SW Problem, da kann man nichts machen ist nur allzu oft die Reaktion….

Die Argumentation, dass selbst dem Marktführer Microsoft schwerwiegende Pannen unterlaufen wie der Verlust von Elementaren Schlüsseln für Cloud Services und es halt nicht besser ginge kann ich nichts abgewinnen.

Wir sollten begreifen, dass hier nicht nur wirtschaftliche Schäden entstehen sondern letztendlich auch mit leben gespielt wird. Wenn Krankenhäuser Operationen verschieben hat das Konsequenzen. Klar der Notfallbetrieb Funktionär weitestgehend, aber ich denke, dass die allermeisten OPs auch wenn das verschieben nicht unmittelbar zum Tode führt, nicht aus Jux und Dollerei gemacht werden.

1 „Gefällt mir“

Das ist ein Argumentationsniveau aus dem Kindergarten. Ich habe mit dem gegenwärtigen Vorgehen gegen Apple ja ein konkretes und relevantes Beispiel gebracht, dass diese Art der staatlichen Regulierung durchaus effektiv sein kann. Europäische Kunden von Apple können nämlich inzwischen aus fremden Quellen Apps installieren und die EU-Kommission zwingt den Konzern schrittweise zu mehr Zugeständnissen. Dass demonstriert, dass Regulierungen auch große IT-Konzerne zu Verhaltensänderungen zwingen kann.

Und wenn man mal über den Teich hinweg in die USA schaut, dann werden da ähnliche Regulierungen in sicherheitsrelevanten Bereichen längst eingesetzt. Mir ist das am ehesten in der Raumfahrt geläufig. Sobald da Menschen als Astronauten mit im Spiel sind, muss jede Veränderung an Software oder Hardware eines Systems extrem viele Kontrollinstanzen und Tests unterlaufen, bevor es eingesetzt werden darf. Warum sollte man diese Herangehensweise nicht auf bestimmte kritische Einsatzszenarien von Software im Bereich der öffentlichen Infrastruktur anwenden?

In dem Fall muss ich aber sagen, dass ich das lieber dem Markt anvertraue als einem Gesetz.
Die Situation ergibt sich ja daraus, dass man als Käufer dem Anbieter zugesteht, derartigen Mist zu liefern und dann meist auch noch unterschreibt, dass man ihn bei solchen Fehlern von der Haftung frei stellt.
Und warum tut man das? Weil es billiger ist.
Der Gesetzgeber würde also nur Regeln aufstellen, die das Produkt teurer machen.
Dabei könnten die Marktteilnehmer einfach mehr Geld in die Hand nehmen und diese Leistungen selbst einfordern.

1 „Gefällt mir“

Aufwändiger zu warten, ja. Man profitiert halt nicht von den Skaleneffekten.
Anfälliger für Attacken/Fehler: nein

Hätten wir hier mehr verbreitete Anbieter (Crowdstrike ist von einer Monopolstellung ja noch entfernt), wären eben weniger Flughäfen, Krankenhäuser, etc. betroffen. Dann könnten wir OPs in andere Krankenhäuser verlegen (klar, Kapazitäten nicht vorhanden), Fluggäste mit etwas Aufwand von anderen Flughäfen starten lassen, es wären weniger Fluggesellschaften betroffen, Menschen könnten in anderen Supermärkten einkaufen gehen, …
Das sind alles Redudanzen, die wir mit dem Kostenargument einfach mal abbauen. Einem Kostenargument, dass in vielen der Bereiche, um die es hier geht, Peanuts sind. Ein ausgefallener Flug kostet viel mehr als es eine alternative Security-Software je könnte.

Bestes Beispiel: Die Flughäfen Köln und Düsseldorf sind mit der Bahn gerade mal eine gute Stunde voneinander entfernt. Betroffene Passagiere und Flugzeuge zum anderen Flughafen schicken und mit 2-3h Verspätung den Flug durchführen? Keine Chance, leider waren beide Flughäfen betroffen.
Immerhin der Flughafen Frankfurt ist der Panne scheinbar entgangen.

Wirkt vielleicht so, weil mein Post eine Reaktion auf einen Apfel-Birne Gleichsetzung war. Zurück zur Debatte.

Eine Regulierung wie im Ausgangspost formuliert, führt nur zur Verantwortungsübernahme durch den Staat. Quasi nimmt man dem Kunden das Denken ab. Und wenn was schief geht, es wird auch da vieles schief gehen, war es ein Staatsversagen. Prima. Das Problem ist doch auch, wie kann ein Krankenhaus eine solche Lösung einsetzen und hat auf seiner Seite keinen Plan-B? Gerade bei Outsourcing von Leistungen, was erstmal nicht falsch ist wenn es sich nicht um Kernaufgaben handelt, muss ich mir bewusst sein, damit immer noch die Verantwortung zu haben. Statt einer staatlichen Regulierung würd ich mal nach dem Risiko-Management des Krankenhaus / BER nachfragen.

2 „Gefällt mir“

Das wusste ich nicht, danke für den Hinweis!

Stimmt, und ich würde erwarten, dass die Zuverlässigkeit und Robustheit des Rollout-Prozesses Teil der SLAs sein sollte, wenn ich eine Firma wie Crowdstrike einkaufe.

Ich hoffe, dass die betroffenen Firmen ihre Service Level Agreements im Griff haben und ein Rollback < 30 Minuten für ihre kritischen Systeme hineingeschrieben haben.
Allerdings ist der Börsenabsturz von Crowdstrike sehr schnell gebremst worden. Wahrscheinlich haben die Investoren die SLAs gelesen und festgestellt, dass Crowdstrike nichts zu befürchten hat… :sweat_smile: :rofl:
Sorry, ist eigentlich nicht witzig, aber ich habe SLAs in Firmen gesehen, bei denen ich mich gewundert habe, dass diese unterschrieben wurden…

Auch bei systemischer Relevanz kommt es ja immer auf die Service Level Agreements an, die der Auftraggeber akzeptiert - beispielsweise eine Recovery Time von < 1h bei systemkritischen Applikationen.
Die müssen dann auch hart definiert werden (Servergruppen, PC-Gruppen) und konstant aktualisiert werden.
Die Stichworte sind hier Maximum Tolerable Period of Disruption (MTPD), Minimum Business Continuity Objective (MBCO), Recovery Time Objective (RTO). Ich kenne Crowdstrike und ihre SLAs nicht und weiß nicht, inwieweit diese von Kunde zu Kunde unterschiedlich sind.

Nach meinem Wissensstand geben die bisherigen Konkretisierungen der deutschen KRITIS-Verordnung noch keine RTOs vor, also ab wann ein System wieder funktional sein muss. Dann gibt es leider auch keine Handbabe von Strafzahlungen. Wenn jemand da mehr weiß, gerne ergänzen.

1 „Gefällt mir“

https://www.crowdstrike.com/terms-and-conditions-de/

Man beachte insbesondere Punkt 8.6:

ES GIBT KEINE GEWÄHRLEISTUNG, DASS DIE ANGEBOTE ODER CROWDSTRIKE-TOOLS FEHLERFREI SIND ODER DASS SIE OHNE UNTERBRECHUNG FUNKTIONIEREN ODER BESTIMMTE ZWECKE ODER BEDÜRFNISSE DES KUNDEN ERFÜLLEN. DIE CROWDSTRIKE-ANGEBOTE UND CROWDSTRIKE-TOOLS SIND NICHT FEHLERTOLERANT UND NICHT FÜR DEN EINSATZ IN GEFÄHRLICHEN UMGEBUNGEN AUSGELEGT ODER VORGESEHEN, DIE EINE AUSFALLSICHERE LEISTUNG ODER EINEN AUSFALLSICHEREN BETRIEB ERFORDERN. WEDER DIE ANGEBOTE NOCH DIE CROWDSTRIKE-TOOLS SIND FÜR DEN BETRIEB VON FLUGZEUGNAVIGATION, NUKLEARANLAGEN, KOMMUNIKATIONSSYSTEMEN, WAFFENSYSTEMEN, DIREKTEN ODER INDIREKTEN LEBENSERHALTENDEN SYSTEMEN, FLUGVERKEHRSKONTROLLE ODER ANWENDUNGEN ODER ANLAGEN BESTIMMT, BEI DENEN EIN AUSFALL ZU TOD, SCHWEREN KÖRPERVERLETZUNGEN ODER SACHSCHÄDEN FÜHREN KÖNNTE.

Da darf man mal gespannt sein, ob da Köpfe bei den Verantwortlichen der Flughäfen etc rollen.

1 „Gefällt mir“