Zum Inhalt springen
Marketing Factory Digital GmbH
Kontakt
Logo Marketing Factory Digital GmbH
  • Agentur
    • Aktuelles
    • Über uns
    • Geschichte
  • Leistungen
    • Beratung, Analyse und Strategie
    • Programmierung und Entwicklung
      • Schnittstellen
      • PIM-/ERP-Anbindungen
      • Individualentwicklungen
      • Seamless CMS Integration
    • Hosting und Betreuung
      • Cloud-Strategien
      • Hosting Partner der Marketing Factory
    • Leistungen mit Dritten
  • Technologie
    • TYPO3
      • TYPO3 Upgrade vs. TYPO3 Relaunch
      • TYPO3 LTS Versionen im Überblick: v12, v13
      • Der TYPO3-Lifecycle
      • Unsere TYPO3 Extensions
    • Shopware
    • IT-Sicherheit
      • DDoS-Protection
      • Continuous Upgrading
      • Privacy First
    • Tech Stack
      • Bekenntnis zu Open Source
      • Technologieauswahl
      • PHP-Ökosystem
      • Containerisierung & Clustering
      • Content Delivery Networks
      • Suchtechnologien
  • Referenzen
    • Projekte
    • Kunden
      • Kundenliste
    • Screenshot der Homepage der neuen Maxion Wheels WebsiteNEU: Relaunch der Corporate Website von Maxion Wheels
  • Community
    • Community-Initiativen
  • Blog
  • Kontakt
  • Deutsch
  • English

Sie sind here:

  1. Blog
  2. Wenn sich Bot-Traffic plötzlich vertausendfacht
  • KI
  • Hosting
  • Security
  • Tech Stack
26.03.2026

Wenn sich Bot-Traffic plötzlich vertausendfacht


Zeige größere Version von: Ein Chat-Verlauf aus einer APP namens Gatus zeigt zunächst eine Warnmeldung:

**Achtung:** Alarm wegen dreimaligem Gescheitern der Suche.
Zustandsbedingungen: HTTP-Status nicht 200, Zertifikat abgelaufen, im Body“‘Zeige Ergebnisse‘“ und „Typo3“ nicht gefunden.

Anschließend eine Bestätigung:

**Erfolg:** Gescheiterter Alarm wurde zweimal erfolgreich behoben.
Zustandsbedingungen: HTTP-Status 200, Zertifikat gültig, „Zeige Ergebnisse“ und „Typo3“ im Body vorhanden.
Monitoring mit wiederkehrenden Fehlern in der Suche

Heute Morgen gab es bei einem unserer Kunden immer wieder kurze Ausfälle. Keine komplette Störung, sondern eher so: alles läuft. Und dann plötzlich nicht mehr!

Aufgefallen ist uns das nicht durch einen Anruf, sondern durch Meldungen unseres Monitorings im Slack.

Wir setzen dafür Gatus ein und prüfen so automatisch zentrale Funktionen der Webseiten wie unter anderem die Suche. Das Monitoring läuft bewusst extern, also unabhängig von der Infrastruktur des Kunden.

So sehen wir auch Probleme, die intern eventuell gar nicht sofort auffallen.

Zeige größere Version von: Die Grafik zeigt die Zahl der Log-Einträge über die Zeit. Ein Massiver anstieg nach 10 Uhr ist zu erkennen.

Analyse: viele Requests, aber kein klarer Verursacher

Nach einem kurzen Check der Systeme haben wir uns die Logfiles des Produktivsystems angeschaut.

In einer zentralen Graylog-Instanz laufen alle Logs zusammen und können dort analysiert werden. In diesem Fall haben wir uns auf die Request-Logs aus Amazon CloudFront konzentriert. CloudFront kommt in diesem Fall als Content-Delivery-Network (CDN) zum Einsatz und alle Zugriffe auf die Site laufen dort durch.

 

Das erste Ergebnis war eindeutig:

Ein deutlicher Anstieg der ankommenden Requests auf die Webseite.

Normalerweise lässt sich die Ursache dann recht schnell eingrenzen, zum Beispiel über eine Häufung bestimmter IP-Adressen. In diesem Fall war das anders.

  • keine auffällige Konzentration einzelner IPs
  • dafür eine klare Häufung auf einer bestimmten URL
  • und eine Häufung bei einem bestimmten User-Agent: eine einige Wochen alte Chrome-Version

Damit ergab sich ein deutlich klareres Bild.

Statt der üblichen 1 bis 2 Aufrufe pro Minute auf den Konfigurator lagen wir plötzlich bei fast 2.000 Requests pro Minute.

Zu viel für das System – insbesondere, weil die Antworten dynamisch erzeugt werden und nicht im Cache liegen.

Zeige größere Version von: Eine Tabelle zeigt die Aggregation von IP-Adressen mit deren Auftretenshäufigkeit und prozentualem Anteil.
Zeige größere Version von: Die Tabelle zeigt die häufigsten User-Agent-Typen von Web-Besuchern nach Browser und Betriebssystem auf.

Die meisten Nutzer verwenden einen Mozilla/5.0-Browser auf Apple macOS (92,7 %). Weitere Betriebssysteme und Browser sind ebenfalls aufgeführt.

Das eigentliche Muster: verteilt, aber koordiniert

Die weitere Analyse zeigte ein typisches Muster:

  • pro IP-Adresse nur 3 bis 6 Requests
  • danach Wechsel auf eine neue IP
  • gleichbleibender User-Agent

Damit greifen klassische Schutzmechanismen wie Rate Limiting nicht mehr zuverlässig.

Und ebenso klar: Wer so vorgeht, hält sich in der Regel auch nicht an eine robots.txt. Diese versteht sich ohnehin technisch eher als “Vorschlag” an das anfragende System und stellt keine wirkliche Schutzmaßnahme gegen Anfragen dar.

Ob es sich um einen gezielten Angriff oder einfach um einen schlecht konfigurierten Bot handelt, lässt sich in solchen Fällen oft nicht eindeutig sagen. Für das System macht das allerdings keinen Unterschied.

Der eigentliche Unterschied: Kombinationen statt gezielte Nutzung

Was wir hier sehen, ist eine Verschiebung in der Nutzung. Es ging in diesem Fall nicht um eine klassische Suche. Betroffen war ein facettiertes Ergebnis. also eine Oberfläche, bei der sich Inhalte über verschiedene Filter und Parameter selektieren lassen. 

Der Bot hat nicht gezielt Inhalte abgefragt, sondern ohne erkennbares Muster alle möglichen Kombinationen aufgerufen. Parameter an, Parameter aus, Werte variieren – und das in hoher Geschwindigkeit.

Für das System bedeutet das:

  • jede Anfrage ist potenziell einzigartig
  • kaum Wiederverwendung von Ergebnissen
  • aufgrund der Vielzahl möglicher Ergebnisse praktisch keine sinnvolle Cachebarkeit

Während klassisches Crawling eher linear funktioniert, entsteht hier ein kombinatorischer Effekt. Und der skaliert schnell.

Was für einen Nutzer ein paar Klicks sind, werden für ein automatisiertes System tausende Varianten pro Minute.

Warum das kritisch ist

Solche Zugriffe wirken auf den ersten Blick absichtlich harmlos:

  • gültige Requests
  • realistische Parameter
  • keine offensichtlichen Fehler
  • wenige Anfragen durch den einzelnen Client

In der Summe erzeugen sie aber genau die Last, die Systeme an ihre Grenzen bringt. Nicht, weil einzelne Requests besonders teuer sind, sondern weil zu viele unterschiedliche Requests gleichzeitig sind.

Oder anders gesagt:

Das Problem ist nicht die einzelne Anfrage, sondern die Kombination aus Vielfalt und Geschwindigkeit.

Zeige größere Version von: Das Diagramm zeigt einen Nachrichtenverlauf über den Tageszeitraum von 05:00 bis 13:00 Uhr.
Ab etwa 08:00 Uhr steigt die Anzahl der Nachrichten rapide an, mit einem deutlichen Spitzenwert um 08:30 Uhr.
Ein zweiter, höherer Anstieg beginnt bei 09:30 Uhr und erreicht weitere Gipfel zwischen 10:00 und 11:00 Uhr, danach sinkt die Anzahl schrittweise.

Die Lösung: Challenge, damit das System für Menschen nutzbar bleibt

Ein klassisches Blocken war in diesem Fall keine sinnvolle Option, denn durch den ständigen Wechsel der IP-Adressen hätte man entweder zu spät reagiert oder das Risiko gehabt, legitime Nutzer mit auszuschließen.

Stattdessen haben wir die Maßnahmen dort angesetzt, wo sie greift: In der AWS WAF haben wir für den Konfigurator eine Challenge eingerichtet.

Das Prinzip dahinter: Echte Nutzer passieren unauffällig und automatisierte Zugriffe scheitern in der Regel. Damit konnten wir die Last gezielt reduzieren, ohne die Nutzung für echte Anwender einzuschränken.

Die Wirkung war unmittelbar sichtbar: Die Anzahl der Requests ging deutlich zurück und das System stabilisierte sich wieder.

Fazit

Die Last durch Bots und AI-Systeme und ihre speziellen Zugriffsmuster sind kein theoretisches Thema mehr. Sie sind im Alltag angekommen.

Es sind nicht mehr einzelne IP-Adressen, die viele Requests machen, sondern viele IPs machen jeweils wenige. Aber koordiniert.

Für das System fühlt sich das wie normale Nutzung an. In Summe ist es genau das Gegenteil.

Ingo Schmitt

Spricht TypoScript, php und sql. Perl und bash verhandlungssicher; besitzt java-Grundkenntnisse. Seit 1996 dabei und mittlerweile als geschäftsführender Gesellschafter zuständig für Entwicklung und Betrieb und bloggt hier über alles, was technisch interessant und nachhaltig ist. Engagiert sich bei TYPO3 als Vorsitzender des Business Control Committee (BCC) und organisiert das jährliche TYPO3Camp RheinRuhr.

Weitere Beiträge dieses Autors

Blog als RSS-Feed abonnieren

Verwandte Beiträge

  • Howto: Container bei mittwald automatisch per Cron aktualisieren
  • AWS CloudFront Logfileauswertung in Matomo
  • Effiziente Entwicklungsumgebungen: Warum wir Kubernetes durch Virtual Machines ersetzt haben
  • Die Oberfläche von Software wird die KI

Wir freuen uns, wenn Ihr diesen Beitrag teilt.


Kommentare

Keine Kommentare gefunden.

Kommentar verfassen.

Ich bin darauf hingewiesen worden, dass die Verarbeitung meiner Daten auf freiwilliger Basis erfolgt und dass ich mein Einverständnis ohne für mich nachteilige Folgen verweigern bzw. jederzeit gegenüber der Marketing Factory Digital GmbH per Post (Erkrather Straße 401, D-40231 Düsseldorf) oder E-Mail (info@marketing-factory.de) widerrufen kann.

Mir ist bekannt, dass die oben angegebenen Daten so lange gespeichert werden, wie ich die Kontaktaufnahme durch Marketing Factory wünsche. Nach meinem Widerruf werden meine Daten gelöscht. Eine weitergehende Speicherung kann im Einzelfall erfolgen, wenn dies gesetzlich vorgeschrieben ist.

  • Datenschutzerklärung
  • Impressum

© Marketing Factory Digital GmbH

Bildnachweise
  1. "Slack Notification": © Ingo Schmitt / Marketing Factory Digital GmbH
  2. "Massiver Anstieg nach 10 Uhr": © Ingo Schmitt / Marketing Factory Digital GmbH
  3. "Screenshot: IP Verteilung": © Ingo Schmitt / Marketing Factory Digital GmbH
  4. "Verteilung Browser ": © Ingo Schmitt / Marketing Factory Digital GmbH
  5. "Log-Requests nach Challenge": © Ingo Schmitt / Marketing Factory Digital GmbH