Wissen

KI Training führt zum Ausfall des Internet Archiv

Über das verlängerte Wochenende wurde das Internet Archive Opfer vermutlich unbeabsichtigter DDoS-Attacken. Die Ursache liegt wahrscheinlich in einem unvorsichtigen KI-Training.

Während des Pfingstwochenendes kam es beim Internet Archive wahrscheinlich vorübergehend zu einem Ausfall, da jemand beim Training eines Textgenerators eine enorme Anzahl von Zugriffen auf die automatisierte Textsammlung auslöste. Laut Brewster Kahle, dem Gründer des Archivs, gingen zeitweise Zehntausende von Anfragen pro Sekunde von virtuellen Hosts bei Amazons Web Services (AWS) ein, was dazu führte, dass das Archiv für etwa eine Stunde vollständig vom Netz genommen wurde. Wenige Stunden später wiederholte sich das Ganze. Obwohl das Internet Archiv nicht genau weiß, wer dafür verantwortlich ist, besteht der Verdacht natürlich, dass es sich um das Training eines großen Sprachmodells handelt, das als Grundlage für KI-Textgeneratoren wie ChatGPT dient. Das Archiv hat nichts dagegen einzuwenden, bittet jedoch um rücksichtsvolles Vorgehen.

Kahle berichtet, dass sein Team erstmals am Sonntag Maßnahmen ergreifen musste, um die IP-Adressen zu blockieren, von denen die unzähligen Zugriffe kamen. Stunden später begannen jedoch 64 neue Adressen mit identischen Aktivitäten, woraufhin das Internet Archive erneut offline ging. Das Archiv teilte über Twitter mit, dass der Verdacht besteht, dass es sich mindestens um ein ungünstiges KI-Training gehandelt hat. Ein Mitarbeiter erklärte auf Mastodon, dass so etwas gelegentlich vorkomme. In verschiedenen Beiträgen wird jedoch die Unzufriedenheit darüber deutlich, dass man aufgrund dessen an einem verlängerten Wochenende aktiv werden musste.

KI Training führt zum Ausfall des Internet Archiv
Midjourney: Digitales Archiv für KI Training

Jason Scott vom Internet Archive erläuterte auf Mastodon, dass man „natürlich“ nicht wisse, welches „brillante Genie“ sich dazu entschlossen habe, ein Vorgehen zu wählen, das letztendlich zu einem DDoS-Angriff führte. Es sei naheliegend anzunehmen, dass es sich um das Training einer KI handelt. Wenn es um „echte“ Forschung gegangen wäre, hätte man im Vorfeld einen Prozess für den massiven Datenabruf besprochen. Trotz der eindeutigen Blockade der IP-Adressen hörte der Verantwortliche nicht auf und versuchte es von einer neuen Adresse aus erneut. Kahle schreibt ebenfalls: „Wenn du geblockt wirst, beginne nicht einfach neu, sondern melde dich.“ Und er fügt hinzu: „Benutzt das Internet Archive, aber bringt uns dabei nicht aus dem Netz.“

Das Internet Archiv wurde 1996 gegründet und widmet sich der langfristigen Speicherung digitaler Informationen in frei zugänglicher Form. Neben der Wayback Machine, auf der historische Versionen von Internetseiten besucht werden können, betreibt es eine stetig wachsende digitale Bibliothek, in der Texte, Bücher, Videos, Audiodateien, Bilder und Software abrufbar sind. Sprachmodelle wie GPT-4 bilden die Grundlage für KI-Generatoren wie ChatGPT, die mit umfangreichen Datenmengen trainiert werden, um automatisiert Inhalte zu generieren. Im aktuellen Fall ging es offenbar darum, einen Textgenerator mit automatisch erkannten Inhalten (OCR) zu trainieren.

Das Internet Archive spielt eine wichtige Rolle als eine Art „Insel“ in den dunklen Gewässern des Internets. Allerdings bedeutet dies nicht, dass man mit einem riesigen motorisierten Bagger hereinkommen und das gesamte Archiv auf einmal wegschaffen sollte, wie Jason Scott vom Internet Archive auf Mastodon erklärte.

Das Internet Archiv ist eine wertvolle Ressource für die Öffentlichkeit und Forscher weltweit. Es stellt sicher, dass historische Daten und Informationen für zukünftige Generationen erhalten bleiben. Daher ist es bedauerlich, dass unvorsichtiges oder rücksichtsloses Verhalten zu vorübergehenden Ausfällen und Beeinträchtigungen führen kann.

Das Archiv ist sich bewusst, dass KI-Training und die Entwicklung von Sprachmodellen wichtige und aufregende Bereiche der Forschung sind. Dennoch sollte dies mit Verantwortung und Rücksichtnahme auf andere Internetnutzer erfolgen. Das Internet Archive bittet darum, das Archiv weiterhin zu nutzen, jedoch ohne den Betrieb zu beeinträchtigen.

Es ist wichtig, dass diejenigen, die KI-Modelle trainieren, die Auswirkungen ihres Handelns auf andere Ressourcen und Dienste im Internet berücksichtigen. Wenn Zugriffsbeschränkungen oder Blockaden eingerichtet werden, ist es unangebracht, einfach mit neuen IP-Adressen weiterzumachen. Stattdessen sollte eine Kommunikation mit den Verantwortlichen erfolgen, um Lösungen zu finden, die sowohl die Forschung als auch den Betrieb anderer Dienste respektieren.

Insgesamt ist das Internet Archiv ein wertvolles Werkzeug für die Langzeitspeicherung und den Zugriff auf digitale Informationen. Es ist wichtig, dass die Internetgemeinschaft zusammenarbeitet, um sicherzustellen, dass es reibungslos funktioniert und für zukünftige Generationen erhalten bleibt. Indem wir verantwortungsbewusst handeln und rücksichtsvoll mit seinen Ressourcen umgehen, können wir sicherstellen, dass das Internet Archive weiterhin eine unverzichtbare Quelle des Wissens und der Geschichte bleibt.

AiRoma

Begeisterter AI Anwender - Künstliche Intelligenz ist ein faszinierendes Thema welches großes Potenzial und viele Gefahren mit sich bringt. Die Welt muss sich dahingehend informieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert