3,5 Milliarden Tweets retten : Archive und Forschung starten Initiative

Die Nationalbibliothek will ein Archiv aller deutschsprachigen Tweets anlegen, bevor der Zugriff für die Wissenschaft massiv eingeschränkt wird. Doch für das Vorhaben könnte es eng werden.

Von Oliver Voß

05.03.2023, 16:45 Uhr

Es ist ein Wettlauf gegen die Zeit, den Britta Woldering und Claus-Michael Schlesinger gerade führen. Die beiden leiten den Versuch, ein möglichst vollständiges Archiv deutschsprachiger Tweets anzulegen – solange das noch möglich ist.

Anfang Februar hatte Twitter angekündigt, den bisher freien Zugang zu seinen Programmierschnittstellen (Application Programming Interfaces, APIs) einzuschränken und kostenpflichtig zu machen. Seither haben viele Forschende Angst, bald Analysen zu Desinformation oder Wahlbeobachtungen nur noch erschwert oder gar nicht mehr durchführen zu können.

Auch bei der Deutschen Nationalbibliothek (DNB) sorgt man sich um den wissenschaftlichen Zugriff auf das Twitter-Archiv. Deswegen wurde Anfang der vorigen Woche die Archivierungsinitiative gestartet. „Aus kulturgeschichtlicher und archivarischer Sicht ist es dringend erforderlich, wenigstens einen Teil des Twitter-Archivs zu sichern und zu bewahren“, heißt es in dem Aufruf, denn dafür benötigen die Initiatoren noch Unterstützung.

Unterstützung beim Download gesucht

„Jeder, der einen Academic-Access-Zugang zum Twitterarchiv hat und uns damit unterstützen kann, ist willkommen“, sagt Woldering, die das Projekt leitet und bei der Nationalbibliothek für automatische Erschließungsverfahren und Netzpublikationen zuständig ist. Wissenschaftler:innen können so einen Academic Access zur API bekommen und haben damit die Möglichkeit, pro Monat bis zu zehn Millionen Tweets herunterzuladen und zu analysieren.

Woldering schätzt die Anzahl der deutschsprachigen Twitternachrichten jedoch auf insgesamt 3,5 Milliarden. Mit einem einzelnen Wissenschaftsaccount würde die Archivierung daher fast 30 Jahre dauern, ein Team mit 350 Zugängen könnte dagegen alles in einem Monat archivieren.

Rund 50 Millionen Tweets wurden mittlerweile archiviert. Damit ist der Zeitraum von 2006 bis Anfang 2010 abgedeckt.

Unterstützung bekommt die Nationalbibliothek dabei vom interdisziplinären Science Data Center für Literatur (SDC4Lit). Claus-Michael Schlesinger vom SDC4Lit und dem Institut für Literaturwissenschaft an der Uni Stuttgart leitet das Archivierungsprojekt gemeinsam mit Woldering. Inzwischen haben sie weitere Helfer gewonnen. „Es gab viel Zuspruch aus der Twitterforschungsgemeinde“, sagt Schlesinger. Die Zahl der Unterstützerinnen und Unterstützer liege jetzt im unteren zweistelligen Bereich.

Die ersten Jahre sind gesichert

Seit dem Start wurden circa 50 Millionen Tweets archiviert. „Damit ist der Zeitraum von 2006 bis Anfang 2010 abgedeckt“, sagte Schlesinger am Donnerstag. Allerdings kann die Archivierung nicht im gleichen Tempo weitergehen. „In den frühen Jahren war die Zahl der Nutzer:innen und Tweets deutlich geringer, daher haben wir noch einiges vor uns.“

Ein Problem ist, dass es in Deutschland nicht allzu viele Wissenschaftler mit eigenem Academic-Access-Zugriff gibt. Zudem benötigen diese ihre Download-Kontingente zum Teil auch für die eigenen laufenden Projekte, erst recht wo unklar ist, wie lange sie diese noch fortführen können. Die ursprünglich für den 9. Februar angekündigten API-Umstellungen wurden schon zweimal verschoben, zuletzt hatte das Twitter-Entwickler-Team mitgeteilt, es gäbe eine „Verzögerung um einige Tage“.

Es ist völlig unabsehbar, wie lange wir arbeiten können.
Britta Woldering, Deutschen Nationalbibliothek (DNB)

„Es ist völlig unabsehbar, wie lange wir arbeiten können“, sagt Woldering. Und auch wie es danach mit wissenschaftlichen Twitteranalysen generell weitergeht, ist offen. „Gerade für kleine Forschungsprojekte, die nicht so üppig ausgestattet sind, könnte es das Ende bedeuten.“

Und sogar der Rückgriff auf frühere Forschung könnte sich ändern. „Die Reproduzierbarkeit der Forschung könnte massiv beeinträchtigt werden“, fürchtet Schlesinger. Denn bislang nutzen Wissenschaftlerinnen und Wissenschaftler in ihren Datensätzen in der Regel die Tweet-IDs. Wenn andere Forscher darauf zugreifen möchten, laden sie auf deren Grundlage die vollständigen Tweets herunter. Auch solcherlei Weiternutzung von Analysen und Korpora ist eventuell bald nicht mehr möglich.

bis 20 Terabyte beträgt der Speicherbedarf mit dem gerechnet wird.

Das bislang größte Archiv hat die Library of Congress in den USA angelegt. Dort wurden sämtliche Tweets aus dem Zeitraum von 2006 bis 2017 gespeichert. Doch vor fünf Jahren wurde diese Sammlung beendet, die Anzahl und Größe der Tweets, wurde auch durch den zunehmenden Anteil an Fotos und Videos zu groß. Dieses Problem stellt sich für das deutsche Projekt nicht. „Die Größe ist technisch gut handhabbar“, sagt Schlesinger. Für eine Million Tweets würden etwa zwei bis drei Gigabyte benötigt. „Insgesamt rechnen wir mit einem Speicherbedarf von zehn bis zwanzig Terabyte.“

„Wir erleben einen historischen Bruch“

Der Wettlauf gegen die Zeit geht also weiter. Wobei es angesichts der erratischen Firmenpolitik von Elon Musk auch genauso gut sein kann, dass der akademische Zugriff doch länger möglich bleibt als befürchtet. Den deutschen Archivaren würde das helfen, denn die vollständige Speicherung wird nach jetzigem Stand noch viele Monate in Anspruch nehmen.

Doch so oder so lohnt sich angesichts der Turbulenzen und des Abwanderns von Nutzern zu alternativen Plattformen wie Mastodon das Vorhaben. „Was wir jetzt erleben, stellt in der Geschichte der Plattform einen historischen Bruch dar, insofern ist es ein guter Punkt für so eine Archivierung“, sagt Schlesiger. Seine Co-Leiterin findet, dass der Wert eines solchen Wissensschatzes mit der Zeit sogar steige, denn in der Zukunft dürfte Twitter auch als historische Quelle relevant sein.

Zur Startseite

showPaywall:: false
isSubscriber:: false
isPaid:
showPaywallPiano:: false