„Maschinelles Lernen“ – das ist der Bereich, der die 29-jährige Elena Erdmann fasziniert. In ihrer Doktorarbeit erforscht die Datenjournalistin derzeit, wie es im Journalismus eingesetzt werden kann. In diesem JoCoView gibt sie einen Einblick in dieses Feld und ihre Arbeit.
Du hast erst Informatik und Mathematik an der Technischen Universität Dortmund studiert und bist dann zum Journalismus gekommen. Wie kam’s?
Elena Erdmann: „Tatsächlich war es so, dass ich immer Journalistin werden wollte – das war schon vor Informatik und Mathe mein Ziel. Ich habe auch erst etwas in die Richtung studiert, bin dann aber doch bei der Informatik gelandet. Nach meinem Studium habe ich mich dann damit beschäftigt, was ich eigentlich genau machen will – und die Idee etwas im Bereich des Journalismus zu machen, war immer noch da und hat mir immer noch gefallen. Ich habe erst gedacht: ‚Wie soll das denn zusammenpassen?‘ Doch dann habe ich nach und nach herausgefunden, dass das doch ziemlich gut zueinander passt.“
Wie kannst du deine Kenntnisse aus dem Studium im Journalismus einsetzen?
„Auf ganz viele verschiedene Weisen. Im Datenjournalismus bringt es einem total viel, wenn man weiß, wie man an die Daten rankommt, wo man sie herbekommt und wie man sie verarbeiten kann. Ja, und wenn man sie einfach mit dieser informatischen Denkweise beleuchtet. Das sind eher neue Skills, die noch nicht so viele Journalisten haben.“
Mit welchen Programmiersprachen arbeitest du am häufigsten, um die Daten zu besorgen?
„Ich arbeite eigentlich die ganze Zeit mit Python. Das gefällt mir am besten. Ab und zu schreibe ich auch ein paar Zeilen in R, HTML, JavaScript und so. Aber vor allem Python.“
Bedingt durch dein Studium oder wie kam es zu der Sprache?
„Ich habe im Studium erst mit Java angefangen, aber das ist eher für andere Anwendungen. Gerade, wenn man mit Daten arbeitet, reicht es, kurze Skripte zu schreiben. Das gelingt gut in Python – das ist eine sehr angenehme Syntax. Die anderen von Journocode mögen ja alle gerne R, aber ich komme mit der R-Syntax nicht so gut klar, weil viele der Konzepte, die wir im Informatik-Studium gelernt haben, viel direkter in Python funktionieren. Ich habe das Gefühl, in Python etwas mächtiger zu sein, also ich kann damit mehr machen. Es passt einfach zu der Art, wie ich programmiere.“
Proud of journocode member @elena_erdmann for doing 4 #EIJC17 sessions on python from scratch – from basic arithmetics to plots to scraping pic.twitter.com/u8mShHU9Nu
— Journocode (@journocode) May 20, 2017
Wie wurdest du Teil des Journocode-Teams?
„Ich habe wie die meisten der anderen auch an der TU Dortmund studiert, allerdings nicht Journalismus, sondern Informatik und Mathe. Wie gesagt, habe ich nach dem Studium gesagt, dass Journalismus doch so cool ist, und habe mich einfach mal in eine Veranstaltung für Journalismus-Erstsemestler gesetzt. Da saßen dann die ganzen Journocoder. Deshalb kannte ich die so ein bisschen vom Sehen. Darüber bin ich auch an meinen Doktorvater gekommen, weil der Journalismus-Professor da meinte, dass sich in der Informatik niemand für Journalismus interessiert, außer Professor Dr. Kristian Kersting, der jetzt mein Doktorvater ist. Mit den Journocodern habe ich dann an der Uni viele gemeinsame Projekte gemacht. Kira Schacht meinte dann irgendwann, dass ich doch abends auch mal zu einem Journocode-Treffen kommen könnte. Und dann war ich dabei.“
Du warst „Google News Fellow“ bei der Wirtschaftswoche. Was bedeutet das denn?
„Das ist ein ganz cooles Programm von Google. Vor zwei Jahren haben sie Leute in Redaktionen geschickt, die vielleicht nicht den ganz typischen Journalisten-Hintergrund haben. Weil es Google ist, natürlich auch mit so einem Technologie-Touch. Ich bin dann bei der Wirtschaftswoche gelandet und da durften wir dann relativ frei mit der Redaktion ein paar Projekte umsetzen. Da hat Google uns gar nicht viel vorgegeben, sondern es war einfach die Idee, dass wir ein bisschen Innovation in die Redaktion bringen.“
Und das war auf eine gewisse Zeit begrenzt, so wie eine Art Praktikum?
„Ganz genau. Das ist im Endeffekt ein zweimonatiges Praktikum. Man wird gesponsert von Google, arbeitet aber wie ein Praktikant in der Redaktion. Vielleicht ein bisschen besonderer Praktikant, weil es wird schon etwas Anderes von einem erwartet, da man was Neues dort hineintragen soll.“
Was hast du für Projekte gemacht?
„Da habe ich relativ viel zu Trump gemacht, weil es gerade zu der Zeit war, als er gewählt wurde. Da habe ich beispielsweise alle Tweets runtergeladen und durchanalysiert.“
Mein erster Beitrag für Wiwo.de 🙂 https://t.co/E9nCDAOzwl
— Elena Erdmann (@elena_erdmann) October 12, 2016
Aktuell promovierst du an der TU Darmstadt in Kooperation mit ZEIT ONLINE. Passend zu deinem Thema: Wie kann denn maschinelles Lernen im Journalismus eingesetzt werden?
„Ich suche ja nach Aufgabenstellungen und Anwendungsgebieten. Dabei schaue ich besonders nach Textverständnis – das heißt „Natural Language Processing“ bei den Machine-Learnern. Wie kann ich automatisch Texte analysieren und wie kann ich daraus etwas ziehen? Das ist tatsächlich ganz schön schwierig. Für den Computer ist es nicht so leicht einen Text zu verstehen und zu wissen, worauf es ankommt. Es gibt ganz viele verschiedene Anwendungsfälle, sei es, dass man sich Artikel anschaut, um rauszufinden, wann welches Thema aktuell geworden ist. Welche Artikel funktionieren wann, wieso gut? Oder ob man so einen riesigen Fall hat, wie bei den ‚Panama Papers‘. Da kann man einiges rausholen, wenn man gewisse Techniken verwendet, die wir in unserem Bereich haben. Und das schaue ich mir gerade an: Wie können wir diesen Transfer schaffen? Welche Methoden gibt es da eigentlich? Und wie kann ich die übertragen in die Redaktionen?“
Ist das dann wie bei den ‚Panama Papers‘ eher eine unterstützende Technologie für den Journalisten oder geht da beispielsweise auch so etwas wie Roboterjournalismus mit einher, dass der Computer Texte selber schreibt?
„Natürlich gibt es das schon so ein stückweit. Ich bin aber immer noch der Auffassung, dass die coolen Texte, die wirklich bewegen, nicht von einer Maschine geschrieben werden können. Ich habe mal ein bisschen ausprobiert, was mein Computer geschrieben hat – das war aber eher lustig. Was ganz gut geht, sind strukturierte Meldungen, wie die Ergebnisse von einem Sportturnier erzählen oder das Wetter auszuformulieren. Also wenn man Daten und klare Regeln hat, funktioniert es gut, daraus einen Text zu machen. Sobald es um Überraschung geht oder das interessante, menschliche Gefühl reinkommt, wird es sehr, sehr schwer, das mit Computern zu machen. Dafür kann der Computer aber unterstützen und Ideen generieren – da wird der Mensch aber nicht ersetzt von.“
Dem Thema „Machine Learning“ widmest du dich dann ja auch am 24. März in einem Talk auf dem ddj-Event „JournoCon“ von eurer Gruppe Journocode gemeinsam mit Sakander Zirai.
„Genau. Wir werden darüber erzählen, wie man mit ‚Machine Learning‘ Geschichten in Daten finden kann – also welche Methoden es da gibt. Im Machine Learning geht es meistens darum, Sachen vorherzusagen. Manche der Algorithmen finden dabei Regeln, aus denen der Mensch wiederum etwas über die Daten lernen kann. Der Entscheidungsbaum beispielsweise würde verschiedene Variablen nehmen und sagen, welche für die Entscheidung wichtig sind. Das kann man ausnutzen, um sich genau diese Variablen genauer anzugucken und weiter zu erforschen. Der Algorithmus schlägt sozusagen vor, hinter welchen Details eines Datensatzes eine interessante Geschichte stecken könnte.“
Auf der #JournoCon18 wird es nicht nur spannende Workshops und Vorträge zu Arbeitsschritten im #ddj geben, auch die Aussicht ist nicht zu unterschätzen! Sichert euch ein Ticket und seid am 24. März in den Räumen der @IGG_Berlin mit dabei! https://t.co/pYYLmElPYC pic.twitter.com/VX2wU73SRV
— Journocode (@journocode) January 17, 2018
Bei euren Workshops hast du den spaßig gemeinten Namen „AI Squirrel“. Was fasziniert dich so an dem Bereich, dass du den bekommen hast?
„Ich promoviere halt in dem Bereich mit künstlicher Intelligenz, also AI. Daher lag das nahe. Das ist natürlich alles so ein bisschen ironisch gemeint, aber das ist schon so meine Kompetenz, diese Thematik ins Team zu bringen.“
Durch diesen besonderen Bereich bekommst du ja einen ganz anderen Blick auf den Journalismus und siehst, was technisch vielleicht noch möglich ist. Wo glaubst du wird er sich zukünftig, eventuell auch mit Hilfe solcher Technologien, hin entwickeln?
„Wenn man in die Zukunft sehen könnte, wäre vieles so viel einfacher. Ich hoffe ja, und das ist ja auch die Idee von Journocode, dass es einfach normal wird, dass wir einen quantitativen Blick auf Dinge werfen und wir alle schauen, was denn wirklich die Datenlage ist. Ich denke, man kann da ganz gut noch mehr Objektivität in den Journalismus bringen als es sie manchmal bisher gibt. Und ich hoffe, dass das so eine Normalität bekommt, nochmal seine Thesen mit einfachen Methoden zu belegen und damit hoffentlich der Wahrheit noch ein bisschen näher zu kommen. Was ich aber auch mag und das versuchen wir bei ZEIT ONLINE beispielsweise, ist es, den Leser stärker einzubringen. Das ist auf jeden Fall ein Potential, das im Journalismus noch mehr ausgeschöpft werden kann. Durch die Digitalisierung kann er plötzlich stärker agieren als früher. So können wir noch besser herausfinden, was die Menschen denken und das könnte vielleicht einen demokratisierenden Effekt haben.“
Was ist maschinelles Lernen bzw. „Machine Learning“? Dabei handelt es sich laut einer Definition des BigData-Insiders um ein Teilgebiet der künstlichen Intelligenz. „Durch das Erkennen von Mustern in vorliegenden Datenbeständen sind IT-Systeme in der Lage, eigenständig Lösungen für Probleme zu finden. […] Sind passende Daten vorhanden und Regeln definiert, können Systeme mit maschinellem Lernen unter anderem folgendes:
- Relevante Daten finden, extrahieren und zusammenfassen,
- Vorhersagen auf Basis der analysierten Daten treffen,
- Wahrscheinlichkeiten für bestimmte Ereignisse berechnen,
- sich an Entwicklungen eigenständig anpassen und
- Prozesse auf Basis erkannter Muster optimieren.“
Was ist Journocode? Geschäftsführerin Marie-Louise Timcke beschreibt das Projekt auf ihrer Homepage wie folgt: „Im Oktober 2015 haben Kommilitonen und ich Journocode gegründet – ein BarCamp für Datenjournalismus- und Programmierbegeisterte in Dortmund. Zwei Jahre später gehen wir nun den nächsten Schritt und bieten als Journocode UG Workshops und Seminare an.“ Außerdem befinden sich auf der dazugehörigen Internetseite hilfreiche ddj-Tools und ein Glossar, in dem die wichtigsten Datenjournalismus-Begriffe erklärt werden.
Weitere Journocoder im JoCoView:
- Marie-Louise Timcke: „Nicht nur Daten für Story nehmen“
- Kira Schacht: „Hoffe, dass ddj normaler wird“
- Moritz Zajonz: „Grundlegendes Verständnis von Statistik ist wichtig“
Quelle Beitragsbild: Elena Erdmann
2 Gedanken zu „Erdmann: „Mit ‚Machine Learning‘ Geschichten finden““