
Blog über Projekte und Themen, die mich interessieren
Mini Update
Kleines Update mit neuen Bestenlisten. Dieses Mal zu Thema “Wer hat den längsten“ und Entropie.
Erste Auswertungen
Erste Auswertungen aus meinem Crawler Projekt und einen Ausblick auf was noch folgen wird.
Datenverlust - Telegram Warnsystem
Da ein zweiwöchigen Lochs in den Daten aufgrund meiner Unachtsamkeit entstanden ist, wird dies mit einem Telegram-Bot behoben welcher mir automatisch eine Nachricht schriebt, wenn der Datenordner während einer Stunde nicht aktualisiert wurde. So werde ich in Zukunft früh auf Nichtfunktionieren des Crawlers hingewiesen und kann entsprechend reagieren und den Ausfall von Daten verhindern.
Dashboard
Wie in vorgehenden Blogposts angekündigt zeige ich euch in diesem Post mein Rudimentäres Dashboard. Dabei handelt es sich nur um einen Plot der Sqlite3 Datenbank. Dabei kann ich die verschiedenen Crawlnummer über die Zeit verfolgen, sowie die Anzahl Artikel Total und den Anteil der Artikel welche zu Beginn kommentierbar waren. Dies dient nur einem groben Überblick, die genauere Auswertung über die Kommentierbarkeit der Artikel werde ich später erstellen…
Neue interessante Features
20Minuten arbeitet munter an ihrer Webseite. Ich bin froh habe ich zum “richtigen“ Zeitpunkt begonnen. Zu früh und ich hätte aufgrund des neuen Designs den ganzen Crawler noch einmal schreiben können, zu spät und ich könnte diese Wachstumsphase der Seite nicht beobachten. Seit dem Start diese Projekt hat 20Minuten nämlich neue Funktionen hinzugefügt…
Quick Update
Kurzes Update über Änderungen der RSS-Feeds der Seite und Einrichtung des Dashboards…
Anatomie eines Crawlers
Wie im letzten Blogpost versprochen, gehe ich in diesem Post näher auf die Funktionsweise meines Crawlers ein. Vorab: Ich bin kein Software Engineer. Es gibt bestimmt mehrere Wege, wie mein Crawler verbessert werden könnte, bis jetzt scheint jedoch alles so zu funktionieren, wie es soll. Eine Verbesserung will ich aber unbedingt noch implementieren. Näheres am Ende dieses Posts.
Crawler Complete
Der Crawler ist fertiggestellt! In diesem Blogpost gehe ich näher auf die Überwindung der zuvor erwähnten Hindernisse ein. Dabei entdeckte ich ein paar interessante Dinge im Quellcode der Webseite, welches meinen Job deutlich erleichtert. Weiter gehe ich ein bisschen auf die Anatomie der News-Seite ein. Es stellt sich heraus, dass mein Crawler problemlos auf 14 andere News-Portale angewendet werden kann, da sie dasselbe CDN verwenden.
Die Knacknuss
Gute Nachrichten und schlechte Nachrichten. Der Crawler ist so gut wie fertig, doch ein paar fehlende Features der Webseite erschweren das Unterfangen. Auch Fragen zur Frequenz des Crawls bereiten mir noch ein wenig Unbehagen, jedoch hoffe ich diese so bald wie möglich beantworten zu können. Inputs wie immer sehr erwünscht.
A new hope
Ich starte ein neues Projekt: Datenauswertung eines Schweizer Medienunternehmens über ihre Artikel.