Blog über Projekte und Themen, die mich interessieren

20mining Yänne 20mining Yänne

Datenverlust - Telegram Warnsystem

Da ein zweiwöchigen Lochs in den Daten aufgrund meiner Unachtsamkeit entstanden ist, wird dies mit einem Telegram-Bot behoben welcher mir automatisch eine Nachricht schriebt, wenn der Datenordner während einer Stunde nicht aktualisiert wurde. So werde ich in Zukunft früh auf Nichtfunktionieren des Crawlers hingewiesen und kann entsprechend reagieren und den Ausfall von Daten verhindern.

Read More
20mining Yänne 20mining Yänne

Dashboard

Wie in vorgehenden Blogposts angekündigt zeige ich euch in diesem Post mein Rudimentäres Dashboard. Dabei handelt es sich nur um einen Plot der Sqlite3 Datenbank. Dabei kann ich die verschiedenen Crawlnummer über die Zeit verfolgen, sowie die Anzahl Artikel Total und den Anteil der Artikel welche zu Beginn kommentierbar waren. Dies dient nur einem groben Überblick, die genauere Auswertung über die Kommentierbarkeit der Artikel werde ich später erstellen…

Read More
20mining Yänne 20mining Yänne

Neue interessante Features

20Minuten arbeitet munter an ihrer Webseite. Ich bin froh habe ich zum “richtigen“ Zeitpunkt begonnen. Zu früh und ich hätte aufgrund des neuen Designs den ganzen Crawler noch einmal schreiben können, zu spät und ich könnte diese Wachstumsphase der Seite nicht beobachten. Seit dem Start diese Projekt hat 20Minuten nämlich neue Funktionen hinzugefügt…

Read More
20mining Yänne 20mining Yänne

Anatomie eines Crawlers

Wie im letzten Blogpost versprochen, gehe ich in diesem Post näher auf die Funktionsweise meines Crawlers ein. Vorab: Ich bin kein Software Engineer. Es gibt bestimmt mehrere Wege, wie mein Crawler verbessert werden könnte, bis jetzt scheint jedoch alles so zu funktionieren, wie es soll. Eine Verbesserung will ich aber unbedingt noch implementieren. Näheres am Ende dieses Posts.

Read More
20mining Yänne 20mining Yänne

Crawler Complete

Der Crawler ist fertiggestellt! In diesem Blogpost gehe ich näher auf die Überwindung der zuvor erwähnten Hindernisse ein. Dabei entdeckte ich ein paar interessante Dinge im Quellcode der Webseite, welches meinen Job deutlich erleichtert. Weiter gehe ich ein bisschen auf die Anatomie der News-Seite ein. Es stellt sich heraus, dass mein Crawler problemlos auf 14 andere News-Portale angewendet werden kann, da sie dasselbe CDN verwenden.

Read More
20mining Yänne 20mining Yänne

Die Knacknuss

Gute Nachrichten und schlechte Nachrichten. Der Crawler ist so gut wie fertig, doch ein paar fehlende Features der Webseite erschweren das Unterfangen. Auch Fragen zur Frequenz des Crawls bereiten mir noch ein wenig Unbehagen, jedoch hoffe ich diese so bald wie möglich beantworten zu können. Inputs wie immer sehr erwünscht.

Read More