Blog über Projekte und Themen, die mich interessieren

20mining Yänne 20mining Yänne

Anatomie eines Crawlers

Wie im letzten Blogpost versprochen, gehe ich in diesem Post näher auf die Funktionsweise meines Crawlers ein. Vorab: Ich bin kein Software Engineer. Es gibt bestimmt mehrere Wege, wie mein Crawler verbessert werden könnte, bis jetzt scheint jedoch alles so zu funktionieren, wie es soll. Eine Verbesserung will ich aber unbedingt noch implementieren. Näheres am Ende dieses Posts.

Read More
20mining Yänne 20mining Yänne

Crawler Complete

Der Crawler ist fertiggestellt! In diesem Blogpost gehe ich näher auf die Überwindung der zuvor erwähnten Hindernisse ein. Dabei entdeckte ich ein paar interessante Dinge im Quellcode der Webseite, welches meinen Job deutlich erleichtert. Weiter gehe ich ein bisschen auf die Anatomie der News-Seite ein. Es stellt sich heraus, dass mein Crawler problemlos auf 14 andere News-Portale angewendet werden kann, da sie dasselbe CDN verwenden.

Read More