Blog über Projekte und Themen, die mich interessieren

20mining Yänne 20mining Yänne

Anatomie eines Crawlers

Wie im letzten Blogpost versprochen, gehe ich in diesem Post näher auf die Funktionsweise meines Crawlers ein. Vorab: Ich bin kein Software Engineer. Es gibt bestimmt mehrere Wege, wie mein Crawler verbessert werden könnte, bis jetzt scheint jedoch alles so zu funktionieren, wie es soll. Eine Verbesserung will ich aber unbedingt noch implementieren. Näheres am Ende dieses Posts.

Read More
20mining Yänne 20mining Yänne

Crawler Complete

Der Crawler ist fertiggestellt! In diesem Blogpost gehe ich näher auf die Überwindung der zuvor erwähnten Hindernisse ein. Dabei entdeckte ich ein paar interessante Dinge im Quellcode der Webseite, welches meinen Job deutlich erleichtert. Weiter gehe ich ein bisschen auf die Anatomie der News-Seite ein. Es stellt sich heraus, dass mein Crawler problemlos auf 14 andere News-Portale angewendet werden kann, da sie dasselbe CDN verwenden.

Read More
20mining Yänne 20mining Yänne

Die Knacknuss

Gute Nachrichten und schlechte Nachrichten. Der Crawler ist so gut wie fertig, doch ein paar fehlende Features der Webseite erschweren das Unterfangen. Auch Fragen zur Frequenz des Crawls bereiten mir noch ein wenig Unbehagen, jedoch hoffe ich diese so bald wie möglich beantworten zu können. Inputs wie immer sehr erwünscht.

Read More