
Blog über Projekte und Themen, die mich interessieren
Anatomie eines Crawlers
Wie im letzten Blogpost versprochen, gehe ich in diesem Post näher auf die Funktionsweise meines Crawlers ein. Vorab: Ich bin kein Software Engineer. Es gibt bestimmt mehrere Wege, wie mein Crawler verbessert werden könnte, bis jetzt scheint jedoch alles so zu funktionieren, wie es soll. Eine Verbesserung will ich aber unbedingt noch implementieren. Näheres am Ende dieses Posts.
Crawler Complete
Der Crawler ist fertiggestellt! In diesem Blogpost gehe ich näher auf die Überwindung der zuvor erwähnten Hindernisse ein. Dabei entdeckte ich ein paar interessante Dinge im Quellcode der Webseite, welches meinen Job deutlich erleichtert. Weiter gehe ich ein bisschen auf die Anatomie der News-Seite ein. Es stellt sich heraus, dass mein Crawler problemlos auf 14 andere News-Portale angewendet werden kann, da sie dasselbe CDN verwenden.
Die Knacknuss
Gute Nachrichten und schlechte Nachrichten. Der Crawler ist so gut wie fertig, doch ein paar fehlende Features der Webseite erschweren das Unterfangen. Auch Fragen zur Frequenz des Crawls bereiten mir noch ein wenig Unbehagen, jedoch hoffe ich diese so bald wie möglich beantworten zu können. Inputs wie immer sehr erwünscht.