Zum Inhalt springen
Zur Hauptnavigation springen
Zum Footer springen
  • 10+ Jahre Erfahrung 

  • 900+ erfolgreiche Projekte

  • 300+ ★★★★★ Bewertungen

  • 20+ Experten, europaweit tätig

  • 2400+ Follower auf Youtube

Web Crawler

aktualisiert am: 03. März 2024 | Lexikon | von Monika Ehrenreich
rCH=2

Bedeutung:

Ein Web Crawler ist ein Computerprogramm, das das Internet (auch www oder world wide web) durchsucht und Webseiten untersucht. Andere Bezeichnungen für Web Crawler sind:

  • Spider (denn sie wandern bildlich gesprochen durch das weltweite Netz),
  • Robot (denn die Maschine arbeitet automatisch) oder
  • Searchbot (denn der Roboter durchsucht Webseiten).

Suchmaschinen setzten Web Crawler ein, um Seiten automatisiert zu analysieren und in ihren Index aufzunehmen. Das Analysieren einer Seite nennt man Crawlen (denn die kleinen Spinnen krabbeln von einer URL zur anderen über das große weite Netz).


Bekannte Web Crawler und deren Betreiber

  

GoogleBot

googlebot

 

  Der Googlebot ist einer der beliebtesten Web Crawler im Internet, da er für die Indexierung von Inhalten für die Google-Suchmaschine verwendet wird und weil er uns viele Tools (Webmaster Tools, Analytics, etc.) und die Kontrolle über den Prozess gibt.

 

 Bingbot

bingbot

 

  Bingbot ist ein Webcrawler, der 2010 als Ersatz für den früheren MSN-Bot von Microsoft bereitgestellt wurde, um Informationen an seine Bing-Suchmaschine zu liefern.

 

 Slurp Bot

slurp bot

 

  Die Suchergebnisse von Yahoo stammen vom Yahoo-Webcrawler Slurp und vom Web-Crawler von Bing. Slurp sammelt außerdem Inhalte von Partnerseiten zur Aufnahme in Websites wie Yahoo News, Yahoo Finance und Yahoo Sports und greift auf Seiten von Websites im Internet zu, um die Richtigkeit zu bestätigen und die personalisierten Inhalte von Yahoo für seine Nutzer zu verbessern.

 

 DuckDuckBot

duckduckbot

 

  DuckDuckBot ist der Webcrawler für DuckDuckGo , eine Suchmaschine, die in letzter Zeit sehr beliebt ist, da sie für den Datenschutz bekannt ist und seine User nicht ausspioniert. Heute werden mehr als 12 Millionen Anfragen pro Tag bearbeitet.

 

 Baiduspider

baidu spider

 

  Baiduspider ist der Web Crawler der chinesischen Suchmaschine Baidu. Er crawlt Webseiten und liefert Aktualisierungen an den Baidu-Index. Baidu ist mit einem Marktanteil von 80 % am gesamten Suchmaschinenmarkt von China die führende chinesische Suchmaschine.

 

 Yandex Bot

yandex bot

 

  YandexBot ist der Web-Crawler von Yandex, eine der größten russischen Suchmaschinen. Die Suchmaschine ist in Russland mit 64 % Marktanteil klarer Marktführer im Bereich der Internetsuche. Auch in einigen anderen Ländern Osteuropas ist Yandex stark vertreten.

 

Ist ein Web Crawler eine Suchmaschine?

1993 wurde von Matthew Gray am MIT der World Wide Web Wanderer als erster Web Crawler entwickelt, um die Größe des Internets zu messen. Dieser basierte auf der Programmiersprache Perl.

Die erste öffentlich erreichbare Suchmaschine mit Volltextindex wurde 1994 vom CSE Studenten Brian Pinkerton in dessen Freizeit entwickelt.

webcrawler

 Von ihrem Namen WebCrawler stammt der Begriff Web Crawler für ein Programm, das das Internet durchsucht.

Heute gibt es viele Suchmaschinen und viele unterschiedliche Web Crawler. Suchmaschinen benötigen Web Crawler, um Seiten durchsuchen zu können.

Wie funktioniert ein Web Crawler?

Ein Web Crawler ist eine Software nach dem Client-Server-Modell. Das heißt, es handelt sich nicht um eine Desktopanwendung, sondern Web Crawler gelangen, wie beim Surfen über den Browser, über Links von einer Webseite zur anderen.

Daher ist ein gutes Link Building wichtig für Suchmaschinen und SEO.

Zu Beginn des Prozesses werden eine oder mehrere URLs eingegeben, von denen aus die Web Crawler starten. Die neuen Links werden in die Liste der bekannten URLs aufgenommen. Dieser Vorgang wird als Algorithmus programmiert.

Bei einem Algorithmus wird ein Rechenvorgang vorgegeben, der sich nach einem bestimmten Schema wiederholt. Ada Lovelace hat den ersten Computeralgorithmus aufgezeichnet. Nach ihr wurde die Programmiersprache Ada benannt.

Kann ein Web Crawler das ganze Internet durchsuchen?

Theoretisch können Web Crawler alle verlinkten Seiten durchsuchen. Einige Suchmaschinenbetreiber wie z. B. Google, Yahoo und Bing haben sich aber auf das Robots-Exclusion-Standard-Protokoll von 1994 geeinigt, um das Verhalten von Web Crawlern auf Webseiten zu steuern.

Hierbei müssen die Web Crawler als erstes im Root-Verzeichnis einer Domain, dem Stammverzeichnis, nach der Datei https://www.domain-beispiel.com/robots.txt suchen. Hier lesen die Web Crawler aus, ob sie den Links der Webseite folgen dürfen und für welche Crawler das gilt.

  • User-agent: * bedeutet, dass der Abschnitt für alle Web Crawler gilt.
  • Disallow: / teilt den Web Crawlern mit, dass es den Links NICHT folgen darf.

 Den Zugriff durch Schadsoftware kann man dadurch allerdings nicht verhindern. Außerdem kann jeder einsehen, welche Seiten man für Web Crawler sperren möchte.

Was muss man bei der Suchmaschinenoptimierung in Bezug auf Web Crawler beachten?

Damit eine Webseite in den Suchergebnissen angezeigt werden kann, muss sie zuerst in den Suchindex der Suchmaschine aufgenommen werden. SEO Expert(en/innen) sorgen dafür, dass die Webseiten für die Web Crawler der Suchmaschinen optimiert sind.

Manchmal ist es auch sinnvoll, einzelne Seiten für bestimmte Web Crawler zu sperren. Dies kann man über die Meta Tags der Seite einstellen.

  • Mit noindex gibt man den Suchmaschinen zu verstehen, dass die jeweilige Seite nicht in den Index aufgenommen werden soll.
  • Mit nofollow zeigt man den Web Crawlern, dass den Links auf der Seite nicht gefolgt werden soll.
  • Für SEO kann man außerdem eigene Bots einsetzen, um Fehler erkennen und beheben zu können.

Wie kann man Web Crawler programmieren?

Natürlich kann man die Software für eigene Web Crawler selbst schreiben. Dafür gibt es für unterschiedliche Programmiersprachen Anleitungen und Tutorials.

Hier sind einige Beispiele:

und ein Web Crawler Tutorial (Video) in 7 Teilen.

Der erste Teil: Make your Own Web Crawler - Part 1 - The Basics

Gibt es Web Crawler Tools auch online oder als Open Source?

Ja, den Web Crawler kann man auch online ausprobieren. Hier ist eine kleine Liste von Tools - online oder zum Download.

 


Alles klar?

Solltest du noch Fragen zum Thema haben oder dir eine professionelle Unterstützung wünschen, dann melde dich bei uns. Schreibe eine E-Mail an Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein., rufe uns unter +43 1 353 2 353 an oder schicke uns deine Anfrage über unser Kontaktformular.