Wie funktionieren Suchmaschinen?

Geschrieben von Lisa | 03.02.2014 15:22:00

Heutzutage ist es einem Unternehmer kaum mehr möglich, sich nicht mit dem Thema "Suchmaschinenoptimierung (SEO)" im Rahmen der eigenen Marketingstrategie zu beschäftigen. Dabei stolpert er zwangsläufig über Begriffe wie Crawler, Index oder Ranking.

Um etwas Licht ins Dunkel der Fachbegriffe zu bringen, beschäftigt sich diese Blogreihe mit der Funktionsweise von Suchmaschinen, um ein Grundverständnis für diese und die daraus resultierenden SEO-Maßnahmen zu vermitteln. Also, was ist eine Suchmaschine überhaupt? Was macht sie?

Salopp gesagt, durchsucht eine Suchmaschine das Internet gezielt nach Informationen und sorgt dafür, dass Nutzer sich orientieren können. Sie besteht dazu aus verschiedenen Teilen: Crawler, Index, Datenbanken und Algorithmen. Was genau sich dahinter verbirgt, wird diese Artikelserie ans Licht bringen.

Vorab, gibt es Unterschiede zwischen Suchmaschinen?

Grundlegend gibt es zwei unterschiedliche Arten von Suchmaschinen: Meta-Suchmaschinen und Volltext-Suchmaschinen.

Letztere, zu denen unter anderem Google und Bing zählen, durchsuchen und indizieren den gesamten Text einer Website bzw. eines Dokuments. Das bedeutet für Nutzer, dass bei der Abfrage eines Begriffes oder einer Wortgruppe auf alle relevanten Dokumente verwiesen wird, die von den Crawlern durchsucht wurden und in denen der von ihnen gesuchte Begriff vorgekommen ist. Ein Crawler - auch Spider, Robot oder Bot - ist die Software, die eine Suchmaschine nutzt, um eine Website zu finden, zu analysieren und zu speichern. Gewissermaßen ein vollautomatisierter Informationssammler.

Meta-Suchmaschinen wie MetaGer.de oder Ixquick sammeln hingegen nicht selbst, sondern übergeben die Suchanfrage an mehrere andere Suchmaschinen. Dort greifen sie Ergebnisse ab und verarbeiten die erhaltenen Informationen zu einer eigenen Trefferliste.

Wichtig zu wissen: Bei einer Suchanfrage wird dann nicht das gesamte Internet durchsucht, sondern lediglich der von der jeweiligen Suchmaschine selbst erstellte Index gespeicherter Websites.

Die Auswahl all dieser Seiten erfolgt mit Hilfe bestimmter Algorithmen (Rechenverfahren), die von den Suchmaschinenbetreibern streng geheim gehalten werden und einem sehr komplexen System verschiedener Prozesse unterliegen. Jeder Suchmaschinenbetreiber folgt dabei seinem eigenen System, was dazu führt, dass die Suchergebnisse verschiedener Suchmaschinen unterschiedlich sein können.

Insgesamt funktionieren Suchmaschinen aber nach ähnlichen Prinzipien: Ein Crawler durchsucht zunächst systematisch das Internet nach Websites und folgt Links, scannt jede Website und liest sie Seite für Seite ein. Um die Übertragungsdauer zu verkürzen und die Server nicht zu überlasten, öffnet ein Crawler häufig hunderte von Verbindungen gleichzeitig - gibt es dann bei einer Verbindung Probleme, kann ohne weiteres auf eine andere zugegriffen werden. Dieses Rotationsverfahren erlaubt einem Crawler bis zu 30 Seiten pro Sekunde zu erfassen. Die Texte und HTML-Elemente werden dann in einer Datenbank gespeichert, nach bestimmten Kriterien gewichtet und sortiert (indexiert). Dieser Index für die in den Websites enthaltenen Worte erlaubt dem Nutzer nach Wortkombinationen zu suchen, um am Ende themenrelevante Suchergebnisse zu erhalten - vergleichbar mit einem Archivar, der erhaltene Informationen nach einem logischen Konzept ablegt, um diese jederzeit mit wenig Aufwand wiederfinden und bereitstellen zu können.

Der Informationsgewinnungsprozess lässt sich demnach in drei Schritte unterteilen: 1. Datensammlung, 2. Datenanalyse, 3. Datenausgabe.

Im zweiten Teil dieser Artikelreihe schauen wir uns den Punkt Datensammlung an.

Crawler bilden die Schnittstelle der Suchmaschine zum Internet. Es handelt sich dabei um einfache Programme, die Webseiten nach HTML-Inhalten durchsuchen und diese in einer Datenbank abspeichern. Texte aus .ppt- oder .pdf-Dateien können ebenfalls indexiert werden. Nicht-HTML-Inhalte wie dynamische Seiten, Java, Java Script, Flash oder Bilder werden hingegen nicht erfasst.

„Wie findet ein solcher Crawler meine Website?" werdet Ihr Euch sich nun vermutlich fragen. Grundsätzlich gilt: Fast ohne Eure Hilfe, denn der Crawler folgt Links. Eure Website wird also früher oder später automatisch gefunden, wenn eine bereits indexierte Website einen Link zu Eurer Website enthält. Besteht ein solcher Link jedoch (noch) nicht, führt kein Weg an einer manuellen Anmeldung vorbei. Jede Suchmaschine unterhält zu diesem Zweck eine Datenbank, in der die „Suchmaschinenanmeldungen der neuen Seiten" gespeichert sind.

Verwaltet werden die hunderte von Crawlern durch sogenannte Scheduler. Ein solches Steuerungsprogramm bestimmt wann, wie oft und wie tief ein Crawler eine Website durchsucht. Außerdem registriert es die fehlgeschlagenen Versuche der Datensammlung auf den jeweiligen Seiten. Da Eure Website in unterschiedlichen Intervallen gescannt und neu indexiert wird, schadet es dennoch nicht Eure Website manuell bei den Suchmaschinen anzumelden, um die eigene Indexierung aktuell zu halten. Bei Google geht das beispielsweise mithilfe der Webmastertools.

Enthält Eure Website dynamische Elemente wie einen täglichen Newsfeed, so verkürzen sich die Besuchszeiten der Crawler aufgrund der Aktualität. Durch so genannte Meta-Tags können den Suchmaschinen zudem Informationen über eine Webseite bereitgestellt werden. Ihr habt mittels robots.txt außerdem die Möglichkeit anzugeben, welche Eurer Seiten und Links nicht von den Suchmaschinen gesammelt werden dürfen.

Der so genannte Indexer bereitet anschließend die vom Crawler gesammelten Daten auf und erstellt damit den bereits angesprochenen Index. Im Prinzip wird dazu für jedes Wort ein Eintrag mit der genauen Position im Datenbestand erstellt, wodurch der Index für die Suchmaschine schnell und effizient durchsuchbar wird.

Nachdem die Inhalte der Website indexiert - gespeichert - wurden, muss ihre thematische Ausrichtung bestimmt werden. Da Suchmaschinen dabei nicht auf die menschliche Intelligenz beim Lesen eines Textes zurückgreifen können, wenden sie festgelegte Algorithmen an. Doch was wird gescannt? Welches sind die wichtigen Elemente?

In großen Teilen Text, Text und nochmal Text - denn dieser wird grundsätzlich gesucht und in der Datenbank der jeweiligen Suchmaschine gespeichert. Es werden jedoch nicht alle Elemente Ehrer Website berücksichtigt: Java Script wird beispielsweise nur bedingt ausgewertet, während Flash und Java Applets bislang nicht vollständig gelesen werden können. Stattdessen ermöglicht das Erfassen der HTML-Textformatierung Rückschlüsse auf den Inhalt der jeweiligen Seite. Zu nennen sind an dieser Stelle Informationen wie Keywords in der Domain, Titel, Beschreibungstext (Meta-Informationen), Überschriften, Linktexte, Listen oder fettgedruckte Worte.

Gute Suchmaschinenoptimierung basiert daher häufig auf Text (Content). Gutem Text.

Für die eigentliche Inhaltsbestimmung werden aufgrund ihrer meist hohen Aussagekraft insbesondere Substantive herangezogen. Dabei wird die Häufigkeit des Vorkommens eines Substantivs im Fließtext bestimmt, um darüber den Inhalt der Webseite zu bestimmen. Je häufiger ein Wort dabei vorkommt, desto größer ist die Wahrscheinlichkeit, dass es eine hohe Relevanz für den Text besitzt. Betrachtet werden dabei nicht nur einzelnen Worte, sondern auch Wortstämme.
Welche Elemente im Einzelnen eingelesen und gespeichert werden und vor Allem welches Gewicht diesen Elementen im Rahmen der Indexierung zugeschrieben wird, bleibt jedoch Geheimnis der Suchmaschinenanbieter. Für Euch ist daher im Rahmen der Suchmaschinenoptimierung wichtig, möglichst alle Elemente Eurer Website zu berücksichtigen.

Sind schlussendlich alle Stufen der Keyword-Analyse durchlaufen, wird Eure Website für den ermittelten Suchbegriff indexiert. Dabei gilt: Je höher die Einstufung der Relevanz der Seite für ein Wort aus einer Suchanfrage, desto höher ist die daraus resultierende Platzierung in den Suchergebnissen (SERPS).
Die Suchmaschine speichert dazu Text in einer eigenen Datenbank bzw. in mehreren Datenbanken (dem Index), damit ein Nutzer schnellstmöglich ein Resultat zu seiner Suche erhält.

Daher noch einmal: Wenn eine Suchanfrage getätigt wird, werden die Websites nicht „live" durchsucht - es wird lediglich auf die gespeicherten Textelemente aus den Datenbankbeständen zugegriffen.

Allein Google erhält im Durchschnitt 1.000 Suchanfragen pro Sekunde und indexiert laut eigener Angabe über acht Milliarden Websites mit einer Größe von im Schnitt 10 Kilobyte - speichert also rund 80 Terabyte Daten. Um diese Datenmenge durchsuchen und analysieren zu können, ist Googles Software daher auf hunderttausenden Servern installiert, die rund um die Uhr in mindestens dreizehn Datenzentren weltweit laufen. Über die genauen Zahlen wird seit Jahren spekuliert, denn das Unternehmen hält sich diesbezüglich bedeckt. Dank dieser gewaltigen globalen Infrastruktur kann Google nach eigener Aussage drei Milliarden Suchanfragen pro Tag beantworten und über 500 Millionen Variablen miteinander vergleichen. Ziel ist dabei die Auslieferung der Suchresultate innerhalb einer halben Sekunde.

Bei der Datenausgabe wird dem Nutzer für seine Suchanfrage eine zuvor ermittelte, thematisch relevante Seite, eingeblendet. Je höher dabei die Platzierung in den Ergebnislisten, desto höher bewertet die Suchmaschine die Relevanz der Website und ihrer Inhalte für den vom Nutzer eingegebenen Suchbegriff.
Doch wie machen die Suchmaschinen das? Wie werden die Suchergebnisse sortiert?

Das Ranking, also die Reihenfolge der Websites, erfolgt ebenfalls nach einem speziellen Algorithmus. Dieser wird von den Suchmaschinenbetreibern stetig erweitert und ist nicht im Detail bekannt - allein bei Google scheint er aus hunderten Elementen zu bestehen. Dieses Berechnungsschema der Sortierung ist der ausschlaggebende Faktor für den Erfolg einer Suchmaschine. Gelingt es einem Suchmaschinenanbieter nämlich wichtige und gute Texte von unseriösen und unwichtigen zu unterscheiden, steigt die Qualität der Suchergebnisse für den Nutzer insgesamt erheblich.

Eines der wichtigsten Kriterien ist wohl nach wie vor der PageRank. Dieser legt die Linkpopularität einer Seite fest, wobei gilt: Je mehr qualitative Links auf eine Seite verweisen, desto höher das Gewicht der Seite. Je höher das Gewicht, desto größer der Effekt. Häufig wird hier auch von „Autorität" gesprochen. Diese bezieht sich auf die von anderen Websites gewährte Relevanz: Erhält die Website eine hohe Relevanzbewertung für einen Begriff, so ist das Ranking höher, wenn andere Websites mit einer ebenfalls hohen Relevanzbewertung Links zu der eigenen Webseite enthalten. Vereinfacht gesagt gehen Suchmaschinen also davon aus, dass Eure Website wichtig ist, wenn viele fremde Websites auf sie verweisen. Dabei ist entscheidend von welcher Seite diese Links kommen. Vertreiben die entsprechende Website beispielsweise Hardware, wird ein Link von einer themenverwandten Website höher bewertet als eine Verlinkung zu Websites aus anderen Themengebieten. Grundsätzlich gilt: 5 gute Links sind besser als 5.000 schlechte! Gleichzeitig steigt die Autorität auf Seiten der Suchmaschinen, je mehr Nutzer die Website auf den Ergebnisseiten einer Suchmaschine auswählen, also anklicken.

Der PageRank fungiert demnach als Maßstab für die Bekanntheit und den inhaltlichen Wert einer Website. Leider verwässern Spammer die Linkpopularität durch gegenseitige Verlinkung mehr und mehr, so dass die Suchmaschinen diesen Kriterien immer weniger Gewicht beimessen und zukünftig beimessen werden.

Um mit Eurer Website auf den Top-Positionen in den wichtigsten Suchmaschinen zu stehen, solltet Ihr Euch daher auf die Texte konzentrieren. Suchmaschinen verwenden beispielsweise Kriterien wie „Ort" und „Häufigkeit" zur Gewichtung aller Suchbegriffinstanzen. Der „Ort" gibt an wo auf der Website ein Begriff angezeigt wird. Taucht ein Suchwort dabei im Title-Tag einer Seite auf, wird im Allgemeinen angenommen, dass diese Seite eine hohe Relevanz für den Begriff hat. Die „Häufigkeit" gibt an wie oft ein Wort auf einer Seite vorkommt - je häufiger, desto relevanter. Durch die Kombination beider Faktoren kann ein Suchbegriff gewichtet werden, um auf dieser Basis die Relevanz einer Website zu ermitteln. Damit verknüpft sind weitere Kriterien wie der gesamte Inhalt der Webseite, die Aktualität einer Seite, der Domainname, der Title- und Description-Tag, die Gliederung des Inhalts, ausgehende Links, Alternativ-Texte von Bildern, das Alter der Seite, ...

In einem ersten Schritt erfassen Suchmaschinen mit Hilfe der Crawler immer wieder neue Dokumente und überprüfen bereits Erfasstes auf Änderungen. Dazu sucht ein Crawler der Reihe nach Server für Server ab, lädt die dort vorhandenen Dokumente herunter und wertet diese inhaltlich aus. Dazu wird jeder Text einzeln analysiert, seine Begriffe erfasst, sortiert (Verschlagwortung) und letztlich in Verbindung mit den Internet-Adressen der einzelnen Websites gespeichert. Wenn Nutzer nun eine Suchmaschine aufrufen und eine Suchanfrage in die Suchmaske eingeben, werden die Begriffe in der vorbereiteten Datenbank - dem Index - gesucht. Die dazugehörenden Fundstellen werden mit weiteren Informationen zusammengeführt und in Form der Ihnen bekannten Liste mit Suchergebnissen ausgegeben. Dieser Searcher ist somit die einzig sichtbare Funktion der Suchmaschinen. Er wertet die Suchanfrage aus, indem er während einer Suchanfrage die eingegebenen Informationen mit den im Index gespeicherten Informationen abgleicht und die Ergebnisse ausgibt.

Dabei wird vom jeweiligen Suchmaschinenbetreiber vordefinierten Algorithmen gefolgt und letztlich werden aus diesen Algorithmen Antworten. Wie Google selbst die Suche beschreibt, lesen Sie unter einem weiterführenden Link am Ende dieses Artikels.

Bitte beachten: Die Suchmaschinenbetreiber halten ihre Algorithmen streng geheim! Auch Experten ist nicht im Detail bekannt, welche Suchmaschine welche Elemente einliest bzw. gewichtet und wie Suchmaschinen Texte letztlich analysieren und indexieren.'

Des Weiteren werden die Innovations- und Veränderungszyklen, also die Zeiträume in denen die Suchmaschinenbetreiber ihre Such-Algorithmen verändern, immer kürzer. Das hat zur Folge, dass sich in immer kürzeren Abständen auf neue Anforderungen von Seiten der Suchmaschinenoptimierer eingestellt werden muss. Was gestern gut funktionierte, muss es morgen noch lange nicht. Anhand der Geschichte des Google-Algorithmus lässt sich dieses Phänomen gut veranschaulichen und aufzeigen, dass Google heutzutage bevorzugt auf selbstlernende Algorithmen setzt.

Was bedeutet das nun für mich und meine Website?

Es ergeben sich daraus aktuell zwei grundlegende Voraussetzungen für die qualitativ hochwertige Optimierung Eurer Website:
1. Die Website sollte auf thematisch relevanten Seiten verlinkt sein, um zügig gefunden zu werden.
2. Die Website sollte „echte" Textinhalte enthalten, damit die Inhalte der Website von den angesprochenen Crawlern gescannt und indexiert werden kann. Texte in Grafiken sowie JavaScript oder Flash sind hingegen zu vermeiden - auch wenn sie optisch tolle Möglichkeiten der Gestaltung bieten.

Die gesammelten Informationen können dann nicht nur quantitativ zusammen getragen werden, sondern auch qualitativ bewertet. Für Euch und Eure Website bedeutet dies, dass die Inhalte aufgrund von Wortwahl und Häufigkeit beurteilt werden, was wiederum Einfluss auf das spätere Ranking nimmt.

Überprüft zum Beispiel, ob in die Website eingebundene Grafiken mit so genannten Alt-Texten versehen sind. Das sind alternative Kurzbeschreibungen der Bilder, die einem Crawler ermöglichen dem jeweiligen Bild seinen Inhalt auch auf Textebene zuzuordnen und diese so zu indexieren. Vermeidet auch in jedem Fall Duplicate-Content, also wortgleiche Inhalte auf verschiedenen Seiten, da Suchmaschinen diese grundsätzlich negativ bewerten und Euch bzw. Eure Website entsprechend abwerten.

Vollständigen Beitrag anzeigen