Anwenderkonferenz
Einführung
Managementansätze
Webknowledge - ein neuer Ansatz
Informationssuche
Informationsquellen
Maßnahmen
Archiv
e-Learning
Intangible Assents
Intranet
Kompetenzmanagement
Mitarbeiteraktivierung
Suchtechnololgie
Blogmonitoring
Marketing 2.0 - Die neue Macht des Kunden
10 Gründe gegen Second Life
Online Marketing ist nicht Marketing online
Bürgerjournalismus
Webmonitoring
So knackt man Suchmaschinen
Neue Konkurrenz für Google?
Wie sinnvoll sind eigentlich Meta-Tags?
Was ist eigentlich Click Popularity?
Was ist eigentlich SEM/SEO?
Suchmaschinen-Konferenz 2004 in Berlin
Studie: Top Ten Suchmaschinen
Das Open Directory Project (DMOZ)
Pragmatisches Wissensmanagement – Realität oder Utopie?
Wissensbewahrung

Newsletter
Webknowledge Blog
Glossar
Webbarometer
 /Webknowledge /Archiv/Suchtechnololgie/So knackt man Suchmaschinen

So knackt man Suchmaschinen



Bevor man sich mit der Methode
auseinandersetzt, wie man den
Algorithmus einer Suchmaschinen knackt,
sollte man in etwa verstehen, wie eine Suchmaschine funktioniert. Ist diese Methode bekannt, liegt die nächste Frage nahe: Wie bringe ich meine Seite auf die Top-Trefferliste oder besser gefragt: "Wie knacke ich eine Suchmaschine?"
 

 

Das Indexierungsverfahren

Beim Durchstöbern der Webseiten benutzen Suchmaschinen Tools, sog. Robots, die Seiten aufrufen und deren Inhalt indexieren (auch genannt: Bots, Spider, Scooter, Crawler). Diese Robots muss man sich wie einen automatischen Benutzer vorstellen, der Webseiten aufruft und deren Inhalt nach und nach in die Suchmaschine aufnimmt.


 
Der Robot ruft jeweils eine Webseite auf und gibt deren Inhalte an seine Datenbank weiter (hier: Processing Server). Bei Google, Alltheweb und weiteren Suchmaschinen werden etwa auch Bild-Inhalte aufgenommen und an den Server weitergeleitet. Zudem folgt er innerhalb eines Web-Dokuments zu allen weiteren internen Links innerhalb der Seite und indexiert dort in den Unterpunkten weiter. Anschließend springt der Robot in seiner Prioritäts-Liste zur nächsten aufgelisteten Webadresse und führt die Indexierung dort fort.

Der Robot ist in diesem Fall aber nicht ein einzelnes Tool, der nacheinander, sondern eine ganze Fülle von Websites innerhalb von Sekunden parallel abarbeitet. Google beispielsweise kann laut eigenen Angaben innerhalb von 4 Wochen den gesamten Datenbestand neu aufarbeiten. Bei einem Datenbestand von 8 Milliarden Websites (Google Stand 2005-03), entsprichz das über 3300 einzelne Websites, die Google in einer Sekunde komplett in seinen Index aufnimmt. Bei der Indexierung werden sowohl Neuzugänge, als auch bereits bekannte Websites zur weiteren Aktualisierung aufgenommen.

Im weiteren Verlauf werden die Daten nach bestimmten Kriterien, die in mehreren Algorithmen festgehalten werden bewertet und schließlich in die eigentliche Datenbank gespeichert (hier: Datastore Server). Der Datastore Server gibt gleichzeitig auch bereits einsortierte Altdaten an den Rechenserver weiter (hier: Processing Server), der diese zum Abgleich der neugewonnenen Daten benötigt.

Stellt nun ein User eine Anfrage an die Suchmaschine, kann dieser die bereits ausgewerteten und sortierten Daten sofort aus seiner Datenbank aufrufen und in sekundenschnelle an den User weitergeben.


Der Algorithmus

Jede Suchmaschine verwendet einen ganz speziellen Algorithmus, der nach eigenen Richtlinien und Kriterien Webseiten bewertet und indexiert. Fast alle dieser Algorithmen werden von den Anbietern von Suchmaschinen streng geheim gehalten. Somit bleibt es ein großes Rätsel für viele, wie eine Suchmaschine Websites bewertet.

Der bislang bekannteste und öffentliche Algorithmus wurde lediglich von den Google-Gründern Sergey Brin und Lawrence "Larry" Page, im Rahmen eines Forschungsergebnisses an der Stanford University veröffentlicht.


Reverse Engineering

Um die Vorgehensweise eines Algorithmus von Suchmaschinen verstehen und analysieren zu können, kann man sich einer Methode bedienen, die in Hackerkreisen als das "Reverse Engineering" bekannt wurde. Bereits vor Jahren haben gewiefte Computer-Tüftler einen Weg gefunden, die komplexe Funktionalität und das Geheimnis elektronischer Geräte und kryptographischer Software zu entschlüsseln und zu verstehen. Beim Reverse Engineering (zu deutsch etwa: Umkehrtechnik) werden einzelne Teile einer bestimmten komplexen Struktur nach und nach auseinander genommen. Dabei wird jedes einzelne Teil, das dem System entnommen wird schriftlich protokolliert und auf seine Funktion hin analysiert.

Man kann zwar das Gerät am Ende nicht mehr unbedingt zusammenbauen, man versucht aber jedes einzelne Stück, dessen Funktion man nun kennt, zumindest theoretisch wieder zurückzubasteln. So bekommt man letztendlich ein klares Verständnis der Funktionalität eines vorher komplexen Musters.

Diese Methode lässt sich auch auf den Algorithmus einer Suchmaschine übertragen. Ist eine Webseite erst einmal von einem Robot erfasst und in der Suchmaschine indexiert worden, ist es erforderlich die Kriterien, wie eine Suchmaschine vorgegangen ist zu verstehen. Auf diese Weise kann man herausfinden, wie die Suchmaschine mit bestimmten Websites vorgegangen ist.  Eine genaue Untersuchung der Website selbst gibt uns somit Rückschlüsse auf die Vorgehensweise. Hierzu beachtet man also das gefertigte Endprodukt der Suchmaschine und baut dieses nach und nach auseinander.

Logischerweise sind bei einer Suchmaschine alle aufgelisteten Websites auch irgendwann mal vom Robot erfasst worden. Daher kann man beliebig ausgewählte Websites Stück für Stück auseinander nehmen, und dann versuchen daraus zu itnerpretieren, warum diese Webseiten auf bestimmte Art und Weise indexiert worden sind.

In einem Experiment kann man auch selbst Webinhalte generieren, dann schließlich von einer bereits von der Suchmaschine erfassten Seite darauf verlinken und nach der Indexierung das Resultat beobachten.

Search Engine Optimizier (SEOs) bieten hier ihre Dienste an, um auch Unternehmensseiten zu aktualisieren. Bereits Cosmopolitan Cosmetics (Wella AG), Conrad und andere große Unternehmen nutzen diese strategischen Möglichkeiten, um auf Suchmaschinen hoch gelistet zu werden.

Haben Sie noch weitere Fragen zu SEO?
Schreiben Sie an den Autor.


von Evrim Sen
www.evrim-sen.com

Arten von Websites



 Aktuelles

Newsletter



Der Webknowlede Newsletter informiert regelmäßig mehr als 4.000 Abonnenten über die aktuellsten Themen rund um Social Media und Web insgesamt. Ihre Daten werden nicht an Dritte weitergegeben und Sie können sich jederzeit vom Newsletter abmelden.

 >> zum Newsletter

Auf Augenhöhe mit den Unternehmen



Das CIO Spezial der Wirtschaftswoche veröffentlicht im Dezember ein Interview mit Prof. Dr. Matthias Fank über aktuelle Entwicklungen im Bereich Informationsmanagement

Kommunikations- manager



Die Zeitschrift Kommunikationsmanager, veröffentlicht in ihrer Dezemberausgabe 2007 den innovativen Ansatz Webknowldge von Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke am Beispel von Ford.

Podiumsdiskussion



Am 10. Dezember 2007 nimmt Prof. Dr. Matthias Fank an dem Forum IT-Recht an der Universität Hannover als Wirtschaftsexperte zu dem Thema "Second life - Ist virtuell alles besser" teil.

Vortrag: User Generated Content



Am 4. Dezember 2007 referiert Prof. Dr. Matthias Fank auf der Tagung Mittelstandstage - Business meets IT unter dem Titel "User Generated Content oder Wer hat Angst vor Web 2.0"

Kommunikations- management



Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke veröffentlichen in der 33 Auslieferung der Loseblat-Sammlung Kommunikations- management den Beitrag: Monitoring von Internet-Foren als Frühwarnsystem

PR Magazin



In seiner Oktober-Ausgabe veröffentliche das PR Mgazin einen Beitrag über den Ford Fanward

Kommunikations- management



In seiner 32. Auslieferung veröffentlichte die Loseblatt-Sammlung Kommunikations- management den Beitrag: Neue Wege der Öffentlichkeitsarbeit am Beispiel des Ford FanAward von Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke.



Information, Wissenschaft & Praxis



Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke veröffentlichen ihre Webknowledge-Erfahrungen in der Sonderausgabe zu Competitve Intelligence

eCommerce Magazin



10 Gründe gegen Second Life - diesen Beitrag von Prof. Dr. Matthias Fank veröffentlichte das eCommerce Magazin in seiner September Ausgabe.