Anwenderkonferenz
Einführung
Managementansätze
Webknowledge - ein neuer Ansatz
Informationssuche
Informationsquellen
Maßnahmen
Archiv

Newsletter
Webknowledge Blog
Glossar
Webbarometer
 /Webknowledge /Informationssuche

Internetsuchmaschinen



Suchmaschinen sind wichtige Mittel, um sich in dem stetig wachsenden Angebot von Internetseiten zu orientieren. Ein besseres Verständnis auf Seiten des Users kann dabei helfen, den Einsatz der Suchmaschinen zu optimieren und somit bessere Resultate zu generieren. Suchmaschinen werden oft mit Suchdiensten gleichgesetzt, wobei Suchdienste mehr als nur Informationen liefern. Zum Beispiel blendet Google auch Keyword-Werbung ein und Yahoo! war in der Anfangszeit nur ein Verzeichnis. Begriffe wie „Suchmaschine“ oder „Verzeichnis“ sind aber unzureichende Beschreibungen dessen, was Suchdienste heute zu leisten vermögen (Stuber, 2004). Der Einfachheit halber werden im weiteren Verlauf Begriffe wie „Suchdienste“, „Verzeichnis“ etc. synonym mit Suchmaschinen gebraucht.

Internet Suchmaschinen wie Google oder Yahoo! haben sich neben E-Mail zur meistgenutzten Web-Applikation entwickelt. 57,8 Prozent der Deutschen ab 14 Jahren nutzen das Internet, das entspricht 37,51 Millionen Menschen der gesammten Bevölkerung. Von diesen 37,51 Millionen Menschen nutzen wiederum 84,5 Prozent Suchmaschinen, um nach Informationen zu recherchieren (AGOF Studie, 2006). Die Datenmenge im WWW wächst kontinuierlich an und ohne Hilfsmittel wie die Suchmaschinen ist es für Internet-Nutzer kaum möglich seine Informationen herauszufiltern. Beispielsweise ist „Googlen“ laut Duden (Ausgabe 2005) ein Synonym für Recherche im Netz durch Suchmaschinen (Stuber, 2004).

Historie



„Archie“ wird allgemein als die erste Suchmaschine angesehen. Sie wurde 1990, zu einer Zeit als das World Wide Web noch nicht in existierte, an der McGill-University in Montreal von Alan Emtage programmiert. Die Hauptfunktion von „Archie“ war die Erstellung eines Indexes aller Dateien, die auf den an einem Netzwerk angeschlossenen Computern lagerten. So konnten über eine Suchanfrage alle Computer auf einmal durchsucht werden. Heute ist „Archie“ aber praktisch bedeutungslos.

Die erste Suchmaschine (Robot), einen World Wide Web „Wanderer“, programmierte der MIT-Student Matthew Gray im Jahre 1993, um die Ergebnisse für eine Studie über das Wachstum des Webs zu erhalten. Kurz darauf ergänzte Michael L. Mauldin von der Carnegie Mellon University den „Wanderer“ um das Suchprogramm (Retrieval Program) Wandex, das auch die gefundenen Dateien indexierte.

Im Jahre 1995 kamen kommerzielle Suchmaschinen wie „Infoseek“, „Excite“ und „Altavista“ auf dem Markt und verdrängten die Pioniere. Gleichzeitig wurden sich die Suchmaschinenbetreiber ihrer Bedeutung bewusst und setzten den Meilenstein für die Veränderung des gesamten Wirtschaftskreislaufs, in dem sie Informationen für die Nutzer aufbereiteten, automatisch oder intellektuell und diese zur Verfügung stellten. Im selben Jahr riefen David Filo und Jerry Yang, beide Studenten des Fachbereichs Elektrotechnik an der Stanford University, eine Sammlung ihrer besten Web-Adressen in einem online verfügbaren Verzeichnisdienst ins Leben – die Geburtsstunde von Yahoo! (für Yet Another Hierarchical Officious Oracle). 1998 entwickelten Sergey Brin und Larry Page die Suchmaschine Google, die heute die bekannteste Suchmaschine der Welt ist.

Funktionsweise



Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert ist. Nach Eingabe eines Suchbegriffs liefert diese eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden. Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind die Erstellung und Pflege eines Indexes, die Verarbeitung von Suchanfragen, d.h. Finden und Ordnen von Ergebnissen, sowie die Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. Der Index einer Suchmaschine wird größtenteils automatisch erstellt. Dazu scannt eine spezielle Suchsoftware die Seiten des Internets, indem sie existierenden Links folgt und Informationen über die besuchten Seiten sammelt. Die erhaltenen Informationen werden anschließend an eine Indizierungssoftware weitergeleitet, die für die Strukturierung der Informationen sorgt und einen Index erstellt. Dieser Index wird bei einer Suchanfrage durch den Benutzer von einer weiteren Software durchsucht, welche anschließend die Trefferliste generiert. Da eine automatische Indizierung sehr viel schneller durchgeführt werden kann als die manuelle Datenerfassung eines Katalogs, hat eine Suchmaschine gewöhnlich deutlich mehr Internetseiten erfasst als beispielsweise ein Katalog. Kataloge besitzen keinen Robot, der automatisch die Webseiten nach Information scannt. Die Einträge werden nur manuell erfasst, meistens durch eine Redaktion. Außerdem erfasst ein Katalog nicht den kompletten Text einer Webseite, sondern immer nur einen kurzen Beschreibungstext zu der Seite. Nur diese Informationen können mithilfe des Katalogs durchsucht werden. Der Katalog hat folglich immer weniger Informationen über die Webseite zur Verfügung als die Suchmaschine und hat in der Regel auch weniger Webseiten gespeichert. Dieser scheinbare Nachteil erweist sich aber oft als Vorteil, denn bei einer  Volltextsuchmaschine erhält man alle Webseiten als Treffer, wenn das eingegebene Suchwort im Inhalt vorkommt. Wird dieser Begriff in einem Katalog eingeben, werden (im Normalfall) nur Seiten zu dem Thema des Suchwortes ausgegeben da dieses Suchwort in der Beschreibung aufgeführt werden muss. Bei Suchmaschinen ergeben sich gewöhnlich höhere Trefferanzahlen und bessere Chancen mit ungewöhnlichen oder sehr speziellen Suchanfragen Erfolg zu haben. Dagegen werden jedoch bei allgemein gehaltenen Suchanfragen häufig auch Webseiten ausgegeben, die nicht die gesuchte Thematik behandeln, da die Indizierungssoftware nur das Vorhandensein eines Suchbegriffes im Dokument erkennt, jedoch nicht dazu in der Lage ist, diese thematisch einzuordnen. So ist es auch möglich, dass der Suchbegriff in einem anderen Zusammenhang, besonders häufig bei Begriffen mit mehreren Bedeutungen, als Treffer ausgegeben wird (Glöggler, 2005).



Robots/Spider



Robots oder auch Spider sind im Internet global verteilte und arbeitende Software- und Hardwaresysteme, die das Internet konstant auf neue oder veränderte Dokumente und Ressourcen hin überprüft. Die im System erfassten Ressourcen wiederum, werden in periodischen Abständen auf ihre Veränderung wiederholt besucht und analysiert. Neue Ressourcen werden durch die Verfolgung von Hyperlink-Verweisen aus bereits indexierten Dokumenten erkannt und erfasst. Es gibt vier Kategorien von Robots:

  • Gatherer – sammelt Dokumente im WWW
  • Loader – organisiert die auszuführenden Aufträge
  • URL-Datenbank – verwaltet alle gespeicherten URLs
  • Checker – wendet unterschiedliche Filter an, um zu entscheiden, welche Dokumente an das Retrievalsystem zur Indexierung weitergegeben wird oder  nicht (Glöggler, 2005)

Aus dem Bestand der URL-Datenbank wird eine Liste der zu besuchenden URLs erstellt. Diese Liste wird dem Loader übergeben, der diese an die Gatherer verteilt und deren Abarbeitung überwacht. Die Gatherer richten HTTP35-Requests (Protokoll Anfragen) an die Server und übergeben die zurückgelieferten Daten an den Checker. Der Checker entscheidet dann über die Weitergabe der Eingangsdaten an das Retrieval- System. Durch die Anwendung unterschiedlicher Filter, kann er die Dokumente an das Retrieval-System weitergeben, die eine System individuelle Filterkette fehlerfrei durchlaufen haben.



Typen von Suchtreffern



Es gibt zwei Arten von Suchtreffern. Zum einen die so genannten Natural-Listing, von denen man oftmals annimmt, dass sie generell ohne Bezahlung zu Stande kommen, sowie die Paid-Listings, deren bezahlter Charakter mehr oder weniger offen gelegt wird. Die Unterscheidung der unterschiedlichen Treffersorten ist für den Suchmaschinen-Marketing-Treibenden eine Notwendigkeit, die nicht allen
Unternehmen bewusst ist.

Natural-Listing/Free Spider Inclusion
Der größte Teil der Suchtreffer sind die Einträge, die Suchdienste ohne finanzielle Gegenleistung in ihren Index aufnehmen. Suchmaschinen wie Google nehmen kein Geld um Eingang in den Datenbestand zu gewähren. Trotzdem ist dies für die Unternehmen, die eine Website betreiben, nicht ganz kostenlos, da der Prozess der Indexierung und der erfolgreichen Rangierung entsprechende personelle oder finanzielle Ressourcen erfordert, die das Unternehmen bereitstellen muss. Um Webseiten für Suchmaschinen zugänglich zu machen, muss bereits während der Konzeption einer Seite auf die Indexierbarkeit geachtet werden oder es fallen nachträglich Verbesserungen und beides kostet Zeit bzw. Geld. Auch um die Seite auf eine gute Position zu platzieren, sind strategisch wichtige Konzeptionen der Webseite notwendig, denn eine Platzierung an hinterster Stelle ist für ein Unternehmen nicht effizient.

Paid-Listing/Paid Solution
Paid-Listing ist eine Trefferliste, die speziell als Werbung gekennzeichnet wurde. Diese werden meistens pro Klick, seltener pro Einblendung abgerechnet und verursachen direkte und sichtbare Kosten. Paid-Listing lassen sich gegenwärtig zwei unterschiedlicher Typen zuordnen: den Google AdWords und den Rest, diese sind Overture, FindWhat und QualiGo.

 Aktuelles

Newsletter



Der Webknowlede Newsletter informiert regelmäßig mehr als 4.000 Abonnenten über die aktuellsten Themen rund um Social Media und Web insgesamt. Ihre Daten werden nicht an Dritte weitergegeben und Sie können sich jederzeit vom Newsletter abmelden.

 >> zum Newsletter

Auf Augenhöhe mit den Unternehmen



Das CIO Spezial der Wirtschaftswoche veröffentlicht im Dezember ein Interview mit Prof. Dr. Matthias Fank über aktuelle Entwicklungen im Bereich Informationsmanagement

Kommunikations- manager



Die Zeitschrift Kommunikationsmanager, veröffentlicht in ihrer Dezemberausgabe 2007 den innovativen Ansatz Webknowldge von Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke am Beispel von Ford.

Podiumsdiskussion



Am 10. Dezember 2007 nimmt Prof. Dr. Matthias Fank an dem Forum IT-Recht an der Universität Hannover als Wirtschaftsexperte zu dem Thema "Second life - Ist virtuell alles besser" teil.

Vortrag: User Generated Content



Am 4. Dezember 2007 referiert Prof. Dr. Matthias Fank auf der Tagung Mittelstandstage - Business meets IT unter dem Titel "User Generated Content oder Wer hat Angst vor Web 2.0"

Kommunikations- management



Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke veröffentlichen in der 33 Auslieferung der Loseblat-Sammlung Kommunikations- management den Beitrag: Monitoring von Internet-Foren als Frühwarnsystem

PR Magazin



In seiner Oktober-Ausgabe veröffentliche das PR Mgazin einen Beitrag über den Ford Fanward

Kommunikations- management



In seiner 32. Auslieferung veröffentlichte die Loseblatt-Sammlung Kommunikations- management den Beitrag: Neue Wege der Öffentlichkeitsarbeit am Beispiel des Ford FanAward von Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke.



Information, Wissenschaft & Praxis



Prof. Dr. Matthias Fank und Dr. Wolfgang Riecke veröffentlichen ihre Webknowledge-Erfahrungen in der Sonderausgabe zu Competitve Intelligence

eCommerce Magazin



10 Gründe gegen Second Life - diesen Beitrag von Prof. Dr. Matthias Fank veröffentlichte das eCommerce Magazin in seiner September Ausgabe.