Mittwoch, November 19, 2003

NextLinks.

Der Informatiker PD Dr. Uwe Quasthoff vom Institut für Informatik der Universität Leipzig bietet ein Online-Tool Nextlinks an, mit welchem man Informationen zu Webadressen abfragen kann:
  • eine Liste ähnlicher Websites,
  • ein automatisch erzeugtes Assoziationsnetz, welches die Zusammenhänge zwischen den angegebenen Webadressen untereinander graphisch dargestellt.
Siehe z.B. eine detaillierte Darstellung der NextLinks von www.Abseits.de. Mir ist zwar nicht bei allen "nächsten Verknüpfungen" klar geworden, warum diese angezeigt werden. Aber ich bin auf einige Websites gestoßen, die ich noch nicht gekannt habe und die mich interessieren.

Leider habe ich nichts darüber gefunden, was NextLinks konkret unter "semantischer Nähe" versteht bzw. wie diese berechnet wird. In einer Pressemitteilung von PD Dr. Quasthoff heißt es dazu: "Möglich wird dies durch die Verwendung von Algorithmen zum Auffinden semantisch ähnlicher Strukturen, die in den letzten Jahren an der Abteilung Automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig entwickelt wurden. Wie bei einer Suchmaschine werden zunächst viele Millionen Webseiten ausgewertet. Mittels statistischer Verfahren werden daraus Ähnlichkeiten ermittelt und die Ergebnisse in einer stets aktuellen Datenbank gespeichert, die jeweils von NextLinks abgefragt wird." NextLinks ist seit dem 17. November 2003 kostenlos erhältlich unter wortschatz.uni-leipzig.de/nextlinks. Der Schockwellenreiter hat mich auf dieses Programm aufmerksam werden lassen, ohne sich näher damit zu beschäftigen.

Eine grundsätzliche Kritik kann ich dem Tool nicht ersparen. Analysiert werden immer ganze Websites, nicht einzelne Webseiten. Es werden nicht solche Links zu Webseiten angezeigt, die dem Thema einer Webseite (page) nahestehen, sondern egal auf welcher Seite man gerade surft, mit welchem Thema die einzelne Webseite sich gerade beschäftigt, es werden, solange man sich auf dieser Website aufhält, immer die selben Links angezeigt. Und der Link, dem man folgt, führt nicht zu einer einzelnen Webseite, die sich mit dem Thema beschäftigt, das man gerade gelesen hat, sondern er führt zur Startseite der verknüpften Website. Dieses Konstruktionsprinzip führt bei Multi-Themen-Sites häufig in die Irre, zumal wenn beide Sites (auf der man gerade surft und zu der man einen Link verfolgt) Multi-Themen-Websites sind.