Gastgewerbe Gedankensplitter


Kostenlose Gastro News - wöchentlich, über 19.500 Abonnenten

Powered by KBX7

« Home | Fotos Lebensmittel & Restaurant. » | Anzeige. » | Abzugsfaehigkeit von Beitraegen an die Berufsgenos... » | Der Stellenwert von Bier in der Szenegastronomie. » | Ausgezeichnet von den Gaesten. » | Luegner, hau ab. » | Wer liest schon die taz. » | Spruch des Tages. » | Die Ratten verlassen das sinkende Schiff. » | Forum fuer Azubis. »


Donnerstag, Mai 05, 2005

SIPs.

Wie kann man den Inhalt einer Textes, z.B. eines Buches, automatisiert erfassen und so beschreiben, daß man ungefähr weiß, worum es geht? Amazon.com verwendet in seinem Buch-Shop dazu nunmehr sogenannte "Statistically Improbable Phrases" (SIPs).

Um sie zu identifizieren, wird das Buch automatisch eingelesen. SIPs sind solche Wörter, die häufiger in dem betreffenden Buch vorkommen als in allen anderen Büchern. Man kann sich auch alle Bücher anzeigen lassen, die ein bestimmtes SIP enthalten. Mehr darüber: "Judging a Book by Its Contents" von Ryan Singel, in: Wired News vom 5. Mai 2005.

Anschauen kann man sich das z.B. bei dem Buch "Moby Dick" (nur bei Amazon.com; bei Amazon.de sind SIPs nicht zu sehen).

Neu bei Amazon.com (aber wohl in einem Versuchsstadium) sind auch:
  • Statistische Informationen über das jeweilige Buch (vor allem die Lesbarkeit, die Anzahl der Sätze, Wörter und Buchstaben und die Komplexität, etwa die Anzahl der Wörter pro Satz).
  • die 100 am häufigsten im Buch verwendeten Wörter.