„Indexierung“ – Versionsunterschied

[ungesichtete Version][ungesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Bug57 (Diskussion | Beiträge)
QS: Indexieren <-> Indizieren
Frustraniti (Diskussion | Beiträge)
Revert. Lies doch mal die Einleitung zu "Indizierung". Die Abgrenzung ist gerechtfertigt.
Zeile 1: Zeile 1:
{{Qualitätssicherungstext}}

[[Kategorie:Wikipedia:Qualitätssicherung]]
Die Diskussion über diesen Antrag findet auf der '''[[Wikipedia:Qualitätssicherung/10._Oktober_2005#{{PAGENAME}}|Qualitätssicherungsseite]]''' statt.<br />
Hier der konkrete Grund, warum dieser Artikel auf den QS-Seiten eingetragen wurde: Dieses Wort gibt es nicht. Der korrekte Ausdruck lautet Indizierung. Aus dem Duden: "indizieren: in einen Index aufnehmen". Dabei macht es keinen Unterschied, ob das der Index der verbotenen Werke, der Google-Index oder die Wikipedia ist. -- [[Benutzer:Bug57|Bug57]] 14:37, 10. Okt 2005 (CEST)
----

{{Dieser Artikel|beschäftigt sich mit der [[Erschließung (Dokumentation)|Erschließung]] von Dokumenten. Weitere Bedeutungen siehe unter [[Index]] und [[Indizierung]].}}
{{Dieser Artikel|beschäftigt sich mit der [[Erschließung (Dokumentation)|Erschließung]] von Dokumenten. Weitere Bedeutungen siehe unter [[Index]] und [[Indizierung]].}}



Version vom 12. Oktober 2005, 17:56 Uhr

Als Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte.

Indexierungsmethoden

Es lassen sich verschiedene Indexierungsarten und -methoden unterscheiden.

  • Manuelle, computergestützte und automatische Indexierung
  • Kontrollierte und freie Indexierung

siehe auch unter: Deskriptor

Manuelle Indexierung

Die Manuelle Indexierung, Intellektuelle Indexierung oder Verschlagwortung ist ein Verfahren der Sacherschließung von Dokumenten, bei der einem Dokument repräsentative Schlagwörter ("Subjects") zugewiesen werden. Da die freie Indexierung mit beliebigen Wörtern sehr ungenau ist, sollten Schlagwörter aus einem kontrolliertem Vokabular (z.B der Schlagwortnormdatei) oder einer anderen Dokumentationssprache verwendet werden.

Automatische Indexierung

Ein häufiges Verfahren der automatischen Indexierung ist die Volltextindexierung bei der bis auf Stoppwörter alle Wörter eines Textes in den Index aufgenommen werden (z.B. für eine Suchmaschine). Ggf. werden Wörter mittels Stemming auf einen gemeinsamen Wortstamm zurückgeführt.

Mit statistischen Indexierungsverfahren wird durch die Ermittlung von Worthäufigkeiten eine Auswahl getroffen und somit nur Wörter in den Index aufgenommen, die mit einer gewissen Frequenz im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So läßt leicht der Wert oder die Gewichtung des Begriffs als Deskriptor ablesen. Die Gewichtung eines Begriffs ist am höchsten wenn es wenige Dokumente, in denen der Begriff enthalten ist, im Archiv gibt, und der Begriff im zu indexierenden Dokument am häufigsten vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. In diesem Dokument wird zum Beispiel häufig „Begriff“ verwendet, denn dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiter Begriff in spe. Daran kann man sehen, dass allein an der Häufigkeit nicht erkannt werden kann, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.

Mit Hilfe der Computerlinguistik sind auch intelligentere automatische Verfahren möglich, die zwar nicht an die manuelle Indexierung heranreichen, aber wesentlich stabiler hinsichtlich der Indexierungskonsistenz sind.

Computergestütze Indexierung

Bei der computergestützen Indexierung werden Vorschläge zu Deskriptoren vorgeschlagen und manuell ausgewählt.

Literatur

  • Nohr, Holger: Grundlagen der automatischen Indexierung. Ein Lehrbuch. Logos-Verlag, Berlin 2003, ISBN 3-8325-0121-5

Siehe auch