Alphabetische Sortierung

Die alphabetische Sortierung ist eine Sortierung, nach der Zeichenketten nach der Reihenfolge der Buchstaben im Alphabet angeordnet werden. Die herkömmliche Sortierung wird auch als initialalphabetische Sortierung bezeichnet, da die Ordnung der einzelnen Buchstaben in Schriftrichtung ermittelt wird.

Während für die Buchstaben des Alphabets üblicherweise die allgemein anerkannte Reihenfolge benutzt wird, gibt es für die Sortierung von Besonderheiten wie Sonderzeichen, diakritischen Zeichen, Leerzeichen, Groß- und Kleinschreibung, Bindestrichen sowie Ziffern unterschiedliche Regeln und Normen.

Grundprinzip

Um bei zwei gegebenen Zeichenketten zu entscheiden, welche in der (initial)alphabetischen Sortierung zuerst kommt, werden die Zeichenketten, beginnend vom ersten Zeichen, zeichenweise verglichen. Die erste Zeichenposition, an denen sich die beiden Zeichenketten unterscheiden, entscheidet die Reihenfolge: Die Zeichenkette, deren Zeichen an dieser Position weiter vorne im Alphabet steht, kommt zuerst. So kommt beispielsweise „elektrisch“ vor „fertig“ (e vor f) und „Fahrrad“ vor „Fahrstuhl“ (r vor s). Wenn eine Zeichenkette kürzer als die andere ist und gleich dem Anfang der anderen, kann diese Regel nicht angewandt werden. Dann wird üblicherweise die kürzere Zeichenkette zuerst sortiert. So kommt beispielsweise „Fahrrad“ vor „Fahrradkette“.

Für den Umgang mit Satzzeichen, Sonderzeichen und Groß- und Kleinschreibung gibt es verschiedene Regeln; siehe dazu Abschnitt Sortierregeln nach Sprachen.

Die alphabetische Sortierung ist die Vorlage für das mathematische Konzept der lexikographischen Ordnung. Umgekehrt ist die alphabetische Sortierung selber eine lexikographische Ordnung, mit der Reihenfolge der Buchstaben im Alphabet als zugrundeliegender linearer Ordnung.

Geschichte

Marcus Verrius Flaccus (* um 10 v. Chr.) ordnete als Erster ein lateinisches Wörterbuch alphabetisch an. Die Suda aus der 2. Hälfte des 10. Jahrhunderts ist die erste alphabetisch angeordnete byzantinische Enzyklopädie. Der Liber de proprietatibus rerum des Bartholomaeus Anglicus aus dem 13. Jahrhundert ist ebenfalls alphabetisch geordnet und wird oft als ein Vorläufer der Enzyklopädie angesehen. Das Prinzip, die Schriftzeichen überhaupt in einer bestimmten Abfolge anzuordnen, ist schon über dreitausend Jahre alt; siehe Ugaritische Schrift und allgemein Geschichte des Alphabets.

Sortierregeln nach Sprachen

Deutsche Sprache

Einsortierungsregeln für weitere Buchstaben

Das deutsche Alphabet ergänzt das moderne lateinische Alphabet um die Umlaute Ä, Ö und Ü sowie den Buchstaben ß. Diese zusätzlichen Buchstaben können auf vier Arten einsortiert werden:

  1. Ignorieren der Umlautpunkte. Müll wird wie Mull sortiert.
  2. Gleichordnung von Grundbuchstaben, Doppelbuchstaben und Umlaut, wenn Doppelbuchstabe wie Umlaut gesprochen wird. Mull wird wie Muell oder Müll sortiert. Duell dagegen zwischen Duden und Dugast.
  3. Auflösung des Umlauts. Müll wird wie Muell vor Muffe einsortiert.
  4. Separierung als selbstständiger Buchstabe.
    1. Einordnung hinter dem Grundbuchstaben. Müll steht zwischen Muzin und Münze. Später folgt Myalgie.
    2. Einordnung am Ende des Alphabets. Müll steht hinter Mythos.

Für alle sonstigen (fremdsprachigen) diakritischen Zeichen gilt im deutschsprachigen Raum, dass sie einheitlich weggelassen werden; so auch alle Akzente, Tilde, Makron: é und e, ç und c, ñ und n, č und c, ō und o sind gleich.

Deutschland

DIN 5007
Bereich Schriftverkehr
Titel Ordnen von Schriftzeichenfolgen
Teile Teil 1: Allgemeine Regeln für die Aufbereitung (ABC-Regeln)
Teil 2: Ansetzungsregeln für die alphabetische Ordnung von Namen
Letzte Ausgabe Teil 1: 2005-08
Teil 2: 1996-05
Klassifikation 01.140.20
DIN 31638
Bereich Schriftverkehr
Titel Bibliographische Ordnungsregeln
Letzte Ausgabe August 1994
Klassifikation 01.140.20

Die deutsche Norm DIN 5007-1 beschreibt unter dem Titel „Ordnen von Schriftzeichenfolgen (ABC-Regeln)“ das Sortieren.

DIN 5007 Variante 1 (für Wörter verwendet, etwa in Lexika; Abschnitt 6.1.1.4.1)

  • ä und a sind gleich
  • ö und o sind gleich
  • ü und u sind gleich
  • ß und ss sind gleich

DIN 5007 Variante 2 (spezielle Sortierung für Namenslisten, etwa in Telefonbüchern; Abschnitt 6.1.1.4.2)

  • ä und ae sind gleich
  • ö und oe sind gleich
  • ü und ue sind gleich
  • ß und ss sind gleich

Dies berücksichtigt, dass bei Eigennamen unterschiedliche Schreibweisen möglich sind, während Begriffe in einem Lexikon oder Wörterbuch nur unter genau einer Schreibung einzutragen sind. Dagegen kann nicht erschlossen werden, ob jemand nun Moeller oder Möller heißt. Dies gilt vor allem für deutschsprachige Einzelpersonen, Institutionen und Ortsnamen.

Personennamen werden in Deutschland häufig (z. B. in Telefonbüchern) in der folgenden Art und Weise alphabetisch sortiert:

  • Zuerst werden die Einträge nach Nachnamen sortiert, wobei akademische Grade wie „Prof.“, „Dr.“ und Namenszusätze wie „von“, „vor“, „am“, „zum“ weggelassen werden. Dabei ist zu beachten, dass Namenszusätze auch aus mehreren Wörtern bestehen können, wie etwa bei „von der Lippe“.
  • Bei identischen Nachnamen wird anschließend nach eventuell vorhandenen Namenszusätzen alphabetisch sortiert, wobei Personennamen ohne Namenszusätze immer zuerst aufgeführt werden.
  • Stimmen auch die Namenszusätze überein (oder sind keine vorhanden), wird als letztes anhand des Vornamens alphabetisch sortiert.

Diese Art der Sortierung ist in den bibliographischen Ordnungsregeln DIN 31638 geregelt.

Österreich

Österreichische Sortierung (für Telefonbücher)

  • ä folgt auf a (kommt daher erst nach az)
  • ö folgt auf o
  • ü folgt auf u
  • ß folgt auf ss
  • St. folgt auf Sankt

Im gedruckten österreichischen Telefonbuch finden sich unterschiedliche Sortierungen: Im Ortsverzeichnis werden Umlaute und ß wie eigene Buchstaben am Ende des Alphabets einsortiert. In den Infoseiten und Gelben Seiten wird nach DIN 5007 Variante 1 sortiert. Im Namensverzeichnis wird die Österreichische Sortierung verwendet.

In Bibliotheken folgt sch oft auf s, also erst nach sz.

Beispiel für deutschsprachige Sortierungen

DIN 5007 Var.1
(Lexikon)
DIN 5007 Var.2
(Telefonbuch)
Österreichische
Sortierung

Göbel
Goethe
Goldmann
Göthe
Götz

Göbel
Goethe
Göthe
Götz
Goldmann

Goethe
Goldmann
Göbel
Göthe
Götz

Die beiden Schreibungen von Goethe stehen bei Variante 2 unmittelbar benachbart, nur durch Vornamen voneinander unterschieden. Johann Wolfgang von Goethe verwendete zu Lebzeiten beide Varianten; die Familie hieß zuvor Göthé. Die heute einheitliche Schreibweise wurde erst mehr als ein Vierteljahrhundert nach seinem Tod von Germanisten eingeführt.

Dänische und norwegische Sprache

  • æ kommt nach z
  • ø kommt nach æ
  • å kommt nach ø
  • ä und æ sind gleich
  • ö und ø sind gleich
  • ü und y sind gleich
  • Im Dänischen waren w und v bis 1980 auch bei Fremdwörtern und Namen gleich (z. B. Verdi nach Wagner). Seit 1980 kommt w nach v.
  • aa und å sind gleich. Im Norwegischen gilt diese Regel nicht für nicht-skandinavischen Namen. Das heißt, die deutsche Stadt Aachen steht im ersten Band norwegischer Enzyklopädien, aber der norwegische Sprachforscher Ivar Aasen steht im letzten Band. Im Dänischen gilt diese Regel für alle Wörter oder Namen, in denen aa einen Vokal bezeichnet, nicht aber für Wörter mit zweisilbigem aa (wie ekstraarbejde).

Finnische und schwedische Sprache

  • å kommt nach z
  • ä kommt nach å
  • ö kommt nach ä
  • ü und y sind gleich
  • w und v waren bis 2006 gleich auch bei Fremdwörtern und Namen (z. B. Verdi nach Wagner). Seit 2006 kommt w nach v.

Isländische Sprache

  • ð kommt nach d
  • þ kommt nach z
  • æ kommt nach þ
  • ö kommt nach æ
  • Akut-Diskrite folgen immer ihren jeweiligen Grundzeichen
  • Sortierung altisländischen Buchstaben: Ǫ́ ist gleich á, ę ist gleich e, ǽ/ę́/ǿ/œ sind gleich æ, ǫ/ø sind gleich ö[1]

Estnische Sprache

  • š kommt nach s
  • z kommt nach š
  • ž kommt nach z
  • õ kommt nach w
  • ä kommt nach õ
  • ö kommt nach ä
  • ü kommt nach ö
  • w und v waren bis 2006 gleich auch bei Fremdwörtern und Namen (z. B. Verdi nach Wagner). w kommt nach v seit 2006.

Albanische Sprache

Das albanische Alphabet besteht aus (sofern w nicht mitgerechnet) 36 Buchstaben, die zum Teil Digraphen sind.

  • ç kommt nach c
  • dh kommt nach d
  • ë kommt nach e
  • gj kommt nach g
  • ll kommt nach l
  • nj kommt nach n
  • rr kommt nach r
  • sh kommt nach s
  • th kommt nach t
  • xh kommt nach x
  • zh kommt nach z

Andere Sprachen

Bei anderen Sprachen unterliegt die alphabetische Sortierung ebenfalls sprachabhängigen Zusatzregeln, die ihre Ursache in zusätzlichen Buchstaben oder speziellen Sonderregeln haben. So gibt es im Spanischen traditionell den Buchstaben Ch, der bis 1994 üblicherweise alphabetisch an anderer Stelle stand als ein C, was die Computeralgorithmen zur Sortierung vor Probleme stellte. Nach n folgt ñ. Noch kritischer wird die alphabetische Sortierung bei Sprachen wie Japanisch oder Chinesisch, die eine Vielzahl von Zeichen verwenden und deren Reihenfolge im Font (also deren Codierung) nicht der Reihenfolge einer dort üblichen Sortierung entspricht. Im Chinesischen ist zum Beispiel die Sortierung nach dem Pinyin-Äquivalent (in Computersystemen) oder nach einem System üblich, welches sich nach dem Basissymbol und der Anzahl der Striche in Uhrzeigerrichtung richtet (in Wörterbüchern).

Computersysteme

Computersysteme codieren die gespeicherten Zeichenketten mittels eines systemweiten oder anwendungsspezifischen Standardcodes (ASCII und seine Varianten oder Ergänzungen, seltener EBCDIC, heute immer mehr Unicode) und ordnen die Zeichen (einschließlich Ziffern, Leerzeichen, Satz- und Sonderzeichen) im einfachsten Fall nach dem zugeordneten Zahlenwert dieses Codes, sodass beispielsweise auch alle lateinischen Großbuchstaben vor dem kleinen „a“ eingeordnet werden. Viele Programme wenden jedoch eine von den Benutzern kulturell erwartete traditionelle Sortierung an. Dabei gibt es Möglichkeiten, auf die Sortierreihenfolge durch individuelle Kodierung oder Parametrisierung Einfluss zu nehmen. Ein möglicher Algorithmus, der dabei Anwendung findet, ist der Unicode Collation Algorithm. Die Art der Sortierung wird durch Angabe einer sogenannten Kollation (von englisch collation ‚Sortierfolge‘) für Betriebssystemkonfigurationen und Anwendungen wie beispielsweise Datenbanksysteme festgelegt.[2]

Rückläufige Sortierung

Die rückläufige Sortierung ist eine alphabetische Sortierung, bei der die Wörter von hinten nach vorne gelesen werden. Bei der Erstellung von Rückläufigen Wörterbüchern wird in dieser Weise sortiert. Sie kann auch in Reimlexika verwendet werden.

Siehe auch

Einzelnachweise

  1. Stafróf og stafrófsröð. Árnastofnun, 2011.
  2. Alphabetisierung auf Computer http://www.rostra.dk/alphabet/alpha_dt.htm