„Benutzer:Stapelüberlauf“ – Versionsunterschied

Inhalt gelöscht Inhalt hinzugefügt
(kein Unterschied)

Version vom 20. Mai 2020, 19:51 Uhr

Liebe Besucherin, lieber Besucher, ich möchte dir kurz erläutern, wie ich mehr Fehler finde als ich beseitigen kann. Das ist ganz einfach. Ich habe eine (sortierte) Liste aller Wörter, die in Artikeln von de.wikipedia.org vorkommen (words.txt). Darin suche ich Kandidaten, in denen sich aufeinanderfolgende Teile doppeln:

/\(.\{3,\}\)\1/ !d

Das ist ein Befehl für sed, der alle Zeilen (hier: Wörter aus meiner Liste) löscht, in denen sich nicht mindestens drei aufeinanderfolgende Buchstaben unmittelbar darauf wiederholen:

...
Dessassa
Dessjatiritschtschja
Dessjatyritschtschja
Destruententätigkeit
Desvesvara
Detachechements
Detallecastrotronha
Detektektivgeschichten
Deungagelegele
Deungungok
Deutschfranzosischschweizerische
Deutschlandlandkarte
...

Nun lasse ich sed mit h; s/\(.\{3,\}\)\1/\1/; H; g; s|\n| | das Wort nochmal ohne die doppelte Buchstabenfolge danebenschreiben:

...
Dessassa Dessa
Dessjatiritschtschja Dessjatiritschja
Dessjatyritschtschja Dessjatyritschja
Destruententätigkeit Destruentätigkeit
Desvesvara Desvara
Detachechements Detachements
Detallecastrotronha Detallecastronha
Detektektivgeschichten Detektivgeschichten
Deungagelegele Deungagele
Deungungok Deungok
Deutschfranzosischschweizerische Deutschfranzosischweizerische
Deutschlandlandkarte Deutschlandkarte
...

Jetzt sind wir nur noch einen join -1 2 -2 1 - words.txt vom Ziel entfernt:

...
Dessa Dessassa
Detachements Detachechements
Detektivgeschichten Detektektivgeschichten
Deutschlandkarte Deutschlandlandkarte
...

Und da sind die Tippfehler nun schon ziemlich konzentriert.