„Benutzer:Stapelüberlauf“ – Versionsunterschied
für Gerhardvalentin |
(kein Unterschied)
|
Version vom 20. Mai 2020, 19:51 Uhr
Liebe Besucherin, lieber Besucher, ich möchte dir kurz erläutern, wie ich mehr Fehler finde als ich beseitigen kann. Das ist ganz einfach. Ich habe eine (sortierte) Liste aller Wörter, die in Artikeln von de.wikipedia.org vorkommen (words.txt). Darin suche ich Kandidaten, in denen sich aufeinanderfolgende Teile doppeln:
/\(.\{3,\}\)\1/ !d
Das ist ein Befehl für sed, der alle Zeilen (hier: Wörter aus meiner Liste) löscht, in denen sich nicht mindestens drei aufeinanderfolgende Buchstaben unmittelbar darauf wiederholen:
... Dessassa Dessjatiritschtschja Dessjatyritschtschja Destruententätigkeit Desvesvara Detachechements Detallecastrotronha Detektektivgeschichten Deungagelegele Deungungok Deutschfranzosischschweizerische Deutschlandlandkarte ...
Nun lasse ich sed mit h; s/\(.\{3,\}\)\1/\1/; H; g; s|\n| |
das Wort nochmal ohne die doppelte Buchstabenfolge danebenschreiben:
... Dessassa Dessa Dessjatiritschtschja Dessjatiritschja Dessjatyritschtschja Dessjatyritschja Destruententätigkeit Destruentätigkeit Desvesvara Desvara Detachechements Detachements Detallecastrotronha Detallecastronha Detektektivgeschichten Detektivgeschichten Deungagelegele Deungagele Deungungok Deungok Deutschfranzosischschweizerische Deutschfranzosischweizerische Deutschlandlandkarte Deutschlandkarte ...
Jetzt sind wir nur noch einen join -1 2 -2 1 - words.txt
vom Ziel entfernt:
... Dessa Dessassa Detachements Detachechements Detektivgeschichten Detektektivgeschichten Deutschlandkarte Deutschlandlandkarte ...
Und da sind die Tippfehler nun schon ziemlich konzentriert.