Neulich wurde in der Diskussionsgruppe zu «Aus der Neo-Welt» bemerkt, die Belegung würde ihrem Anspruch, auch für Englisch entworfen zu sein, nicht gerecht, da der im Englischen wichtige Apostroph nicht berücksichtigt wäre. Zudem wurde angeregt, über eine speziell für Englisch entworfene Belegung nachzudenken, da diese einen weiten Interessentenkreis ansprechen könnte. Zumindest die Sache mit dem Apostroph stimmt. Daher machen wir im Folgenden Belegungen mit Apostroph, auch eine speziell für Englisch.
Ich nehme an, dass Sie den Optimierer heruntergeladen und grob verstanden haben. Der Optimierer und seine Dokumentation finden Sie auf der Übersichtsseite. Für diesen Artikel habe ich Version 1.247 benutzt. Hier ist eine Sammlung von Files, um diesen Artikel leichter nachvollziehen zu können:
Zur Belegungsoptimierung braucht man ein Korpus. Die Häufigkeitsfiles, die beim Optimierer dabei sind, sind zum grossen Teil aus 8-Bit-codierten Textfiles gewonnen. Daher enthalten sie nicht das vom Unicode-Standard bevorzugte «’» (U+2019 RIGHT SINGLE QUOTATION MARK), sondern «'» (U+0027 APOSTROPHE). Dieses Zeichen wird zum Teil auch für öffnenden und schliessende Anführungszeichen verwendet, aber nicht durchgängig. Daher stellt sich die Frage, ob die «'» überhaupt Apostrophen sind.
In einem Trigramm aus einem Buchstaben, einem «'» und einem weiteren Buchstaben ist das «'» ziemlich sicher ein Apostroph. Wir können also nachzählen
awk "/[a-zA-Z]'[a-zA-Z]/ { n = n+\$1 } END { print n }" englisch.txt.3
und erhalten 3359. In englisch.txt.1 steht, dass «'» im englischen Korpus 4180-mal vorkommt. Also sind mindestens drei Viertel der Apostrophen echt. Das erscheint mir gut genug. Im deutschen Korpus ist der so geschätzte Anteil etwa ein Viertel. Das ist zwar nicht gut, aber nur eine untere Schranke und, da die Anzahl der «'» klein ist, sowieso egal.
Ausser dem Apostroph will ich den im Englischen wichtigen Bindestrich berücksichtigen. Hier hat man ein ähnliches Problem: Was ist ein Bindestrich, was ein Minus, was ein Gedankenstrich, was ein Geviertstrich? Diese stilistischen Feinheiten werden ignoriert.
Ebenso ignoriert wird ein weiterer Stilaspekt: In Sachtexten sind Kontraktionen (zum Beispiel «don’t») oft verpönt. Ohne Kontraktionen verringerte sich die Häufigkeit von Apostrophen deutlich.
Im Vergleich zur Standardkonfiguration werden wir auf eigene Tasten für die Umlaute und das «ß» verzichten, dafür Tasten für den Apostrophen und den Bindestrich einführen. Zudem führen wir eine Taste für das Zeichen «¨» ein, mit dem wir die Umlaute und das «ß» erzeugen:
Ersatz 'ߨs' Ersatz 'ĨA'
und so weiter. Damit kommen wir auf insgesamt 34 Tasten. Wir übersetzen den Optimierer für diese Tastenzahl:
g++ -std=c++11 -Wall -Ofast -DNDEBUG -DOHNE2SHIFT -DTASTENZAHL=34 \ -DMIT_THREADS -pthread opt.cc -o opt34
Gegenüber der Standardkonfiguration lassen wir die QWERTZ-Ä-Taste weg.
Damit kann es schon losgehen. Für Deutsch und Englisch erhalten wir
./opt34 -2 deutsch.txt -2 englisch.txt -K anglophil.cfg -t 4 241.356 Gesamtaufwand 188.319 Lageaufwand links rechts 1.089 Kollisionen 6.999 Shift-Kollisionen ob 6.4 11.6 ku¨.- vgcljf 70.697 Handwechsel 24.261 Shift-Handwechsel mi 36.4 31.7 hieao dtrns 1.781 Ein-/Auswärts 25.745 Ein- oder auswärts un 5.2 8.8 xy',q bpwmz 10.128 benachbart 21.972 Shift-benachbart sum 47.9 52.1 8.3 11.3 14.3 14.0 --.- --.- 17.4 10.7 14.1 10.0 Sh 2.8 1.2
also fast «Aus der Neo-Welt», nur ohne Umlaute. Nur für Englisch erhalten wir
./opt34 -2 englisch.txt -K anglophil.cfg -t 4 226.210 Gesamtaufwand 185.472 Lageaufwand links rechts 0.877 Kollisionen 1.786 Shift-Kollisionen ob 5.8 13.5 jyu.' zmldbp 68.404 Handwechsel 35.327 Shift-Handwechsel mi 39.8 29.0 sieao hnrtc 1.129 Ein-/Auswärts 28.064 Ein- oder auswärts un 3.6 8.3 x¨-,q fvwkg 9.418 benachbart 10.627 Shift-benachbart sum 49.2 50.8 8.5 8.6 14.5 17.6 --.- --.- 17.0 11.5 13.0 9.3 Sh 1.8 1.0
Diese Belegung nenne ich «Anglomane». Und, der Vollständigkeit halber, nur für Deutsch:
./opt34 -2 deutsch.txt -K anglophil.cfg -t 4 242.277 Gesamtaufwand 188.099 Lageaufwand links rechts 0.945 Kollisionen 2.213 Shift-Kollisionen ob 6.8 11.2 k¨o,- pcmljf 70.094 Handwechsel 25.285 Shift-Handwechsel mi 36.0 31.9 heaiu dtnrs 2.124 Ein-/Auswärts 26.668 Ein- oder auswärts un 4.8 9.3 x'q.y gbwvz 10.080 benachbart 27.664 Shift-benachbart sum 47.6 52.4 9.1 16.6 8.3 13.7 --.- --.- 18.0 13.1 11.0 10.3 Sh 3.7 1.5
Wir vergleichen diese Belegungen für die beiden Sprachen:
./opt34 -2 deutsch.txt -K anglophil.cfg -r anglophil.txt Anglomane 287.831 Gesamtaufwand 198.532 Lageaufwand links rechts 1.869 Kollisionen 5.644 Shift-Kollisionen ob 5.2 14.1 jyu.' zmldbp 67.207 Handwechsel 21.231 Shift-Handwechsel mi 36.6 28.2 sieao hnrtc 0.960 Ein-/Auswärts 28.631 Ein- oder auswärts un 6.4 9.5 x¨-,q fvwkg 13.276 benachbart 16.491 Shift-benachbart sum 48.2 51.8 9.7 8.9 19.4 10.2 --.- --.- 19.1 11.6 11.4 9.7 Sh 3.5 1.8 AdNW∖Umlaute 246.209 Gesamtaufwand 189.959 Lageaufwand links rechts 1.075 Kollisionen 2.212 Shift-Kollisionen ob 7.9 11.4 ku¨.- vgcljf 70.094 Handwechsel 25.285 Shift-Handwechsel mi 34.7 31.9 hieao dtrns 1.526 Ein-/Auswärts 26.538 Ein- oder auswärts un 5.1 9.1 xy',q bpwmz 12.000 benachbart 22.994 Shift-benachbart sum 47.6 52.4 9.1 11.5 16.6 10.5 --.- --.- 16.2 10.8 15.2 10.3 Sh 3.7 1.5
und
./opt34 -2 englisch.txt -K anglophil.cfg -r anglophil.txt AdNW∖Umlaute 236.503 Gesamtaufwand 186.680 Lageaufwand links rechts 1.103 Kollisionen 17.062 Shift-Kollisionen ob 4.8 11.9 ku¨.- vgcljf 71.329 Handwechsel 22.110 Shift-Handwechsel mi 38.1 31.4 hieao dtrns 2.134 Ein-/Auswärts 24.913 Ein- oder auswärts un 5.3 8.5 xy',q bpwmz 8.165 benachbart 19.821 Shift-benachbart sum 48.2 51.8 7.5 11.1 11.9 17.6 --.- --.- 18.5 10.6 13.0 9.6 Sh 1.9 0.9 262.256 Gesamtaufwand 192.547 Lageaufwand links rechts 1.541 Kollisionen 17.062 Shift-Kollisionen ob 9.2 13.5 k¨o,- pcmljf 71.329 Handwechsel 22.110 Shift-Handwechsel mi 33.7 31.4 heaiu dtnrs 2.383 Ein-/Auswärts 24.475 Ein- oder auswärts un 5.3 6.9 x'q.y gbwvz 13.543 benachbart 13.645 Shift-benachbart sum 48.2 51.8 7.5 11.9 14.9 13.9 --.- --.- 20.6 10.9 10.7 9.6 Sh 1.9 0.9
(bereits gezeigte Ergebnisse sind weggelassen). Man sieht, dass die Kompromissbelegung «Aus der Neo-Welt ohne Umlaute» schlechter abschneidet als die für die jeweilige Sprache optimierte Belegung, der Abstand aber nicht allzu gross ist, vor allem, wenn man mit dem Ergebnis vergleicht, das die für die jeweils andere Sprache optimierte Belegung erreicht. Offenbar vertagen sich Deutsch und Englisch gut zusammen in einer Belegung.
Mein Fazit: Das Ergebnis oben zeigt, dass das Fehlen des Apostrophs in «Aus der Neo-Welt» eher ein kosmetisches Problem ist, denn er lässt sich nachträglich optimal einfügen, ohne die Belegung wesentlich zu ändern. Ferner zeigt sich, dass die Ausrichtung auf Deutsch und Englisch gleichzeitig nur geringe Einbussen bei der Eignung für jede dieser Sprachen für sich bringt, und daher auch für Anwender akzeptabel sein sollte, die weit überwiegend nur eine dieser Sprachen schreiben.