Übersicht Beispiele Material English

Noch mehr Englisch

Einleitung

Neulich wurde in der Diskussionsgruppe zu «Aus der Neo-Welt» bemerkt, die Belegung würde ihrem Anspruch, auch für Englisch entworfen zu sein, nicht gerecht, da der im Englischen wichtige Apostroph nicht berücksichtigt wäre. Zudem wurde angeregt, über eine speziell für Englisch entworfene Belegung nachzudenken, da diese einen weiten Interessentenkreis ansprechen könnte. Zumindest die Sache mit dem Apostroph stimmt. Daher machen wir im Folgenden Belegungen mit Apostroph, auch eine speziell für Englisch.

Voraussetzungen

Ich nehme an, dass Sie den Optimierer heruntergeladen und grob verstanden haben. Der Optimierer und seine Dokumentation finden Sie auf der Übersichtsseite. Für diesen Artikel habe ich Version 1.247 benutzt. Hier ist eine Sammlung von Files, um diesen Artikel leichter nachvollziehen zu können:

Begleitmaterial herunterladen

Korpusfragen

Zur Belegungsoptimierung braucht man ein Korpus. Die Häufigkeitsfiles, die beim Optimierer dabei sind, sind zum grossen Teil aus 8-Bit-codierten Textfiles gewonnen. Daher enthalten sie nicht das vom Unicode-Standard bevorzugte «’» (U+2019 RIGHT SINGLE QUOTATION MARK), sondern «'» (U+0027 APOSTROPHE). Dieses Zeichen wird zum Teil auch für öffnenden und schliessende Anführungszeichen verwendet, aber nicht durchgängig. Daher stellt sich die Frage, ob die «'» überhaupt Apostrophen sind.

In einem Trigramm aus einem Buchstaben, einem «'» und einem weiteren Buchstaben ist das «'» ziemlich sicher ein Apostroph. Wir können also nachzählen

awk "/[a-zA-Z]'[a-zA-Z]/ { n = n+\$1 } END { print n }" englisch.txt.3

und erhalten 3359. In englisch.txt.1 steht, dass «'» im englischen Korpus 4180-mal vorkommt. Also sind mindestens drei Viertel der Apostrophen echt. Das erscheint mir gut genug. Im deutschen Korpus ist der so geschätzte Anteil etwa ein Viertel. Das ist zwar nicht gut, aber nur eine untere Schranke und, da die Anzahl der «'» klein ist, sowieso egal.

Ausser dem Apostroph will ich den im Englischen wichtigen Bindestrich berücksichtigen. Hier hat man ein ähnliches Problem: Was ist ein Bindestrich, was ein Minus, was ein Gedankenstrich, was ein Geviertstrich? Diese stilistischen Feinheiten werden ignoriert.

Ebenso ignoriert wird ein weiterer Stilaspekt: In Sachtexten sind Kontraktionen (zum Beispiel «don’t») oft verpönt. Ohne Kontraktionen verringerte sich die Häufigkeit von Apostrophen deutlich.

Optimierung

Im Vergleich zur Standardkonfiguration werden wir auf eigene Tasten für die Umlaute und das «ß» verzichten, dafür Tasten für den Apostrophen und den Bindestrich einführen. Zudem führen wir eine Taste für das Zeichen «¨» ein, mit dem wir die Umlaute und das «ß» erzeugen:

Ersatz 'ߨs'
Ersatz 'ĨA'

und so weiter. Damit kommen wir auf insgesamt 34 Tasten. Wir übersetzen den Optimierer für diese Tastenzahl:

g++ -std=c++11 -Wall -Ofast -DNDEBUG -DOHNE2SHIFT -DTASTENZAHL=34 \
    -DMIT_THREADS -pthread opt.cc -o opt34

Gegenüber der Standardkonfiguration lassen wir die QWERTZ-Ä-Taste weg.

Ergebnisse

Damit kann es schon losgehen. Für Deutsch und Englisch erhalten wir

./opt34 -2 deutsch.txt -2 englisch.txt -K anglophil.cfg -t 4

                 241.356 Gesamtaufwand  188.319 Lageaufwand        links rechts
                   1.089 Kollisionen      6.999 Shift-Kollisionen  ob  6.4 11.6
  ku¨.- vgcljf    70.697 Handwechsel     24.261 Shift-Handwechsel  mi 36.4 31.7
  hieao dtrns      1.781 Ein-/Auswärts   25.745 Ein- oder auswärts un  5.2  8.8
  xy',q bpwmz     10.128 benachbart      21.972 Shift-benachbart  sum 47.9 52.1
                  8.3 11.3 14.3 14.0 --.- --.- 17.4 10.7 14.1 10.0 Sh  2.8  1.2

also fast «Aus der Neo-Welt», nur ohne Umlaute. Nur für Englisch erhalten wir

./opt34 -2 englisch.txt -K anglophil.cfg -t 4

                 226.210 Gesamtaufwand  185.472 Lageaufwand        links rechts
                   0.877 Kollisionen      1.786 Shift-Kollisionen  ob  5.8 13.5
  jyu.' zmldbp    68.404 Handwechsel     35.327 Shift-Handwechsel  mi 39.8 29.0
  sieao hnrtc      1.129 Ein-/Auswärts   28.064 Ein- oder auswärts un  3.6  8.3
  x¨-,q fvwkg      9.418 benachbart      10.627 Shift-benachbart  sum 49.2 50.8
                  8.5  8.6 14.5 17.6 --.- --.- 17.0 11.5 13.0  9.3 Sh  1.8  1.0

Diese Belegung nenne ich «Anglomane». Und, der Vollständigkeit halber, nur für Deutsch:

./opt34 -2 deutsch.txt -K anglophil.cfg -t 4

                 242.277 Gesamtaufwand  188.099 Lageaufwand        links rechts
                   0.945 Kollisionen      2.213 Shift-Kollisionen  ob  6.8 11.2
  k¨o,- pcmljf    70.094 Handwechsel     25.285 Shift-Handwechsel  mi 36.0 31.9
  heaiu dtnrs      2.124 Ein-/Auswärts   26.668 Ein- oder auswärts un  4.8  9.3
  x'q.y gbwvz     10.080 benachbart      27.664 Shift-benachbart  sum 47.6 52.4
                  9.1 16.6  8.3 13.7 --.- --.- 18.0 13.1 11.0 10.3 Sh  3.7  1.5

Wir vergleichen diese Belegungen für die beiden Sprachen:

./opt34 -2 deutsch.txt -K anglophil.cfg -r anglophil.txt

Anglomane        287.831 Gesamtaufwand  198.532 Lageaufwand        links rechts
                   1.869 Kollisionen      5.644 Shift-Kollisionen  ob  5.2 14.1
  jyu.' zmldbp    67.207 Handwechsel     21.231 Shift-Handwechsel  mi 36.6 28.2
  sieao hnrtc      0.960 Ein-/Auswärts   28.631 Ein- oder auswärts un  6.4  9.5
  x¨-,q fvwkg     13.276 benachbart      16.491 Shift-benachbart  sum 48.2 51.8
                  9.7  8.9 19.4 10.2 --.- --.- 19.1 11.6 11.4  9.7 Sh  3.5  1.8

AdNW∖Umlaute     246.209 Gesamtaufwand  189.959 Lageaufwand        links rechts
                   1.075 Kollisionen      2.212 Shift-Kollisionen  ob  7.9 11.4
  ku¨.- vgcljf    70.094 Handwechsel     25.285 Shift-Handwechsel  mi 34.7 31.9
  hieao dtrns      1.526 Ein-/Auswärts   26.538 Ein- oder auswärts un  5.1  9.1
  xy',q bpwmz     12.000 benachbart      22.994 Shift-benachbart  sum 47.6 52.4
                  9.1 11.5 16.6 10.5 --.- --.- 16.2 10.8 15.2 10.3 Sh  3.7  1.5

und

./opt34 -2 englisch.txt -K anglophil.cfg -r anglophil.txt

AdNW∖Umlaute     236.503 Gesamtaufwand  186.680 Lageaufwand        links rechts
                   1.103 Kollisionen     17.062 Shift-Kollisionen  ob  4.8 11.9
  ku¨.- vgcljf    71.329 Handwechsel     22.110 Shift-Handwechsel  mi 38.1 31.4
  hieao dtrns      2.134 Ein-/Auswärts   24.913 Ein- oder auswärts un  5.3  8.5
  xy',q bpwmz      8.165 benachbart      19.821 Shift-benachbart  sum 48.2 51.8
                  7.5 11.1 11.9 17.6 --.- --.- 18.5 10.6 13.0  9.6 Sh  1.9  0.9

                 262.256 Gesamtaufwand  192.547 Lageaufwand        links rechts
                   1.541 Kollisionen     17.062 Shift-Kollisionen  ob  9.2 13.5
  k¨o,- pcmljf    71.329 Handwechsel     22.110 Shift-Handwechsel  mi 33.7 31.4
  heaiu dtnrs      2.383 Ein-/Auswärts   24.475 Ein- oder auswärts un  5.3  6.9
  x'q.y gbwvz     13.543 benachbart      13.645 Shift-benachbart  sum 48.2 51.8
                  7.5 11.9 14.9 13.9 --.- --.- 20.6 10.9 10.7  9.6 Sh  1.9  0.9

(bereits gezeigte Ergebnisse sind weggelassen). Man sieht, dass die Kompromissbelegung «Aus der Neo-Welt ohne Umlaute» schlechter abschneidet als die für die jeweilige Sprache optimierte Belegung, der Abstand aber nicht allzu gross ist, vor allem, wenn man mit dem Ergebnis vergleicht, das die für die jeweils andere Sprache optimierte Belegung erreicht. Offenbar vertagen sich Deutsch und Englisch gut zusammen in einer Belegung.

Mein Fazit: Das Ergebnis oben zeigt, dass das Fehlen des Apostrophs in «Aus der Neo-Welt» eher ein kosmetisches Problem ist, denn er lässt sich nachträglich optimal einfügen, ohne die Belegung wesentlich zu ändern. Ferner zeigt sich, dass die Ausrichtung auf Deutsch und Englisch gleichzeitig nur geringe Einbussen bei der Eignung für jede dieser Sprachen für sich bringt, und daher auch für Anwender akzeptabel sein sollte, die weit überwiegend nur eine dieser Sprachen schreiben.

Version 14. Okt 2018Impressum