Zuerst veröffentlicht am 10.09.2008
Eine empirische Studie – Buchstaben- und Zahlenverteilung in Domain-Namen
Die Inhalte der Seite entstanden im Rahmen der Magisterarbeit von Gordon Böhme an der Martin-Luther-Universität Halle-Wittenberg (MLU), Institut für Indogermanistik. Betreut wurde die Magisterarbeit von Prof. Dr. G. Antos, Germanistisches Institut der MLU. Die hier dargestellten Inhalte sind nur ein Auszug aus der Arbeit. Für weitere Informationen nutzen Sie bitte das Mailformular.
Alle statistischen Angaben auf der Seite beziehen sich, soweit nicht anders angegeben, auf die ccTLD (country code Top Level Domain) .de.
Die hier verwendeten Daten wurden von der DENIC e.G. auf Anfrage zur Verfügung gestellt und betreffen den Zeitraum von 2000 bis 2006. Ältere Daten sowie die Vergleichszahlen zu den gTLD (generic Top Level Domain) .net und .com stammen von Matthew A. Zook, Assistant Professor am „Department of Geography“ der „University of Kentucky“.
Im Jahr 2006 verfügten 58,2% der deutschsprachigen Wohnbevölkerung ab 14 Jahre mit Telefonanschluss im Haushalt über einen Internetanschluss und gelten als „Online“. Die beiden Altersgruppen von 14 bis 19 und 20 bis 29 Jahren sind mit einem identischen Wert von jeweils 86,5% am stärksten vertreten. Auch für die kommenden Jahre ist ein weiterer Anstieg der „Onliner“ zu erwarten. (Vgl.: Studie der TNS Infratest Holding GmbH & Co. KG: (N)onliner Atlas 2006: Eine Topographie des digitalen Grabens durch Deutschland, in: www.nonliner-atlas.de/pdf/dl_NONLINER-Atlas2006.pdf, S. 10 f (Stand: 3.8.2006).)
Die steigende Nutzerzahl trifft auf eine stetig wachsende Ansammlung von Informationen, die größtenteils ungeordnet durch jeden einzelnen Nutzer nach seinen Kriterien gefiltert werden muss. Entscheidend für den Erfolg einer Webseite scheint die Namenswahl zwischen dem WWW (World Wide Web) und der ccTLD (country code Top Level Domain) .de zu sein, um bei der steigenden Zahl an erreichbaren Informationen auch gefunden werden zu können.
Die weiter steigende Präsenz von Domain-Namen in der Alltagswelt ist Anlass für die vorliegende linguistische Untersuchung.
Analyse der Domain-Namen
Studie zu Zahlen, Zeichen und Buchstaben in Domain-Namen unter der Top-Level-Domain (TLD) .de.
Domain-Namen sind sprachliche Zeichen, die innerhalb eines rechtlich und technisch definierten Rahmens frei wählbar sind.
Die Besonderheit der Domain-Namen besteht darin, dass alles als Domain-Namen aufgefasst werden kann, was innerhalb der technischen Grenzen, also dem WWW, der jeweiligen Endung und den technischen Begrenzungen der Zeichenwahl dazwischen, liegt. Die gewählten Namen zur Bezeichnung eines Online-Angebotes im WWW müssen somit nicht aus einem Wort bestehen, sondern können über Zeichenlänge, Sonderzeichen, Zahlen und Bindestriche zahlreiche bedeutungstragende Einheiten in verschiedener Form kombinieren.
Aufgrund der technischen Gebundenheit und der einhergehenden vollständigen Erfassung aller Domain-Namen in zentralen Datenbanken können Form und Bildung gemessen und analysiert werden. Diese Besonderheit wurde genutzt, um die sprachlichen Zeichen insgesamt zu betrachten und auch ihre Entwicklung soweit wie möglich darzulegen.
Für alle hier veröffentlichten Texte und Grafiken gilt:
© Gordon Böhme, 2006 – Alle Rechte vorbehalten. Unerlaubte Vervielfältigung, Verleih, Vermietung oder Aufführung sind nicht gestattet! Bei Fragen schreiben Sie eine Nachricht über das Kontaktformular .
Sprachliche Formen der Domain-Namen
DN können aus zwei Perspektiven betrachtet werden. Zum einen
„(…) wenn sie sowohl im Sinne der Namenforschung als ‚Namen’ als auch zugleich grammatisch interessante Ausdrücke, d.h. im Sinne der ‚Konstruktionsgrammatik’: als ganz neue ‚hybride’ sprachliche Konstruktionen zu interpretieren sind.“
(Antos, Gerd: Die-zeiten-aedern-sich.de, in: Wille, Lucyna/ Homa, Jaromin (Hrsg.): Menschen – Sprachen – Kulturen, Tectum Verlag, Marburg 2006.)
Für DN zählen hier neben dem standardisierten Buchstabensatz ebenso Zahlen, Bindestriche und die seit 2004 neu eingeführten Sonderzeichen.
Folgende sprachliche Formen können identifiziert werden:
- Abkürzungen (z. B.: www.zdf.de, www.dpma.de
- Adjektive (z.B.: www.lecker-lecker.de, )
- Adjektive mit Substantiven (z.B.: www.gutesbad.de
- Aussagesätze (z.B.: www.ich-kauf-mir-eine-wohnung.de
- Ellipsen (z.B.: www.allesklar.de, www.bestes-auto-seiner-klasse.de
- Elliptische Satzgefüge (z.B.: www.wenndannrichtig.de
- Fragen (www.woistpaul.de, www.wer-ist-der-maulwurf.de
- Namen jeder Art (z.B.: www.halle.de, www.audi.de, www.marlboro.de
- Substantive(z.B.: www.welt.de, www.wissenschaft.de
- Imperative (z.B.: www.machs-mit.de )
- Interjektionen (z.B.: www.pustekuchen.de, www.verflixtundzugenaeht.de
- Phrasen (z.B.: www.ingolstadt-hinter-sich-gelassen.de
- reine Zahlenfolgen (z.B.: www.4711.com
- Buchstaben-Zahlen-Folgen (z.B.: www.b2b.de
- Wort-Buchstaben-Kombinationen (z.B.: www.dickesb.de
- Wort-Zahlen-Kombinationen (z.B.: www.server4you.de, www.autoscout24.de
- „Kunstwörter“ (z.B.: www.google.de
- Fremdwörter (z.B.: www.yahoo.de)
Anzahl der Zeichen in Domain-Namen
Entwicklung der Anzahl der Zeichen in SLD 2000 – 2006
In der folgenden Grafik wird die Anzahl der verwendeten Zeichen in dem Zeitraum von 2000 bis 2006 dargestellt. Aufgrund der Anzahl an registrierten DN und ihrer Verteilung auf die verschieden verwendete Zeichenanzahl ist eine aussagekräftige Darstellung der Entwicklung in einer Grafik für höhere Zeichenmengen schwer möglich, weswegen sich die Angabe in der Grafik auf 35 Zeichen beschränkt.
Wie bereits an den Graphen zu erkennen ist, lässt sich bei der Zeichenlänge eine langsame Verschiebung zugunsten längerer DN feststellen. Dies wird unter anderem deutlich, wenn man die 11 Zeichen als Ausgangswert nimmt und sich die Entwicklung der beiden nächsten Messpunkte, 10 und 12 Zeichen, anschaut. Während vor 2002 deutlich mehr DN mit 10 Zeichen registriert wurden, hat sich dies zum Jahr 2002 bei 10 Zeichen (445.560) und 12 Zeichen (441.880) beinahe ausgeglichen. Bis zum Jahr 2003 hat sich das noch leichte Übergewicht von 10 Zeichen (508.276) zugunsten der DN mit 12 Zeichen (510.250) verändert.
Der Trend zu einer längeren Zeichenfolge bestätigt sich, wenn man die durchschnittliche Zeichenanzahl für jedes Jahr errechnet. Betrug dieser Wert 2000 noch 12,10 Zeichen, so waren es 2006 schon 13,25 Zeichen innerhalb der SLD.
Bindestriche in Domain-Namen
Entwicklung der verwendeten Bindestriche in SLD
Die mit Bindestrich gebildeten DN stellen die größte Gruppe der DN dar, die Zeichen neben dem natürlichen Zeichensatz der deutschen Sprache innerhalb ihrer Zeichenfolge verwenden. Ihr Anteil an allen registrierten DN eines Jahres lag seit 2001 immer über 50% und vergrößert sich seitdem.
Anzahl der insgesamt verwendeten Bindestriche in SLD
Schlüsselt man die Anzahl der insgesamt verwendeten Bindestriche in die jeweilige Anzahl innerhalb der SLD auf, so zeigt sich in der folgenden Abbildung, dass DN mit einem Bindestrich am häufigsten registriert wurden. Aus Gründen der Übersichtlichkeit wurden nur die Graphen für 0, 1 und 2 Bindestriche in SLD für die Jahre 2000 bis 2006 beschriftet und weiterhin nur Graphen bis 4 Bindestriche abgebildet.
Bei diesem Merkmal sind auch Extremwerte zu erkennen. Beispielsweise wurden seit 2000 mindestens ein DN und 2002 sowie 2003 sogar zwei DN mit 61 Bindestrichen registriert. Daneben existieren seit 2002 auch zwei DN mit jeweils 44 und 50 Bindestrichen. Derartige extreme können mit dem Wunsch nach Abgrenzung zu den zahlreichen anderen DN erklärt werden. Bei 61 verwendeten Bindestrichen und insgesamt 63 möglichen Zeichen kann man nicht von einem aussagekräftigen DN ausgehen, sondern kann auf die Besonderheit der gewählten Zeichenfolge abzielen, die dem Nutzer bei Bekannt werden schon allein deswegen eher im Gedächtnis bleibt.
Verwendete Zahlen in Domain-Namen
Entwicklung verwendeter Zahlen in SLD
Die Verwendung von Zahlen innerhalb der SLD wird im Vergleich zur Gesamtheit der registrierten DN nur selten genutzt. Von den 2006 9.720.146 registrierten entfielen gerade 535.159 auf DN die mit Zahlen gebildet wurden.
Seit dem Jahr 2003 stiegen die Registrierungszahlen der DN mit zwei Zahlen stärker an als die mit nur einer Zahl und gleichen sich in Bezug auf die Häufigkeit weiter an. Mit steigender Zahlenanzahl sinkt die Häufigkeit an registrierten DN.
Interessant an dieser Entwicklung ist, dass DN mit 4 Zahlen deutlich häufiger registriert werden als mit drei Zahlen. 2002 waren sogar weniger DN mit drei Zahlen innerhalb der SLD registriert als 2001. Die Reihenfolge der verwendeten Zahlen stellt somit in weise 1, 2, 4 und 3 dar.
Dabei sind die Zahlen 2 und 4, wie angenommen, am stärksten vertreten, wobei die Zahl 2 immer noch deutlich vor der Zahl vier liegt. Als Grund hierfür kann zum einen auf die homophone Aussprache der Zahlen in der englischen Sprache verwiesen werden. Zum anderen ist die Kombination beider Zahlen als Zeitangabe der Form 24 möglich. Diese Bedeutungsvielfalt lässt mehr inhaltlich sinnvolle Kombinationsmöglichkeiten als andere Zahlen zu, weswegen dies auch als eine Erklärung für deren häufigere Verwendung gelten kann.
Sonderzeichen in Domain-Namen
Entwicklung der Domain-Namen mit Sonderzeichen.
Im April 2006 wurden 289.770 DN mit Sonderzeichen aus der Anlage der DENIC-Domainrichtlinien gebildet.
Es ist zu erkennen, dass im ersten Monat nach der Einführung der Sonderzeichen knapp 200.000 DN mit Sonderzeichen registriert worden waren. Dieser starke Anstieg im ersten Monat setzte sich allerdings nicht fort. Bis Juli 2006 erhöhte sich die Anzahl an DN mit Sonderzeichen gerade noch um circa 50%.
Insgesamt können unter der TLD .de 92 Sonderzeichen verwendet werden.
Obwohl auch alle 92 Sonderzeichen innerhalb von SLD verwendet werden ist ihr Anteil an den DN insgesamt sehr gering. Von März im Jahr 2004 bis März 2005 stieg ihr Anteil von 2,63% auf 3,00%. Wegen der geringeren Steigerungsraten der Registrierungen im Vergleich zu DN ohne Sonderzeichen, sank ihr Anteil 2006 wieder unter 3%. Somit ist der Anteil aller 92 Sonderzeichen auch deutlich geringer als der Anteil der zehn möglichen, verwendbaren Zahlen innerhalb der SLD.
Haufigkeitsverteilung einzelner Buchstaben in Domain-Namen
Verwendung der einzelnen Buchstaben
Betrachtet man die verwendeten Buchstaben innerhalb der SLD, so sind zwei in Tabelle 7 nachvollziehbare Eigenschaften besonders auffällig. Erstens die hohe Kontinuität bei der Auswahl der Buchstaben in DN. Die ersten fünf Buchstaben, e, r, n, a und i sowie die letzten 15 Buchstaben haben sich in der Reihenfolge seit 2000 nicht verändert.
Zweitens ist die überragende Dominanz des Buchstaben „e“ festzustellen, der über 32 Mio. Mal in DN eingesetzt wurde. Dagegen sind die drei folgenden Buchstaben r, n und a mit mehr als 19,2 Mio., 19,0 Mio. und 18,4 Mio. vergleichsweise dicht beieinander. Insgesamt gibt es auch nur die Buchstaben j und q die bis 2006 weniger als eine Mio. Mal genutzt werden, wobei q mit etwas mehr als 200 Tsd. die geringste Entwicklung in Bezug zur Häufigkeit zeigt.
Bei der Häufigkeitsverteilung der einzelnen Buchstaben in DN kann ein Unterschied zu den Worten der deutschen Sprache festgestellt werden. Nach Pommerening sind die sieben am stärksten vertretenen Buchstaben e, n, i, r, s, a und t. Zu einem ähnlichen Ergebnis kommt auch Beutelspacher und Heuke , die e, n, i, s, r, a und t als die sieben häufigsten vertretenen Buchstaben in der deutschen Sprache anordnen.
Um eine Übersicht über die verwendeten Buchstaben in SLD zu erlangen und um den spezifischen Aufbau der mit Buchstaben gebildeten DN darzustellen, wurde aus dem von DENIC gelieferten Datensatz ein Häufigkeitsgebirge erstellt, da
„[…]die Häufigkeit der Einzelbuchstaben inneren Gesetzen der Sprache (folgt).“
(Bauer, Friedrich L.: Entziffert Geheimnisse – Methoden und Maximen der Kryptologie, 3., überarb. u. erw. Aufl., Berlin/ Heidelberg/ New York und andere, Springer 2000, S. 294.)
„Im Deutschen (…) sind besonders auffällig die e-Spitze und der n-Gipfel, die f-g-h-i-Flanke mit anschließender j-k-Senke, die o-p-q-Senke mit anschließendem r-s-t-u-Kamm.
Demgegenüber bestehen im Englischen (…) signifikante Unterschiede: Es ist ein a-Gipfel ausgeprägter, es besteht ein h-i-Kamm und ein l-m-n-o-Kamm, der r-s-t-u-Kamm hat einen t-Gipfel; jedoch finden sich b-c-d-Flanke, j-k-Senke und v-w-x-y-z-Niederung wieder.“
(Bauer, Friedrich L.: a.a.O., S. 249.)
Bauers Beschreibung des deutschen wie englischen Häufigkeitsgebirges treffen voll auf die Graphen in Abbildung 15 zu. Zieht man Abbildung 15 zum Vergleich mit dem Häufigkeitsgebirge für DN heran, kann ebenfalls eine hohe Übereinstimmung in den Graphen für DN und den der deutschen Sprache festgestellt werden. Die von Bauer genannten Auffälligkeiten finden sich dementsprechend ebenfalls in dem Graphen für DN wieder. Dies scheint wiederum zu belegen, dass DN in ähnlicher Weise gebildet werden wie die Worte der deutschen Sprache.
Die Arbeit als Buch
Auf den folgenden Seiten werde ich zusätzliche Infos zu dem Buch veröffentlichen. Dazu gehören u.a. auch die Kritikpunkte an der Arbeit, die in der Buchversion nicht oder nur teilweise mit eingearbeitet wurden, da es die eigentliche Magisterarbeit darstellen soll.
Sehr gern nehme ich Ihre Kritik mit auf und werde diese mit den bereits bekannten Kritikpunkten in einer späteren Arbeit aufarbeiten und korrigieren. Nutzen Sie einfach die Kommentarfunktion, um auf inhaltliche Probleme hinzuweisen oder weiterführende Gedanken zu äußern. Sollten Sie Anregungen haben, wie man die Erkenntnisse ggf. in anderen Zusammenhängen anwenden kann, stehe ich für eine Zusammenarbeit zur Verfügung.
Einige Korrekturen zu technischen Formulierungen und zur Rolle der DENIC e.G. wurden auf Hinweis von Herrn Klaus Herzig, dem Leiter der DENIC-Pressestelle bis 2008, nachträglich eingearbeitet. Ich habe aber darauf verzichtet, den Ursprungstext umzuschreiben, da ich es für sinnvoller halte, in einer fortführenden Arbeit die bisherigen Ergebnisse zu überprüfen und an neue Ergebnisse anzupassen.
Inhaltliche Kritikpunkte an der Arbeit
- Seite 2: Die initialen Zahlen von .eu können nicht mit der Domainentwicklung von .de verglichen werden, da die Situation vor 10 Jahren eine ganz andere war. Wenn man sich die Wachstumsraten von .eu nach einem Jahr des Bestehens ansieht, sieht man, dass die Zuwächse auf ein relativ bescheidenes Maß zurückgegangen sind.
- Seite 6: „mieten des DN“ ist falsch. Domain können registriert werden, aber nicht gemietet.
- Seite 9: Domaininhaber müssen keinen Wohnsitz in Deutschland haben. Es genügt, einen Admin-C anzugeben, der in Deutschland sitzt. Ende 2005 waren 160.000 Domains für Ausländer registriert, Ende 2006 sogar über 580.000.
- Seite 20: Die These, .com-Domains seien meistens mit englischsprachigen Angeboten versehen und deckten überwiegend den nordamerikanischen Wirtschaftsraum ab ist zumindest gewagt, wenn nicht unhaltbar.
- Seite 22: Bei IDNs sind im Prinzip beliebige Zeichen darstellbar, die auch nicht aus der lateinischen Schrift kommen müssen. Die DENIC hat daraus 92 Zeichen ausgewählt, die aber für andere TLDs nicht verbindlich sind. Eine Wertung, wie Sie sie auf Seite 22 vornehmen, ist daher unzulässig.
- Seite 30: Der 3. Satz ist zumindest missverständlich. Domains werden ohnehin nicht vergeben. Ein Nutzer entscheidet sich dafür, eine Domain zu registrieren. Das tut er letztendlich immer bei der DENIC, wenngleich er dazu zunächst einen Provider beauftragt. Die Mitgliedskosten sind auch nicht 3080 Euro. Das sind die Aufnahmekosten. Verantwortlich für alle Rechtsfragen ist immer der Domaininhaber. Der Admin-C ist nur sein Vertreter bzw. sein Zustellungsbevollmächtigter! Der Domaininhare muss sich versichern, keine Rechte Dritter zu verletzen.
- Seite 31: Hier ist der Bezug verwirrend. Die Reglungen mit den Verträgen sind nicht wegen der not-for-Profit-Struktur notwendig. Der ganze rechtliche Teil ist nicht wirklich korrekt dargestellt. Es wird fälschlicherweise immer auf den Admin-C statt auf den Domaininhaber Bezug genommen. Der Domaininhaber erwirbt auch kein Nutzungsrecht! Denn dann wäre bei Rechtsverletzung ja die DENIC haftbar, weil sie ihm dies eingeräumt hat. Außerdem wird der Domainvertrag nicht für ein Jahr, sondern auf unbestimmte Zeit geschlossen, wobei nur die Rechnungsstellung durch den Provider jährlich erfolgt.
- Seite 33: Wir erheben auch nach 1999 die Einteilung in die Nutzertypen und haben dies in den Pressemitteilungen zu den Regionalstatistiken auch immer wieder erwähnt. Es sind weiterhin etwa ein Fünftel aller Domains eindeutig Unternehmen als Inhabern zuzuordnen. Das ist außerdem etwas anderes als „kommerzielle Nutzung“. Diese kann man aus unseren Daten auch gar nicht herauslesen und das hat auch Mark Krymalowski nicht getan. Auch eine von einer Privatperson registrierte Domain kann kommerziell genutzt werden.
- Seite 48: Es sollte heißen: DN werden durch die Registrierungsstelle gegen Gebühr im Zonenfile der jeweiligen TLD eingetragen, wodurch die Unverwechselbarkeit garantiert wird.
- Seite 52: Eine nicht-registrierte Domain ist keine Domain, da sie dann ja im Internet nicht als solche genutzt werden kann. Also müssen Domains immer registriert sein.