17.03.2015 - 21:43

Häufigkeitsgebirge

In diesem ersten Post werde ich ein paar einzelne Aspekt, die die meisten von euch kennen, in Zusammenhang bringen und damit kommende posts zu Häufigkeiten, Sprachanalyse und Anwendungen im SEO-Bereich vorbereiten. Außerdem ist es für mich eine gute Gelegenheit meine Gedanken mal zu ordnen, zu dokumentieren und (hoffentlich) mit euch zu diskutieren.

Insgesamt schreibe ich hier zu Relevanz von Texten und wie die Relevanz durch Struktur verbessert werden kann. Die ersten 15 Minuten sind rum und ich denke immer noch darüber nach, wie ich am besten anfange ... ich tippe einfach mal, vielleicht ordnet sich das ganze dann später.

Strukturreform

Themenhirarchie

Beobachtung

Wenn ich so durch die Bloglandschaft surfe finde ich nicht selten folgende Ordnerstrukturen

  • sld.tld/inhalt/
  • sld.tld/2013/05/15/inhalt/

Auf der einen Seite werden alle Inhalte auf der ersten Ebene abgelegt, in dem zweiten Beispiel belässt man es so oder so ähnlich bei Standardeinstellungen des Systems und die Inhalte landen auf einer Unterbene. Beides halte ich nicht für sinnvoll.

Los geht's

Onpage rockt! WDF*IDF ist in aller Munde und mit Hilfe verschiedener Tools werden die Inhalte einzelner Dokumente getrimmt. Dabei werden einzelne Dokumente mit anderen einzelnen Dokumenten verglichen und angepasst ohne dabei aber  seine gesamte Website im Blick zu haben. Ich will es hier nur in aller Kürze ins Gedächtnis rufen, da Karl ja selbst oft genug darauf hingewiesen hat, dass man bei Anwendung der Zauberformel den gesamten Textkorpus berücksichtigen sollte.

Was ist der Textkorpus?

Kurz gesagt sind dies alle Dokumente die unterhalb der Einstiegsseite liegen – also der ersten Ebene. Um die Relevanz einer Startseite zu bewerten, müssen also alle Dokumente, die unter dieser url zu finden sind mit in die Berechnung einbezogen werden. Bei einer News-Seite, die zu vielen verschiedenen Themengebieten Inhalte publiziert, steht die Startseite thematisch für nichts spezifisches.

Wenn man die Startseite als Punkt versteht, alle behandelten Themen kreisrund darum anordnet und alle Themengebiete gleichstark berücksichtigt wurden, so wäre die thematische Ausrichtung der Startseite ein Kreis (Vgl. die unheimlich professionelle Grafik rechts oben).

Es scheint also sinnvoll die Inhalte der Newsseite in vorher gut recherchierte Kategorien einzuordnen:

  • sld.tld/kredit/inhalt/
  • sld.tld/versicherung/inhalt/
  • usw.

Ergebnis: für die Startseite werden immer noch alle Dokumente für die thematische Zuordnung herangezogen, ABER auf der nächsten Ordner-Ebene eben nur noch die Inhalte, die in der jeweiligen Kategorie zu finden sind. D.h. die thematische Zuordnung von /kredit/ wird nur noch von den Dokumenten bestimmt, die Unterhalb dieser Ebene liegen – sie sind eine Teilmenge von /kredit/.

1. Annahme

  1. Website-Strukturen lassen sich inhaltlich „aufladen“
  2. Inhaltlich „aufgeladene“ Bereiche vererben ihren inhaltlichen Status

Beispiele zu den Annahmen

expired domains

Es wird wohl niemand bestreiten wollen, dass es auf einer expired Domain für medizinsiche Kongresse eher schwierig ist, eine gut funktionierende Kreditseite zu etablieren – die Domain ist inhaltlich einfach gebranded.

EMD

Die funktionieren immer noch sehr gut, wenn man sich dem Thema des exakten Keywords auch annimmt. Und umso besser, wenn man das inhaltliche Profil der EMD nicht durch zu viel anderweitige Inhalte verwässert. Euch ist in diesem Zusammenhang sicher aufgefallen, das die häufig zitierten Website-Beispiele für „linkless outranking“ nur aus einer Seite bestehen (ggf. noch ein Impressum)? Richtig: der gesamte Textkorpus besteht demnach aus einem Dokument, welches die Startseite inhaltlich auflädt – die Startseite ist entgegen der Newsseite also kein thematischer Kreis sondern hat einen klaren Ausschlag in eine Richtung.

Siloing

Inhaltliche Silos die man in der Websitearchitektur abbildet haben Vorteile im Ranking (Vgl. u.a. die Erklärung). Wie ich auch zu Campixx 2013 u.a. in einem Vortrag gehört habe, ist es sinnvoller interne Links bestenfalls nur innerhalb des Silos zu setzen und nicht quer durch alle Themen. Bestätigt nur die oben bereits getätigte Aussage: alle Dokumente innerhalb des Silo definieren das Silo selbst und laden es inhaltlich auf – thematisch relevante links können sich also auch nur innerhalb dessen setzen lassen.

Erfahrungen aus der Bildersuche

Wie Martin Mißfeldt in seinem Blog schon berichtet hat, ist der Bildordner ein Rankingfaktor – das Bild rose.jpg im Ordner /medizintechnik/ hat wohl schlechtere Chancen auf eine gute Positionierung im Bereich „Blumen“ als im Ordner /blumen/. Das Beispiel soll nur zeigen, das es nicht allein darum geht ein keyword in der Ordnerstruktur mit unterzubringen, sondern das es einen semantischen Sinnzusammenhang gibt/verstärkt geben wird.

Das gleiche gilt für die Ordnerstrukturen der Websites: ein Text zu „Rosen“ wird unter sld.tld/kredit/rosen/ schlechtere Chancen haben als unter sld.tld/blumen/rosen/

Ich bin der Ansicht, das es wichtiger ist, semantisch passende, übergeordnete Kategoriebezeichnungen für die Inhalte zu finden, als stumpf Keywords unterzubringen (Bsp.: sld.tld/kredit/ohne/schufa/). Das ist umso wichtiger wenn man nicht mit einer Keyworddomain sondern mit einem freien Markenbgriff startet, denn diesen Kunstbegriff muss man inhaltlich auch erstmal „branden“ und damit in einem Themengebiet platzieren.

Zurück zum Anfang

Ich hatte geschrieben, dass ich es nicht für sinnvoll halte, alle Inhalte auf die erste Ebene zu bringen. Hintergrund ist, dass websites wachsen und sich entwickeln. Was mal als Nischen-SEO-Blog angefangen hat, beschäftigt sich heute mit Affiliate-Themen, Webtechnologie, Texten etc.. Also an sich sehr verschiedene Bereiche, die den gewählten Markenbegriff in der url zum thematischen Kreis machen. Die Startseite rankt womöglich zu SEO, da sich "SEO" als Thema genau durch diese Vielfältigkeit definiert, aber der Affiliate Beitrag rankt nicht so gut im Affiliate-Bereich, da die anderen Inhalte das Profil dieses einen posts mit beeinflussen.

Daher ist es auch „nicht optimal“ in einer größeren Websitestruktur mit Hilfe eines Tools nur ein einzelnes Dokument zu bearbeiten, da durch diese Änderung der gesamte Textkorpus aller Dokumente in dieser Ebene beeinflusst wird. Schlimmstenfalls reißt man mit dem Hintern ein, was man vorne gerade optimiert hat. Das fällt bei Nischen-Seiten natürlich weniger auf, aber wenn es wieder alle machen ... so wie ich bei Facebook gelesen habe, wird Karl demnächst auch was zu Sitewide-Termgewichtungsanalyse veröffentlichen. Da bin ich wirklich gespannt!

Jetzt geht's ans Eingemachte ...

Wer bis hierher noch irgendwie mit meiner Meinung mitgehen kann, sollte weiterlesen. Alle anderen bitte direkt zu den Kommentaren oder mir per Mail schreiben, wo meine Denkfehler sind.

Hintergund

Die theoretische Basis der Analysen hatte ich letztens bei eisy beschrieben. Spannenderweise habe ich jetzt jemanden gefunden, der aus einem ganz anderen Bereich kommt, aber in die gleiche Richtung denkt – somit ist das Projekt um 100% gewachsen (Mirko Kämpf, Gordon Böhme).

Term-Vektoren

Term-Vektoren
Term-Vektoren

Ich habe ja viel über Häufigkeitsgebirge geredet, aber als einzelner Faktor zur thematischen Bestimmung und Bewertung taugt der Ansatz nicht – dafür in Kombination und als Kontrollfaktor. Wesentlicher Grund ist, dass einzelne Zeichen zu wenig Trennschärfe bieten. Bei Allgemeinen Texten kommt ein "a" bspw. eben überall vor. Wenn es aber stärker in Richtung Fachsprachen geht, können Häufigkeitsgebirge auf Zeichenbasis eine Aussage liefern.

Ziel

Wir wollen automatisiert große Websitestrukturen messen und bei jedem Dokument eine Aussage treffen, um was es in dem Text geht (Zuordnung zu Thema), ob das Thema in der jetzigen Struktur richtig aufgehoben ist und wo es unserer Meinung nach besser aufgehoben wäre.

Wir gehen davon aus, dass jede Website im Rahmen seines gesamten Textkorpus einem Themenprofil zugeordnet werden kann.
Weiterhin nehmen wir an, dass dieses Themenprofil
    a) für die gesamte website,
    b) für jede website-Ebene,
    c) für jedes einzelne Dokument existiert.

Erste Ergebnisse

Nach ewigen Diskussionen haben wir angefangen unser cluster rechnen zu lassen. Momentan ein Prototyp, der noch viel Handarbeit verlangt, dewegen können wir Analysen nicht auf Knopfdruck raushauen. Aber die ersten Testläufe sind vielversprechend.

Wir haben einfach wahllos Dokumente von wikipedia gegriffen, nach unseren Vorstellungen vermessen und geschaut, ob das Ergebnis mit der menschlichen Zuordnung der wikipedia zu bestimmten Themenfeldern passt.

  1. passt (ja, momentan noch grobe Themengebiete aber wir nähern uns)
  2. es scheint sich zu bestätigen, dass Themen einen "Fingerabdruck" haben

Noch kurz zur Arbeitsweise:

Neben der TF IDF Bewertung werden die Stop-Words rausgerechnet und die bereits gewichteten Terme einer Häufigkeitsanalyse unterzogen. Dabei bekommen Terme, die überall vorkommen, einen geringeren Wert beigemessen als Worte, die unique in einem Themengebiet sind. Daraus ergibt sich dann der Vektor für jeden Term, der anschließend zugeordnet und verglichen werden kann.

Wer es nicht glaubt, testet

Alles kann, nichts muss! Alles was ich hier beschreibe ist wiederum nur ein Faktor, den ich in dieser Funktionsweise einfach mal unterstelle. Die bisherigen Test scheinen die Annahmen aber zu bestätigen – zumindest widerlegen sie sich (noch) nicht.

Wenn man eine Seite optimieren kann, indem man Inhalte sauber strukturiert geht das natürlich auch andersherum: testet ob es klappt, indem ihr eure Inhalte wild durcheinander schiebt :) Und ja, uns ist klar, dass bei wikipedia alle Inhalte auf einer Ebene liegen.

Spannender Live-Test ist diese Seite selbst: unter dem key "häufigkeitsgebirge" rankt diese Seite aktuell auf #2. Es gibt aber weitere Inhalte zu dem keyword, die den Fingerabdruck dieses keyword bestimmen – in diesem Fall recht viel Mathe, dafür unoptimierte Seiten. Ich habe in meinem Text auch einige Trennschärfe durch keywords wie "kredit", "versicherung" und "medizintechnik" geschaffen :) Daher zwei Möglichkeiten:

  1. ich falle im ranking, da mein Text nicht mehr zur thematischen Belastung des Terms passt
  2. ich "brande" den Begriff und die SEO-Tools empfehlen Seiten im ähnlichen Umfeld, doch bitte Worte wie "kredit", "versicherung" und "medizintechnik" einzufügen :D

Im Ernst: ich bin für jeden live-Test dankbar! Ich habe derzeit nicht die Kapazität einen richtigen Test zu fahren. Jeder der hier belastbare Aussagen treffen kann, kann sich gern an mich wenden und ich werde seinen Text gern veröffentlichen.

Wir bauen weiter und testen. Wenn es was neues gibt, dann schreibe ich es hier.

Vielen Dank für's lesen! Jetzt seid ihr dran: Anmerkungen, Kritik ... .

Autor:  (info@gorbo.de)
Tags: häufigkeitsgebirge
comments powered by Disqus

Zurück

Online-Marketing aus Halle: gorboMEDIEN

Sie haben Fragen?

Ich helfe gerne weiter!

Tel.: 0345/135 05 210

Anzeigen SEO-Campixx Week 2016 IT-Haftpflichtversicherung

Online-Marketing News

  • Kostenlose Analysen & Trends.
  • Keine Daten an Dritte.
  • Abmeldung jederzeit möglich.

Kategorien

RSS Feed abonnieren

HINWEIS: Links auf externe Seiten sind sog. Affiliate-Links durch die eine indirekte Vergütung entstehen kann.