Tobias Schwarz über Indexierung, Snipets, href-lang, externe Links #SEODRIVEN #076

By | September 1, 2019


So Freunde, willkommen bei SEO-Driven ihr
schaut, ich glaube, die 76-te Folge, so ein bisschen bin ich durcheinander gekommen wegen den Feiertagen, aber das spielt gar nichts zur Sache, denn neben mir sitzt wieder der
Tobias von Audisto. Audisto ist das Toll für die großen Onpage
Crawls und wir werden heute mal einsteigen in die inhaltliche Optimierung und was man
da eigentlich alles beachten sollte, wenn man so diesen Hausputz gemacht hat. Ja wir haben gestern ja schon über den technischen Hausputz sozusagen gesprochen, was man so an Fehlern: die ganzen Redirects, 404 Seiten, kaputte Links, natürlich die Performance- Themen, wenn man das so ein bisschen aufgeräumt hat, was ja Basis-Set ist, dann hat man ja die meisten Hebel eigentlich in der inhaltlichen Optimierung. Genau. Und die Grundvoraussetzung damit man mit dem Inhalt rankt ist natürlich, dass der überhaupt erstmal crawlbar und indexierbar ist, das
heißt man sollte sich wirklich anschauen: ist irgendwas gesperrt in der Robots Txt? Ist was nicht crawlbar, weil es nofollow verlinkt ist? Ist es nicht indexierbar, weil es per no-Index
verlinkt ist, augezeichnet ist? Oder hab ich vielleicht ein Canonical Verweis auf eine andere Seite? Und dadurch wird natürlich nur die Innere Seite entsprechend ranken. Nofollow interne nofollow Verlinkung ist ganz großer Blödsinn, das war ja super on vogue sozusagen den Linkjuice zu … Da gibt es
einen schönen Artikel von Matt Cutts dazu aus dem Jahr 2009, und da erklärt er das
nochmal. PageRank ist grad das Ding, und damals sagte er schon: More than a year ago Google changed the behaviour…. Und sagt ganz klar, dass interne nofollow
Links invalidiert sind unter eigenem internen Juice, und das ist oft besser diese Zielseiten crawlen zu lassen. Und dann verteilt sich ja von dieser Zielseite der PageRank weiter innerhalb der internen Seitenstruktur. Also wer das heute macht, der hat seit 2008 seine Hausaufgaben nicht gemacht. Sieht man leider immer noch erschreckend häufig. Und gerade sowas wie ein Impressum, was ja dann oft und gerne sozusagen… Ja wobei sich das auch bisschen relativiert. Früher hat Google garantiert die ganzen PageRankings gleich gewichtet, also alle Links innerhalb einer Seite, inzwischen sind sie in der
Lage das zu ändern und es geht alles in die Richtung Nutzer verstehen, Nutzer Interaktion, also es würde mich sehr wundern, wenn Google es immer noch so macht. Warum sollte ich ein Link auf ein großes
Bild nicht wichtiger finden, als ein Link auf ein kleines Bild. Ein Link im Header ist wichtiger als ein Link im Footer. Oder vereinfacht gesagt: was benutzt wird ist wichtiger, als was nicht benutzt wird. Google hat da, glaube ich, genug Daten für
und mathematische Modelle, um da inzwischen besser zu sein. So gesehen, sieht man in der Regel kaum Auswirkung, wenn man jetzt so Footer-Links wie Impressum anfängt zusammen zu legen. Das ist verschwendete Zeit. Nichts desto trotz gibt es da genug Baustellen, wo man Links, die einfach nicht verwendet werden, umbauen kann. Ok. Und würdest du sagen, dass so ein Impressum eine gute Link-Quelle ist für Internen Link? Nicht wirklich, weil das ist kein Weg den
ein Nutzer benutzt, das heißt du machst dir da künstlich deine ganze Struktur schön. Aber das sieht man ja doch dann jetzt, die
anderen sozusagen, die jetzt nicht bei PageRanks auf die unter anderem gegen das Impressum gemacht haben, die packen da jetzt schön ihre Money Links rein und die Top-Produkte
und die Top-Kategorien im Impressum und in den AGB´s, wo man sich dann manchmal fragt: Ok wie soll das dem Nutzer eigentlich weiter helfen? Genau. Aber von der inhaltlichen Geschichte, darüber wollten wir eigentlich reden, die wirklichen wichtigen Sachen sind ja sowas wie Snipets und das ist schon, wo viele Seiten massive Defizite haben. Wann immer ich ein Snipet habe was zu lang ist, oder nicht existent muss ja Google ein eigenes generieren. Ja. Und mit so einem Crawl kann man natürlich schön alle Seiten finden, wo Snipets nicht optimal ist. Wo es zu lang ist, zu kurz ist, oder auch
Duplikate kann man einfach finden. Man extrahiert einfach alle Seiten, bildet
Hashwerte darüber und kann dann aufzeigen wo man doppelte Titel hat, doppelte Meta Descriptions oder der allerschlimmste Fall wo der komplette Body zu 100% übereinstimmt. Gerade bei großen Seiten sind das die Dinge, wo das Crawlbudget verschwendet wird. So große Shops haben oft Milliarden von URL´s rein
rechnerisch, auch fatal, Google ist dann bereit davon paar Millionen zu crawlen und der wirkliche Hebel ist, diese Duplikate zu reduzieren. Und Google damit an den Punkt zu kriegen,
wo andere Inhalte gecrawlt werden die bisher gar nicht erfasst wurden. Und die vielleicht viel wichtiger sind. Genau. Das war das Duplikate-Content-Thema, dann Bilder ohne Alt-Tags ist ja auch ein Klassiker. Genau. Ganz viele Seiten haben keinerlei Ahnung,
was sie da für Bilder überhaupt online haben. Besonders schlimm ist es immer bei Foren,
wo man viel User-generated content hat, Nutzer schreiben einen Text dann laden sie ein Bild hoch und das Bild heißt so wie es von der Camera kommt Dsc mit irgeneiner Nummer, keine weitere Information und man kann natürlich alle diese Bilder finden, wo es entsprechend kein Alt-Tags gibt oder man könnte auch alle Bilder finden, wo es Default-Alt-Tags gesetzt ist und heute gibt es ganz schöne Mechanismen, es gibt neuronale Netze, es wurde gerade das Inception 3 vorgestellt, es ist auf Basis von dem Google-TensorFlow basiert, das neuronale Netz ist google-trainiert, damit kann ich Inhalte in Bildern erkennen und kann dann
z.B. sagen: ahh hier seh ich ein Auto, hier seh ich ein Pandabären oder alles mögliche, oder ein Pinguin. Ist nicht so schwierig mehr und sowas kann man natürlich machen, kann man ein Gefühl dafür entwickeln was man überhaupt für
Bilder auf so einer Seite hat. Und kann die dann vielleicht auch nachträglich automatisiert auszeichnen. Obwohl man bis jetzt nichts über diese Bilder weiß. Also das ist dann tatsächlich mal ein sinnvoller Einsatz von dem ganzen Machine-Learning-Thema für SEO? Genau. Facebook macht das z. B. machst mal die Developer-Tools im Chrome auf und schaust bei einem Bild, und da auf den alt-Tags und da zeigt dir Facebook entsprechend an, was sie auf diesem Bild erkannt haben. Dieses Bild zeigt wahrscheinlich Personen,
Auto, Garten solche Dinge. Ok, cool. Was hatten wir noch auf der Agenda? Sprachen sind natürlich meistens ein riesen Sch***. Oh ja gerade bei mehrsprachigen Shops. Es ist wirklich ein sehr komplexes Thema,
allein die Sprachauszeichnung bei Webseiten schon an unterschiedlichsten Stellen optimieren und es gibt ganz viele Webseiten, die einfach
schlechte, falsche Guides kopiert haben, z. B. Metanaimed Language, gibt es nicht, gab es nie und wird es nie geben. Wurde einfach falsch aus irgendwelchen Guides kopiert. Die beste Auszeichnung ist es, wenn man es oben am html direkt auszeichnet. Und wenn man eine mehrsprachige Seite hat und in mehreren Ländern ranken soll, dann muss man href-lang verwenden, damit für die Suchmaschine klar wird, welches die regionalisierte Variante ist. Und jetzt wird es sehr schwierig, weil jede
Seite dieser Sprachgruppe muss auf jede andere Seite verweisen. Die erstmal kennen auch. Genau. Die Seitensprache sollte zu der Auszeichnungssprache passen. Jede Seite muss auf sich selber verlinken
und die Auszeichnung kann an drei verschiedenen Stellen passieren: entweder im html, http-
Header oder in der Subline. Und das sollte alles konsistent zusammenpassen und was wir ganz häufig sehen ist, dass gerade bei so Shops, dass es paar metrisierte URL´s gibt
z.B. mit Tracking-Parametern, wo dann diese Auszeichnung nicht korrekt ist. Die linken aber von Außen in diese eigentlich href-lang- Gruppe ein und machen die dann kaputt. Wir haben einen Kunden der hat uns dieses href-lang Feature gezahlt, weil er massiv Probleme mit href-lang hat und alle Tools
die man angeworfen hat, nur eine URL eingegeben, haben von dort aus die href-lang Verweise
gecrawlt und die Rückverweise haben immer gesagt: alles ok, alles grün. Und in der Search Konsole sind die Fehler
durch die Decke gegangen. Man hat einfach diese Seiten, die von Außen da reingingen nicht
finden konnte. Diese Probleme kann man mit einem Crawl erfassen. Ja krass. Also oft Probleme von, die man gar nicht erahnen kann. Gerade so Affiliate Manager usw. oder andere Performance-Marketing-Kanäle, die sind natürlich immer auf das Tracking angewiesen und wollen dann gar nichts böses tun, machen es aber kaputt. Genau. Ja externe Links, Safe Browsing stehen noch auf unserer Agenda hier. Das sehen wir auch immer wieder, gerade bei Verlagen. Es gab einen Verlag, wo wir drüber gecrawlt haben und komische Links gefunden, und dann hat man sich diese angeschaut, das waren offensichtlich verkaufte Links und dann ist man losgegangen und hat Redakteure zur Rede gestellt, da Verkauf machen wir ja als Verlag nicht und die Redakteure waren aber alle so drauf, dass sie gesagt
haben: Ne, ich hab diese Links nicht verkauft, ich schreib meine Artikel immer in Word vor und dann kopiere ich das da rein. Und dann hat er Word Dokumente aufgemacht, wo man genau sehen konnte welche Links da eingebaut waren. Ja nachdem du das von 3 Redakteuren zuhören bekommen hast, musst du dich dann fragen, wie die dann sonst da reingekommen sein könnten. Es waren gehackte Systeme. Und Ergebnis war, dass man in der großen
Redaktion über 50000 Jungs 2 Wochen lang auf Plausibilität gelesen wurden. Wir reden nicht von, dass das alles korrekt
ist, sondern einfach nur: ist das was wir da online haben, könnte das denn passen? Ganz klar: Man sollte ein Publishing-Prozess aufziehen, wo man möglichst in einem internen System diese ganzen Inhalte verwaltet und
die dann nach Außen publiziert. Bezüglich Safe Browsing API, mit so einem Crawl kann ich natürlich alle Links finden, wo ich nach Extern rauslinke. Und es gibt von Google diese Safe Browsing API Call, die der Browser eben verwendet um zu prüfen ob Seiten sicher sind. Dagegen sollte ich doch alle meine externen Links laufen lassen. Inzwischen sind da sehr viele Malware Seiten unterwegs, dass da der Browser gehackt ist der Hinweis, Genau. Wenn dieser Anteil klein ist, Malicious Seiten dann kriegst du vielleicht in der Search-Konsole eine Notice, wenn das aber gewisse Schwellenwerte überschreitet, dann kann es auch sein, dass Google deine komplette Domain für unsicher hält. Und das ist der Supergau, weil dann landest du selbst in dieser API. Ja.
gut, das ist nicht spaßig. Genau. Auch definitiv worüber man die Kontrolle
aufbauen sollte, wie sorge ich dafür, dass meine Inhalte unveränderlich sind? Wie kontrolliere ich, worauf ich nach draußen ranke? Und da kann man ja bei euch vielleicht mit
der API kombinieren. Genau. Wir haben komplette API´s, man sich da alles rausziehen. Viele Firmen haben das einfach inzwischen
selber gebaut, um selbst ihre eigenen Links aus den externen Sachen zu prüfen. Ich hätte jetzt gedacht, dass irgendein Webadmin da sich ein kleines Freelancer Geschäft aufgebaut hat, das gab es ja auch schon mal. Solche Sachen gibt es bestimmt auch. Dann haben wir das Thema soweit durch. Wunderbar. Morgen geht es weiter, dann mit den ganzen Strukturthemen, das ist auch nochmal richtig spannend, weil da kann man natürlich, gerade bei großen Seiten und gerade bei redaktionellen Seiten, die täglich ganz viel Content produzieren, richtig viel heben. Also bleibt dran, wir sehen uns morgen wieder. Bis dann. Ciao, Ciao.

Leave a Reply

Your email address will not be published. Required fields are marked *