Gedanken zu SEO, Stichwort: Doppelter Content

Ein CMSimple Support Forum für deutsch sprechende Nutzer und Entwickler
Holger
Site Admin
Posts: 3242
Joined: Mon May 19, 2008 7:10 pm
Location: Hessen, Germany
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by Holger » Tue Mar 08, 2016 10:58 pm

Hallo,
olape wrote:Ich denke auch, das mit dem Festlegen ob www. oder nicht, http oder https und ohne index.php der grösste Teil abgedeckt ist.
Ja, sehe ich auch so.
olape wrote:Aber:
Der theoretisch mögliche Fall eines "normalen" Seitenaufruf mittels "?selected=Seite" kommt doch in der Praxis überhaupt nicht vor, oder?
Hm, ... wie wahrscheinlich das ist, kann ich nicht beantworten.
Aber das es funktioniert ist eben, in diesem Bezug jedenfalls, schlecht.
Damit ein Robot dem Link folgen kann, muss er ja irgendwie in den Quelltext der Seite kommen. Ich wüsste jetzt nicht, wodurch ein Link mit "selected=Seite" unbeabsichtigt auf die Seite kommen sollte. Wenn, dann mit Absicht durch zum Beispiel ein Plugin. Und in dem Fall muss im Zweifel das Plugin dafür sorgen, dass kein DC durch seine Ausgaben erzeugt wird.
Insgesamt scheint mir das mehr als unwahrscheinlich zu sein.
olape wrote:Es funktioniert übrigens mit jedem erfundenen Parameter und man landet immer auf der Startseite.
Das stimmt nicht ganz. Wenn ich einer beliebigen URL einen Fantasie-Parameter mitgebe, wird die Seite den Parameter ignorieren, wenn sie mit ihm nichts anfangen kann. Deshalb landet man aber nicht immer auf der Startseite, sondern man bleibt auf der aufgerufenen Seite - die auch eine beliebige Unterseite sein kann. Das Verhalten ist doch völlig normal und überall im Web so :? .
Wie dem auch sei. Auch hier gilt IMO: wie sollte der ungültige Link überhaupt auf die Seite kommen, damit ein Bot ihm folgen könnte?
olape wrote:Also, wenn ich mir den Quelltext der Druckansicht ansehe, dann gibt es dort aber, glaube ich ein noindex.
Stimmt. Der Quelltext der Druckansicht enthält

Code: Select all

<meta name="robots" content="noindex">
Damit ist das Problem eigentlich auch gelöst.

Noch besser wäre aber, wenn der Link, der die Druckansicht aufruft ( durch function printlink() ), ein rel=nofollow enthalten würde, damit ein Bot dem Link erst überhaupt nicht folgt.
Bisher ist das im Core aber noch nicht enthalten, was sich aber leicht ändern lässt.

LG
Holger

olape
Posts: 1642
Joined: Fri Mar 13, 2015 8:47 am
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by olape » Wed Mar 09, 2016 6:47 am

Hallo,
Ich wüsste jetzt nicht, wodurch ein Link mit "selected=Seite" unbeabsichtigt auf die Seite kommen sollte.
Reine Theorie, ich weiss.

Man könnte bösartig sein und solche Links zu einer Seite erstellen.
- Weil man einen Konkurrenten im Ranking abwerten möchte.
- Weil ....
- Einfach weil man es schön findet, anderen Schwierigkeiten zu machen.


Such dir etwas aus! Leider ist gerade Letzteres im Netz Realität.

Aber, es hat ja auch einen Grund, warum diese Möglichkeit überhaupt geschaffen wurde.
Also besteht natürlich auch die Möglichkeit, dass diese Links in Umlauf kommen.
Noch besser wäre aber, wenn der Link, der die Druckansicht aufruft ( durch function printlink() ), ein rel=nofollow enthalten würde
Stimmt, aber weil ich das so nicht nutze, ist es mir auch nicht aufgefallen. Bei mir gibt es das nofollow schon.

cmb
Posts: 13534
Joined: Tue Jun 21, 2011 11:04 am
Location: Mü-Sa, RLP, DE
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by cmb » Wed Mar 09, 2016 8:37 am

Holger wrote:Noch besser wäre aber, wenn der Link, der die Druckansicht aufruft ( durch function printlink() ), ein rel=nofollow enthalten würde, damit ein Bot dem Link erst überhaupt nicht folgt.
Soweit ich weiß, bewirkt rel=nofollow nicht, dass der Bot dem Link nicht folgt, sondern nur, dass der Link für das Ranking keine Auswirkung hat. Ein typischer Einsatzfall für dieses Attribut sind Links in User-Kommentaren, damit Spam weniger negative Auswirkungen hat.
olape wrote:Christoph hatte einen Lösungsansatz gepostet, mit einer Art Blacklist. Jedenfalls habe ich es so verstanden.
Ich finde, man müsste es genau andersherum machen, eine Whitelist.
Alles was nicht auf der Liste ist, bekommt einen Kanonischen Link.
Bei meiner "Lösung" handelt es sich tatsächlich um eine Blacklist. Allerdings wird der kanonische Link immer erzeugt; die Blacklist filtert nur nicht erwünschte Query-Parameter aus. Eine Whitelist wäre (wie meist) besser, allerdings riskant, weil u.U. relevante Parameter vergessen werden, und diese dann plötzlich nicht mehr da sind. Vielleicht liege ich da aber mit meiner Einschätzung falsch, dass identische kanonische Links, die völlig unterschiedliche Inhalte kennzeichnen, letztlich schlimmer sind, als DC.
Holger wrote:Auch hier gilt IMO: wie sollte der ungültige Link überhaupt auf die Seite kommen, damit ein Bot ihm folgen könnte?
Es geht ja nicht unbedingt darum, dass ein solcher Link mit `selected` auf der eigenen Website zu finden ist, sondern auch, dass er irgendwo extern gefunden werden kann. Typisches Beispiel wäre eine spezielle Frontend-Suchfunktion, die ein GET-Formular und den `selected` Parameter nutzt (macht Realblog_XH z.B. so). Der Ergebnis-URI könnte dann von einem Anwender irgendwo im Web veröffentlicht werden, und schon hat man DC.
Holger wrote:Wenn ich einer beliebigen URL einen Fantasie-Parameter mitgebe, wird die Seite den Parameter ignorieren, wenn sie mit ihm nichts anfangen kann. Deshalb landet man aber nicht immer auf der Startseite, sondern man bleibt auf der aufgerufenen Seite - die auch eine beliebige Unterseite sein kann. Das Verhalten ist doch völlig normal und überall im Web so :? .
Ja, das Verhalten ist überall so. Trotzdem schadet es sicher nicht, wenn dann ein korrekter kanonischer Link ausgegeben wird, der die Fantasie-Parameter nicht enthält. Ich könnte mir vorstellen, dass kanonische Links nicht nur für Suchmaschinen relevant sind, sondern auch für andere Zwecke, z.B. Bookmarks, interessant sein könnten. Ich meine mich zu erinnern, dass z.B. Facebook-Likes einen kanonischen Link bevorzugen, wenn vorhanden.
Christoph M. Becker – Plugins for CMSimple_XH

olape
Posts: 1642
Joined: Fri Mar 13, 2015 8:47 am
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by olape » Wed Mar 09, 2016 8:51 am

Hallo,
...
Mithilfe von "nofollow" können Webmaster Suchmaschinen die Anweisung erteilen, einzelne oder alle Links auf einer Seite nicht zu verfolgen.
...
Wie behandelt Google mit "nofollow" gekennzeichnete Links?
Im Allgemeinen folgen wir diesen nicht.
...
https://support.google.com/webmasters/a ... 6569?hl=de

cmb
Posts: 13534
Joined: Tue Jun 21, 2011 11:04 am
Location: Mü-Sa, RLP, DE
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by cmb » Wed Mar 09, 2016 9:16 am

olape wrote:
...
Mithilfe von "nofollow" können Webmaster Suchmaschinen die Anweisung erteilen, einzelne oder alle Links auf einer Seite nicht zu verfolgen.
...
Wie behandelt Google mit "nofollow" gekennzeichnete Links?
Im Allgemeinen folgen wir diesen nicht.
...
https://support.google.com/webmasters/a ... 6569?hl=de
Und weiter steht da:
[…] Das bedeutet, dass von Google über diese Links kein PageRank und kein Ankertext übermittelt wird. Bei Verwendung von nofollow werden die Ziellinks also nicht für unsere Gesamtdarstellung des Webs berücksichtigt. Die Zielseiten können jedoch dennoch in unserem Index enthalten sein, wenn von anderen Websites ohne nofollowauf diese Seiten verwiesen wird […]
Christoph M. Becker – Plugins for CMSimple_XH

olape
Posts: 1642
Joined: Fri Mar 13, 2015 8:47 am
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by olape » Wed Mar 09, 2016 10:08 am

Und weiter steht da:
genau, aber es ging mir nur um die Aussage:
Soweit ich weiß, bewirkt rel=nofollow nicht, dass der Bot dem Link nicht folgt,
Und speziell ging es ja erst mal nur um den (einen) Link zur Druckversion.
Das heisst, wenn nofollow gesetzt ist, folgt der Bot diesem auch nicht.

Unabhängig davon kann es natürlich sein, dass eine solche Seite (jetzt vielleicht nicht unbedingt die Druckversion, mehr generell) von irgendwo anders verlinkt ist, ohne nofollw.
Deshalb ist das noindex in der Druckversion auch gut und wichtig.

Ich bin der Meinung, nofollow und noindex sollten sein und wer will soll auch noch den Kanonischen Link reinsetzen.
Schaden tut das auf keinen Fall.

olape
Posts: 1642
Joined: Fri Mar 13, 2015 8:47 am
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by olape » Wed Mar 09, 2016 11:45 am

Vielleicht liege ich da aber mit meiner Einschätzung falsch, dass identische kanonische Links, die völlig unterschiedliche Inhalte kennzeichnen, letztlich schlimmer sind, als DC.
Nein, ich denke damit liegst du sogar mehr als richtig.
Das zumindest ist auch meine Meinung.
Eine Whitelist wäre (wie meist) besser, allerdings riskant, weil u.U. relevante Parameter vergessen werden, und diese dann plötzlich nicht mehr da sind.
Vielleicht könnte man es mit der Whitelist auf ähnlichem Weg lösen, wie mit dem gemeinsamen Stylesheet der Plugins.
Jedes Plugin ist selbst dafür verantwortlich, die entspechenden Parameter, wenn benötigt, bekannt zu geben und diese werden dann zentral in die Whitelist aufgenommen.

Holger
Site Admin
Posts: 3242
Joined: Mon May 19, 2008 7:10 pm
Location: Hessen, Germany
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by Holger » Wed Mar 09, 2016 12:18 pm

cmb wrote:Vielleicht liege ich da aber mit meiner Einschätzung falsch, dass identische kanonische Links, die völlig unterschiedliche Inhalte kennzeichnen, letztlich schlimmer sind, als DC.
Das finde ich auch und ich wehre mich dagegen, haufenweise kanonische Links auszugeben, wenn die Seite doch in der Praxis kein DC mehr erzeugt.
cmb wrote:Typisches Beispiel wäre eine spezielle Frontend-Suchfunktion, die ein GET-Formular und den `selected` Parameter nutzt (macht Realblog_XH z.B. so). Der Ergebnis-URI könnte dann von einem Anwender irgendwo im Web veröffentlicht werden, und schon hat man DC.
Warum ist ?selected=Seite&page=1 und ?selected=Seite&page=2 und ?selected=Seite&page=3 DC?
Für mich sind das unterschiedliche Seiten. Und ein kanonischer Link, einfach zur Seite ohne Parameter, ist doch realistisch gesehen falsch.

Der einzige Fall, in dem hierbei DC erzeugt wird, wäre ?selected=Seite - ohne weitere Parameter.
Nun könnte man bei jedem Request prüfen, ob selected im Query-String enthalten ist und einen kanonischen Link setzen, wenn sonst kein weiterer Parameter angegeben ist. Da der Fall aber IMO genau so unwahrscheinlich ist wie haufenweise Links aus dem Web zur eigenen Seite mit Fantasie-Parametern, würde ich das fast vernachlässigen. Schließlich muss die Prüfung bei jedem Seitenrequest erfolgen - auch wenn sie nur wenig Performance kostet. Als optionales Feature wäre vielleicht ein Kompromiss.
olape wrote:Vielleicht könnte man es mit der Whitelist auf ähnlichem Weg lösen, wie mit dem gemeinsamen Stylesheet der Plugins.
Jedes Plugin ist selbst dafür verantwortlich, die entspechenden Parameter, wenn benötigt, bekannt zu geben und diese werden dann zentral in die Whitelist aufgenommen.
Dazu müsste es eine angepasste Plugin-API geben, sonst endet das im Chaos.

Aber, mal ehrlich, geht eine Whitelist nicht etwas zu weit, wenn es lediglich zur Vermeidung von DC geht. DC wird schon seit langer Zeit von google geächtet. Komisch, dass CMSimple_(XH) - Seiten trotzdem noch (oder sogar ganz gut) im Index stehen.

Ein Plugin hingegen sollte schon aus Sicherheitsgründen seine Request-Parameter filtern und auf erlaubte Werte prüfen. Das ist aber eine ganz andere Geschichte und liegt beim Plugin selbst...

Holger
Site Admin
Posts: 3242
Joined: Mon May 19, 2008 7:10 pm
Location: Hessen, Germany
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by Holger » Wed Mar 09, 2016 12:22 pm

P.S.:
Holger wrote:Der einzige Fall, in dem hierbei DC erzeugt wird, wäre ?selected=Seite - ohne weitere Parameter.
Nun könnte man bei jedem Request prüfen, ob selected im Query-String enthalten ist und einen kanonischen Link setzen, wenn sonst kein weiterer Parameter angegeben ist.
Oder in dem Fall gleich eine 301-Umleitung machen. Das scheint mir der bessere Weg zu sein, oder?

olape
Posts: 1642
Joined: Fri Mar 13, 2015 8:47 am
Contact:

Re: Gedanken zu SEO, Stichwort: Doppelter Content

Post by olape » Wed Mar 09, 2016 1:02 pm

Warum ist ?selected=Seite&page=1 und ?selected=Seite&page=2 und ?selected=Seite&page=3 DC?
Ich verstehe es eher so, das z.B. ?selected=Seite&page=1 und ?Seite&page=1 DC sind.

Christoph hatte mir dazu mal geschreiben:
selected ... weil es vorher nicht möglich war
GET-Formulare zu verwenden, die auf die aktuelle Seite verweisen.
Ob nun aber ?Seite&page=1 in diesen Fällen überhaupt funktionieren würde, dass weiss ich nicht.
Wenn es selected aber nur aus dem oben aufgeführten Grund gibt, dann gehe ich davon aus, es würde auf normalem Weg auch ohne funktionieren.
Und wenn das so wäre, dann wäre es DC.

Post Reply