Duplicate Content? Na und, siehe Academic.ru vs. Wikipedia

Duplicate Content? Na und, siehe Academic.ru vs. Wikipedia

Academic.ru
Academic.ru

Wer sich bei Sistrix mal die Top100 Bilder-Domains mit Universal-Search Integration anschaut, entdeckt an zweiter Stelle „academic.ru„. Mit ca. 17.000 Bild-Integrationen rangiert die Seite deutlich vor Wikipedia mit ca. 10.000 Integrationen (Rang 4). Academic.ru hat einen Toolbar-Pagerank 7 und einen Sistrix-Sichtbarkeitsindex von 4,22. Natürlich hält man die Domain mit dem elitären Namen für eine seriöse Website. Nur, wenn man sich mal die Seiten anschaut, dann wundert man sich doch…

Um es vorweg zu sagen: ich kann im Folgenden nichts „Illegales“ aufdecken (bin ja kein Anwalt). Aber es ist so abgezockt, dass es doch eine Story wert ist. Ich habe es schon vielfach hier im Blog angesprochen – und das Beispiel academic.ru beweist, dass Google sich dringend um die Frage der „Urheberschaft“ von Bildern kümmern sollte.

Zunächst die Sistrix-Verteilung der Top-Bilder-Domains mit Universal-Integration (btw: Danke an Sistrix, dessen Toolbox so übersichtliche Grafiken ermöglicht).

Top-Bilder-Domains DE
Top-Bilder-Domains DE

Man sieht deutlich, in welchem Umfeld sich academic.ru bewegt. Blogspot, WordPress, Wikimedia. Sieht alles sehr seriös aus…

Als nächstes der Sistrix-Screen, mit welchen Top-Keywords academic.ru bei den Bildern vorne mit dabei ist:

Academic.ru - Top-Keywords, bei denen Bilder bei Google angezeigt werden
Academic.ru – Top-Keywords, bei denen Bilder bei Google angezeigt werden

Nehmen wir nun mal als Beispiel „Barack Obama„. Wenn man danach googelt, entdeckt man das betreffende Bild an Position 5 (rot markiert):

Google-Suche nach Barack Obama
Google-Suche nach Barack Obama

Interessant wird die Sache nun, wenn man mal auf das Bild klickt. Dann öffnet sich die Seite von academic.ru, die wie folgt aussieht:

Beispiel-Screen Academic.ru - "Obama"
Beispiel-Screen Academic.ru – „Obama“

So richtig seriös sieht das Ganze nicht unbedingt aus. Damit meine ich nicht die konkrete Werbung, sondern die Tatsache, dass da überhaupt so unverkennbar Werbung platziert ist. Das Verhältnis von Inhalt und Werbung erinnert eher an MFA-Seiten („Made-for-Adsense“).

Aber kann das sein? So ein golden klingender Domain-Name. Ich dachte die ganze Zeit, dahinter verbirgt sich quasi eine Art Enzyklopädie der russischen Wissenschaftswelt oder so. Wenn man auf die Startseite (der deutschen Version de.academic.ru) geht, sieht man, aus welchem beachtlichen Fundus academic.ru sich speist:

DE-academic.ru Startseite
DE-academic.ru Startseite

Wenn man auf die eigentliche Startseite von accademic.ru geht, wird das ganze System noch viel imposanter. In Ermangelung von Russisch-Kenntnissen kann ich die ganzen Lexika und Enzyklopädien nicht weiter prüfen. Aber klar ist: auf jeder Unterseite lachen einen diese freundlichen, aufdringlichen Werbebanner an. Und das sind immerhin mindestens über 3,5 Millionen:

Academic.ru - Sistrix Sichtbarkeitsindex
Academic.ru – Sistrix Sichtbarkeitsindex

Ganz schönes auf und ab. Ist aber auch kein Wunder. Denn wie der geneigte Leser bereits zurecht vermutet, handelt es sich bei dem Content von academic.ru – zumindest was den deutschen Teil betrifft -, ausschließlich um Duplicate-Content, also um komplett kopierte Seiten. Wenn man den oben genannten „Barack Obama“ erneut als Beispiel nimmt, zeigt sich, dass die academic-Seite fast eine 1 zu 1 Kopie der entsprechenden Wikipedia-Seite ist. Nicht ganz, denn während die Wikipedia-Seite gepflegt wird und sich weiterentwickelt, zeigt die academic-Seite nur einen Zustand aus der Vergangenheit.

Nun mag Google ja Duplicate Content eigentlich nicht. Folglich wurde die Seite auch Herbst letzten Jahres abgestraft und hat erheblich an Sichtbarkeit verloren. Allerdings nur bezogen auf die organischen Suchergebnisse. Wenn man sich mal die Entwicklung der Bilder in der Universal-Search anschaut, zeigt sich ein anderes Bild:

Academic-ru: Anzahl der Bildintegrationen, zeitlicher Verlauf
Academic-ru: Anzahl der Bildintegrationen, zeitlicher Verlauf

Da ist nichts von „Abstrafung“ oder dergleichen zu erkennen – das geht einfach nur steil nach oben. Interessant ist nun der Vergleich mit Wikimedia:

Wikimedia-Bilder in der Universal-Search: zeitlicher Verlauf
Wikimedia-Bilder in der Universal-Search: zeitlicher Verlauf

Man sieht deutlich, dass die Anzahl der Bilder nicht wächst, sondern tendenziell eher fällt. Und vermutlich nicht, weil dort keine Bilder mehr hochgeladen werden. Ich wage mal die These, dass die Wikimedia-Kurve so ähnlich wie die oben aussehen würde, wenn es academic.ru nicht gäbe. Kurz: Academic.ru klaut sich einen sher großen Teil des Wikipedia Bildertraffics.

Bilder ziehen auch mit kopierten Inhalten

Fazit: das Ganze ist als „Bilder-System“ sehr clever und im großen Stil aufgezogen. Illegal ist es, glaube ich, nicht: denn die Bilder bei Wikimedia laufen unter Creative Commons Lizenz (inwiefern die Bedingung „Nutzung zu gleichen Bedingungen“  dem entgegen steht, weil auf den academic-Seiten offensichtlich die Gewinnerzielung im Vordergrund steht, vermag ich nicht zu beurteilen). Aber klar ist: Duplicate-Content schadet zwar dem organischen Ranking, aber nicht dem Bilder-Ranking. Das gilt nicht nur für die Bildersuche, sondern auch und insbesondere für die Bilder der Universal-Search.

Update: ich habe jetzt nicht geprüft, wie das bei den anderen Lexika und Wörterbüchern aussieht, die academic.ru ebenfalls komplett kopiert hat. Mir geht es hier in erster Linie und die Bilder.

Aus meiner Sicht ist das Ganze auch ein „Webspam“ Problem, dass Google ja in letzter Zeit massiv bearbeitet. Nur leider vergessen die Google-Ingenieure leider dabei die Bilder bzw. den Bilder-Spam. Google ist endlich gefordert, die Frage der „legitimen“ Urheberschaft zu klären. Wenn jemand bei Wikipedia ein Bild zur Verfügung stellt, dann sicherlich nicht, damit irgendeine andere Website sich das Bild schnappt und monetarisiert. Aber solange das eben geht, wird es auch passieren…

28 Gedanken zu „Duplicate Content? Na und, siehe Academic.ru vs. Wikipedia

  1. Ja, academic.ru ist mir auch schon ab und zu in den Bildersuche-Ergebnissen aufgefallen.

    Habe das nicht weiter beachtet, eben weil es irgendwie seriös klingt und ich die Werbung gar nicht gesehen habe.

    Das große Problem ist, wie Google den Urheber (automatisch) ermitteln könnte. Davon auszugehen, daß der Urheber der ist, wo der Googlebot ein Bild zuerst gesehen hat, wäre nur eine sehr grobe erste Näherung.

  2. Hallo Martin, das ist ein interessantes Thema. Mir ist jedoch aufgefallen dass du wohl in der Eile vergessen hast ein paar Rechtschreibfehler zu entfernen ;-)

    Ich vermute die Bildersuche ist sowieso sehr schwer zu pflegen für Google. Woher soll Google wissen wem ein bestimmtes Bild gehört? Bzw. woher soll das der Algorithmus wissen?

    Gruß, Andy.

  3. @Christian: Danek für die Links. Sehr spannend, habe ich damals verpasst.

    @Schnurpsel: ja, wie Google die Urheber ermitteln könnte, weiß ich auch nicht. Es müsste eine Mischung sein aus Bildgröße, Indexierungsdatum, Copyright-Angabe, Site-Trust etc. Dass man diese Frage nie wirklich befriedigend lösen kann, ist klar. Aber der jetzige Zustand ist doch recht bedenklich. Das provoziert ja quasi zum Bilderklau…

    @Andy: ja, danke und sorry. Ist korrigiert…

  4. Eine interessante Entdeckung Martin! Ich behaupte jetzt mal einfach, dass es sowas wie einen Bilder-Penalty oder Abstrafung außer der Safe-Search nicht gibt.

    So interpretiere ich das zumindest. Duplicate Content kann zwar der Seite schaden, aber nicht den Bilder auf dieser Seite. Diese ranken ja scheinbar sehr gut mit dem DC von Wikipedia.

    So müsste es bei Videos in der Search auch nicht anders zu gehen.

  5. Hi Martin,
    ich finde aber auch spannend mit welchen Themen Du Dich so beschäftigst. Anhand der Werbung auf academic.xx könnte man vermuten:
    1. Du spielst mit dem Gedanken Sistrix gegen Xovi zu tauschen.
    2. Du planst eine Firmenerweiterung (eventuell auf Basis der gesparten Tool Gebühren aus Punkt 1) und beschäftigst Dich mit einem neuen Intranet für Deine zukünftigen Mitarbeiter.

    3. Dein nächstes Projekt ist ein Contentprojekt und Du brauchst redaktionelle Ressourcen. Wobei Du noch nicht sicher bist, ob 9,-€ für ein SEO Text angesetzt werden soll (Du also nen eigenes MFA Projekt bauen willst) oder eher mehr für Qualität zahlen willst.


    Und ich dachte immer die Bildersuche hat Dich in den Bann gezogen ;-)

  6. Nicht desto trotz ist Academic.ru ein seriöses Portal, kein Spammer, und hilft schneller und gezielter, die gesuchten Inhalte aus den vertrauenswürdigen Quellen zu finden. Wir arbeiten mit denen als Werbeagentur schon länger zusammen, ohne Werbung könnten sie kaum überleben. Geld müssen sie ja irgendwie verdienen… ;)

  7. @Mirco: wie das bei den Videos aussieht, habe ich nicht untersucht. Wäre sicherlich auch interessant.

    @Molar: lol. Verstehe das zwar nicht ganz, aber soviel dazu: das Thema ist ein reines Bilder-Thema. Hast Du es überhaupt gelesen?

    @Agentur Marketing Russland: Danke, auf den Hinweis habe ich gewartet. Kannst Du irgendeinen Hinweis geben, woran man erkennen kann, wer hinter dem Projekt steckt. Wenn eine Sache seriös ist, dann brauchen sich die Betreiber nicht zu verstecken, sondern sind stolz auf ihr Projekt.
    Vielleicht wäre alles OK, wenn die Bilder nur in Russland angezeigt würden. Aber dieser „Bilderklau“ in den deutschen Serps hat doch einen Beigeschmack, finde ich.

  8. Solange die Seite nicht die „Versionsgeschichte“ mit den Autoren von der Wikipedia darstellt, ist es ganz klar ein Verstoß gegen das Urheberrecht…

    Grüße

  9. Sehr spannendes Thema, ich kann es in zwei kleineren Fällen bestätigen das es funktioniert. Bilder von Wikipedia, etwas optimiert und schon kann man an Wikimedia vorbeiziehen.

    @tagseoblog

    Molar spielt auf die Adsense Anzeigen von deinem Screenshot der Seite an, da sieht man schönes Behavioral Targeting ;)

  10. Naja ich finde das noch ein wenig harmlos, ich habe die Tage ein sehr nettes PHP-Skript auf einen Webhostingaccount entdeckt der extrem viel Serverlast produziert hatte. Dort hatte sich ein Hacker über ein Schlupfloch in einem PHP Script ein weiteres PHP-Skript auf den Server hochgeladen. Dieses PHP Skript war so dreist und hat die Bing Bildersuche in Verbindung mit Wikipedia.ru angezapft und ein wenig immer wieder den Content modifiziert. Schlussfolgerung daraus war, dass die Webseite uns bei ca. 20.000 Besucher am Tag aufgefallen ist. Dass PHP Script war ganze vier Tage online und hat 2,5 Millionen Seiten in den Index von Google gespielt. Größtenteils der Besucher kamen über die Google Bildersuche. Dies zeigt eindeutig, dass hier unbedingt Google noch ein paar Nachbesserungen machen muss.

  11. interessante Beobachtung!
    Ich habe mal hier einen anderen Einwand bzw. Frage. Habe gerade die Google-Abfrage mit „Obama“ gemacht und dabei ist mir aufgefallen das keine Bilder in der organischen Suche angezeigt werden.
    Dann stellte ich fest, das neben dem Suchfeld meine Einstellung auf „SafeSearch – Strikt“ (scheinbar automatisch) eingestellt ist. Stelle ich auf „Moderat“ oder „Aus“ um, werden die Bilder wieder angezeigt.
    Gibt es denn Statistiken darüber, wie viele User welche Einstellung haben bzw. kann man die irgendwo messen (z.B. Analytics)?

  12. Na ja, die zapfen nicht nur Wikipedia an – wenn man sich mal ein paar deutsche Beispielartikel rauspickt, dann sieht man schnell, dass selbst Literaturquellen 1:1 übernommen werden – bspw. via Volltextbibliotheken, die z.T. nicht direkt bei Google indexiert sind, aber eben bei den ‚academics‘ – immerhin werden die Quellen genannt… Automatisierung sei Dank

  13. Hallo Martin,

    das mit den Bildern von Wikipedia ist so eine Sache, denn diese können wie die Texte übernommen werden, solange man die Quelle angibt. Dieses ist leider auch für kommerzielle Seiten möglich.

  14. Ich glaube das es in keinem Fall legal ist Seiten 1:1 zu kopieren auch wenn es eine creative commons Lizenz Seite ist. Den Text hat ja jemand verfasst und dann besteht doch bestimmt irgendeine Art Urheber Schutz. Oder täusche ich mich da? Ist es bei den Bildern nicht meist der Fall, das sie zumindest nicht kommerziell genutzt werden dürfen?

  15. Ich finde es schade, das man auf so vieles aufpassen muss, wenn man mal eben irgendeine kleine Grafik verwenden will. Eine Freundin von mir hat der Spaß über 1000 Euro gekostet. Nur weil sie ein Bild von einem Rezept das sie gekocht hat von einer anderen Seite bei sich online gestellt hat.

  16. Ja, finde ich auch nicht sonderlich gut, dass die Wiki-Texte für kommerzielle Seiten genutzt werden dürfen.

    Immer wieder sieht man die Verwendung von Texten aus Wikipedia auf Seiten mit Werbung…

    Wenn man Geld verdienen möchte soll man schon ein bisschen dafür tun und das nicht mit Texten, die Andere mit viel Aufwand geschrieben haben.

  17. Pingback: Schnurpsel
  18. da hat sich was getan academic.ru schein nur mehr mit 5737 bildern bei sistrix.de auf tendenz stark fallend

Kommentare sind geschlossen.

Kommentare sind geschlossen.