KI-Unternehmen stehlen unsere Daten - ein Lösungsvorschlag
Jeden Tag besuchen uns OpenAI und andere KI-Bots und scannen unsere administrator.de Webseite. Der Inhalt unserer gesamten Webseite ist mittlerweile der KI bekannt und integriert. Dies lässt sich mit gezieltem "Prompt" leicht nachvollziehen (siehe Bild). Die KI-Firmen machen damit riesige Gewinne, vergessen aber, von wem die Inhalte stammen.
Ein Beispiel: Unsere Inhalte stehen unter der Creative Commons BY-SA 4.0 Lizenz. Das bedeutet, dass alle Inhalte frei verwendet werden können, aber der Autor und die Quelle genannt werden müssen.
In den letzten zwei Jahren hat OpenAI's ChatGPT unsere Inhalte verwendet, ohne auch nur einmal den Autor oder die Quelle zu nennen. In der aktuellen ChatGPT Version o4 erscheint jetzt hier und da unsere Quellenangabe, aber noch lange nicht der Name des Autors oder bei allen Inhalten. In der neueren Version ChatGPT o1 erscheint die Quellenangabe nicht mehr.
OpenAI und alle anderen KI-Unternehmen verstoßen damit eindeutig gegen unsere Lizenz und tun dies jeden Tag aufs Neue
Das soll jetzt nicht heißen, dass ich generell gegen die Entwicklung von KI-Sprachmodellen bin, aber es ist für uns Seitenbetreiber irritierend, dass KI-Unternehmen nun ihrerseits Ansprüche auf diese Inhalte anmelden und diese Inhalte als ihr Eigentum betrachten. Siehe dazu OpenAI und die USA sind schlechte Verlierer - DeepSeek wird ohne Beweise beschuldigt.
KI-Unternehmen nutzen die Daten ungefragt und bereichern sich daran
Die KI-Unternehmen haben ausgeklügelte Abomodelle. Sie verdienen viel Geld mit unseren Daten, die sie täglich sammeln. Leider bieten sie den Seitenbetreibern im Gegenzug keine Monetarisierungsmöglichkeiten der Inhalte an.
Dies führt zu einer gefährlichen Spirale. Die KI-Unternehmen ziehen Daten von der Website ab, verdienen damit Geld, die Nutzer besuchen immer häufiger die zentralisierten KI-Assistenten statt die Webseiten, und diese verlieren immer mehr Nutzer und Datenverkehr. Das Ergebnis ist, dass die meisten Webseiten mit der Zeit sterben oder kurz davor stehen. Aber von welchen Webseiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Das kann nicht die Lösung sein, auch nicht für die KI-Unternehmen.
Inhalteschutzrecht für Webseitenbetreiber
Ich erinnere mich noch an die heftigen Diskussionen in Europa über das verabschiedete Leistungsschutzrecht für Presseverleger: Google wurde vorgeschrieben, nur einzelne Wörter, kleinste Textausschnitte (160 Zeichen) und winzige Vorschaubilder zu verwenden. Mehr durften sie ohne Lizenz, also ohne Zahlung von Google an die Verlage, nicht verwenden.
Heute scannen KI-Unternehmen den gesamten Inhalt einer Website, einschließlich aller Bilder! Wo bleibt ein "Inhalteschutzrecht für Webseitenbetreiber"? Wo ist der Aufschrei, wenn es um alle Inhalte geht?
Ich möchte nicht nur klagen, sondern auch eine Lösung anbieten: Ähnlich wie es heute schon mit Werbung auf Webseiten gemacht wird, könnte man ein einfaches und effektives Datenerhebungssystem ähnlich dem Werbesystem aufbauen.
So wie man aktuell Google mit Hilfe von Sitemaps hilft, die eigenen Inhalte bei Google zu indexieren, könnte man das auch mit OpenAI und Co. machen. Eine Sitemap hilft, die Struktur und den Inhalt einer Website effizient zu erfassen und zu indexieren. Diese Sitemaps werden mit einer eindeutigen Webseiten-ID bei den KI-Unternehmen gespeichert, so dass diese genau wissen, von welcher Webseite die Inhalte stammen.
Wenn Inhalte von einer dieser registrierten Webseiten in einer KI-Ausgabe verwendet werden, können die KI-Unternehmen dies intern erfassen und später durch eine Auswertung vergüten. Die Höhe der Vergütung kann sich, ähnlich wie bei den Werbesystemen für Webseiten, an der Anzahl, dem Anteil und der Häufigkeit der ausgelieferten Inhalte orientieren.
Die Webseiten geben also freiwillig ihre Inhalte an das KI-Unternehmen und werden später dafür monatlich entlohnt. Ganz ähnlich, wie es derzeit das Werbesystem Adsense von Google für Werbung macht. Langfristig ist dies eine Win-Win-Situation, da jede Webseite motiviert wird, gute Inhalte zu produzieren, die dann auch in der KI-Ausgabe verwendet werden.
Technisch ist das kein Hexenwerk, es muss nur von den KI-Unternehmen umgesetzt werden.
Auf diese Weise könnte die gefährliche Spirale gestoppt werden, die andernfalls zu einem Massensterben von Webseiten führen wird.
Gruß
Frank
Ein Beispiel: Unsere Inhalte stehen unter der Creative Commons BY-SA 4.0 Lizenz. Das bedeutet, dass alle Inhalte frei verwendet werden können, aber der Autor und die Quelle genannt werden müssen.
In den letzten zwei Jahren hat OpenAI's ChatGPT unsere Inhalte verwendet, ohne auch nur einmal den Autor oder die Quelle zu nennen. In der aktuellen ChatGPT Version o4 erscheint jetzt hier und da unsere Quellenangabe, aber noch lange nicht der Name des Autors oder bei allen Inhalten. In der neueren Version ChatGPT o1 erscheint die Quellenangabe nicht mehr.
OpenAI und alle anderen KI-Unternehmen verstoßen damit eindeutig gegen unsere Lizenz und tun dies jeden Tag aufs Neue
Das soll jetzt nicht heißen, dass ich generell gegen die Entwicklung von KI-Sprachmodellen bin, aber es ist für uns Seitenbetreiber irritierend, dass KI-Unternehmen nun ihrerseits Ansprüche auf diese Inhalte anmelden und diese Inhalte als ihr Eigentum betrachten. Siehe dazu OpenAI und die USA sind schlechte Verlierer - DeepSeek wird ohne Beweise beschuldigt.
KI-Unternehmen nutzen die Daten ungefragt und bereichern sich daran
Die KI-Unternehmen haben ausgeklügelte Abomodelle. Sie verdienen viel Geld mit unseren Daten, die sie täglich sammeln. Leider bieten sie den Seitenbetreibern im Gegenzug keine Monetarisierungsmöglichkeiten der Inhalte an.
Dies führt zu einer gefährlichen Spirale. Die KI-Unternehmen ziehen Daten von der Website ab, verdienen damit Geld, die Nutzer besuchen immer häufiger die zentralisierten KI-Assistenten statt die Webseiten, und diese verlieren immer mehr Nutzer und Datenverkehr. Das Ergebnis ist, dass die meisten Webseiten mit der Zeit sterben oder kurz davor stehen. Aber von welchen Webseiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Das kann nicht die Lösung sein, auch nicht für die KI-Unternehmen.
Inhalteschutzrecht für Webseitenbetreiber
Ich erinnere mich noch an die heftigen Diskussionen in Europa über das verabschiedete Leistungsschutzrecht für Presseverleger: Google wurde vorgeschrieben, nur einzelne Wörter, kleinste Textausschnitte (160 Zeichen) und winzige Vorschaubilder zu verwenden. Mehr durften sie ohne Lizenz, also ohne Zahlung von Google an die Verlage, nicht verwenden.
Heute scannen KI-Unternehmen den gesamten Inhalt einer Website, einschließlich aller Bilder! Wo bleibt ein "Inhalteschutzrecht für Webseitenbetreiber"? Wo ist der Aufschrei, wenn es um alle Inhalte geht?
Was wäre eine Lösung?
Ich möchte nicht nur klagen, sondern auch eine Lösung anbieten: Ähnlich wie es heute schon mit Werbung auf Webseiten gemacht wird, könnte man ein einfaches und effektives Datenerhebungssystem ähnlich dem Werbesystem aufbauen.
So wie man aktuell Google mit Hilfe von Sitemaps hilft, die eigenen Inhalte bei Google zu indexieren, könnte man das auch mit OpenAI und Co. machen. Eine Sitemap hilft, die Struktur und den Inhalt einer Website effizient zu erfassen und zu indexieren. Diese Sitemaps werden mit einer eindeutigen Webseiten-ID bei den KI-Unternehmen gespeichert, so dass diese genau wissen, von welcher Webseite die Inhalte stammen.
Wenn Inhalte von einer dieser registrierten Webseiten in einer KI-Ausgabe verwendet werden, können die KI-Unternehmen dies intern erfassen und später durch eine Auswertung vergüten. Die Höhe der Vergütung kann sich, ähnlich wie bei den Werbesystemen für Webseiten, an der Anzahl, dem Anteil und der Häufigkeit der ausgelieferten Inhalte orientieren.
Die Webseiten geben also freiwillig ihre Inhalte an das KI-Unternehmen und werden später dafür monatlich entlohnt. Ganz ähnlich, wie es derzeit das Werbesystem Adsense von Google für Werbung macht. Langfristig ist dies eine Win-Win-Situation, da jede Webseite motiviert wird, gute Inhalte zu produzieren, die dann auch in der KI-Ausgabe verwendet werden.
Technisch ist das kein Hexenwerk, es muss nur von den KI-Unternehmen umgesetzt werden.
Auf diese Weise könnte die gefährliche Spirale gestoppt werden, die andernfalls zu einem Massensterben von Webseiten führen wird.
ChatGPT OpenAI - o1 kennt uns sehr gut
Gruß
Frank
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 671066
Url: https://administrator.de/imho/ki-unternehmen-stehlen-unsere-daten-ein-loesungsvorschlag-671066.html
Ausgedruckt am: 31.01.2025 um 16:01 Uhr
6 Kommentare
Neuester Kommentar
Moin
Ganz einfach: von anderen KI-generierten Websites, wie es teilweise heute schon geschieht. Die können sich dann gegenseitig ihren Dünnschiss klauen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
lks
Aber von welchen Seiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Ganz einfach: von anderen KI-generierten Websites, wie es teilweise heute schon geschieht. Die können sich dann gegenseitig ihren Dünnschiss klauen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
lks
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bliebe lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Zitat von @Datenreise:
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bleibt lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bleibt lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Es verhindert nicht, dass die an die Inhalte können. Aber mit passenden Nutzungsbedingungen könnte man die User, die als Crawler identifiziert wurden, an die Kandare nehmen.
lks
Moin,
Grundsätzlich überrascht mich der „Tatbestand“ nicht, so wie er viele andere ebensowenig überrascht. Alles was im WWW frei verfügbar ist, wird angezapft.
Grundsätzlich überrascht mich der „Tatbestand“ nicht, so wie er viele andere ebensowenig überrascht. Alles was im WWW frei verfügbar ist, wird angezapft.
Ich habe oben den Weg über die bekannte Sitemap aufgezeigt. Ich denke, das ist die einfachste und schnellste Lösung, die man umsetzen kann, wenn man will. Seiten für bestimmte Dienste zu sperren ist keine Lösung.
Erstmal losgelöst ob das der richtige oder falsche Weg wäre (klingt für mich jedenfalls erstmal nicht schwachsinnig ), Aber irgendwer muss das ja durchsetzen. Unsere kleine Bundesregierung wird da sicherlich keine nennenswerte Machtstellung haben - global gesehen. Folglich muss das EU-weit publiziert und durchgesetzt werden. Und somit muss es jemanden geben, der denen „da oben“ das Problem schildert (das wäre noch machbar) und auch einen für alle akzeptablen Lösungsweg in einen Gesetztes-/ Verordnungsentwurf „übersetzt“. Und da wird es vermutlich (vorerst) scheitern…