KI-Unternehmen stehlen unsere Daten - ein Lösungsvorschlag
Jeden Tag besuchen uns OpenAI und andere KI-Bots und scannen unsere administrator.de Webseite. Der Inhalt unserer gesamten Webseite ist mittlerweile der KI bekannt und integriert. Dies lässt sich mit gezieltem "Prompt" leicht nachvollziehen (siehe Bild). Die KI-Firmen machen damit riesige Gewinne, vergessen aber, von wem die Inhalte stammen.
Ein Beispiel: Unsere Inhalte stehen unter der Creative Commons BY-SA 4.0 Lizenz. Das bedeutet, dass alle Inhalte frei verwendet werden können, aber der Autor und die Quelle genannt werden müssen.
In den letzten zwei Jahren hat OpenAI's ChatGPT unsere Inhalte verwendet, ohne auch nur einmal den Autor oder die Quelle zu nennen. In der aktuellen ChatGPT Version o4 erscheint jetzt hier und da unsere Quellenangabe, aber noch lange nicht der Name des Autors oder bei allen Inhalten. In der neueren Version ChatGPT o1 erscheint die Quellenangabe nicht mehr.
OpenAI und alle anderen KI-Unternehmen verstoßen damit eindeutig gegen unsere Lizenz und tun dies jeden Tag aufs Neue
Das soll jetzt nicht heißen, dass ich generell gegen die Entwicklung von KI-Sprachmodellen bin, aber es ist für uns Seitenbetreiber irritierend, dass KI-Unternehmen nun ihrerseits Ansprüche auf diese Inhalte anmelden und diese Inhalte als ihr Eigentum betrachten. Siehe dazu OpenAI und die USA sind schlechte Verlierer - DeepSeek wird ohne Beweise beschuldigt.
KI-Unternehmen nutzen die Daten ungefragt und bereichern sich daran
Die KI-Unternehmen haben ausgeklügelte Abomodelle. Sie verdienen viel Geld mit unseren Daten, die sie täglich sammeln. Leider bieten sie den Seitenbetreibern im Gegenzug keine Monetarisierungsmöglichkeiten der Inhalte an.
Dies führt zu einer gefährlichen Spirale. Die KI-Unternehmen ziehen Daten von der Website ab, verdienen damit Geld, die Nutzer besuchen immer häufiger die zentralisierten KI-Assistenten statt die Webseiten, und diese verlieren immer mehr Nutzer und Datenverkehr. Das Ergebnis ist, dass die meisten Webseiten mit der Zeit sterben oder kurz davor stehen. Aber von welchen Webseiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Das kann nicht die Lösung sein, auch nicht für die KI-Unternehmen.
Inhalteschutzrecht für Webseitenbetreiber
Ich erinnere mich noch an die heftigen Diskussionen in Europa über das verabschiedete Leistungsschutzrecht für Presseverleger: Google wurde vorgeschrieben, nur einzelne Wörter, kleinste Textausschnitte (160 Zeichen) und winzige Vorschaubilder zu verwenden. Mehr durften sie ohne Lizenz, also ohne Zahlung von Google an die Verlage, nicht verwenden.
Heute scannen KI-Unternehmen den gesamten Inhalt einer Website, einschließlich aller Bilder! Wo bleibt ein "Inhalteschutzrecht für Webseitenbetreiber"? Wo ist der Aufschrei, wenn es um alle Inhalte geht?
Ich möchte nicht nur klagen, sondern auch eine Lösung anbieten: Ähnlich wie es heute schon mit Werbung auf Webseiten gemacht wird, könnte man ein einfaches und effektives Datenerhebungssystem ähnlich dem Werbesystem aufbauen.
So wie man aktuell Google mit Hilfe von Sitemaps hilft, die eigenen Inhalte bei Google zu indexieren, könnte man das auch mit OpenAI und Co. machen. Eine Sitemap hilft, die Struktur und den Inhalt einer Website effizient zu erfassen und zu indexieren. Diese Sitemaps werden mit einer eindeutigen Webseiten-ID bei den KI-Unternehmen gespeichert, so dass diese genau wissen, von welcher Webseite die Inhalte stammen.
Wenn Inhalte von einer dieser registrierten Webseiten in einer KI-Ausgabe verwendet werden, können die KI-Unternehmen dies intern erfassen und später durch eine Auswertung vergüten. Die Höhe der Vergütung kann sich, ähnlich wie bei den Werbesystemen für Webseiten, an der Anzahl, dem Anteil und der Häufigkeit der ausgelieferten Inhalte orientieren.
Die Webseiten geben also freiwillig ihre Inhalte an das KI-Unternehmen und werden später dafür monatlich entlohnt. Ganz ähnlich, wie es derzeit das Werbesystem Adsense von Google für Werbung macht. Langfristig ist dies eine Win-Win-Situation, da jede Webseite motiviert wird, gute Inhalte zu produzieren, die dann auch in der KI-Ausgabe verwendet werden.
Technisch ist das kein Hexenwerk, es muss nur von den KI-Unternehmen umgesetzt werden.
Auf diese Weise könnte die gefährliche Spirale gestoppt werden, die andernfalls zu einem Massensterben von Webseiten führen wird.
Gruß
Frank
Ein Beispiel: Unsere Inhalte stehen unter der Creative Commons BY-SA 4.0 Lizenz. Das bedeutet, dass alle Inhalte frei verwendet werden können, aber der Autor und die Quelle genannt werden müssen.
In den letzten zwei Jahren hat OpenAI's ChatGPT unsere Inhalte verwendet, ohne auch nur einmal den Autor oder die Quelle zu nennen. In der aktuellen ChatGPT Version o4 erscheint jetzt hier und da unsere Quellenangabe, aber noch lange nicht der Name des Autors oder bei allen Inhalten. In der neueren Version ChatGPT o1 erscheint die Quellenangabe nicht mehr.
OpenAI und alle anderen KI-Unternehmen verstoßen damit eindeutig gegen unsere Lizenz und tun dies jeden Tag aufs Neue
Das soll jetzt nicht heißen, dass ich generell gegen die Entwicklung von KI-Sprachmodellen bin, aber es ist für uns Seitenbetreiber irritierend, dass KI-Unternehmen nun ihrerseits Ansprüche auf diese Inhalte anmelden und diese Inhalte als ihr Eigentum betrachten. Siehe dazu OpenAI und die USA sind schlechte Verlierer - DeepSeek wird ohne Beweise beschuldigt.
KI-Unternehmen nutzen die Daten ungefragt und bereichern sich daran
Die KI-Unternehmen haben ausgeklügelte Abomodelle. Sie verdienen viel Geld mit unseren Daten, die sie täglich sammeln. Leider bieten sie den Seitenbetreibern im Gegenzug keine Monetarisierungsmöglichkeiten der Inhalte an.
Dies führt zu einer gefährlichen Spirale. Die KI-Unternehmen ziehen Daten von der Website ab, verdienen damit Geld, die Nutzer besuchen immer häufiger die zentralisierten KI-Assistenten statt die Webseiten, und diese verlieren immer mehr Nutzer und Datenverkehr. Das Ergebnis ist, dass die meisten Webseiten mit der Zeit sterben oder kurz davor stehen. Aber von welchen Webseiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Das kann nicht die Lösung sein, auch nicht für die KI-Unternehmen.
Inhalteschutzrecht für Webseitenbetreiber
Ich erinnere mich noch an die heftigen Diskussionen in Europa über das verabschiedete Leistungsschutzrecht für Presseverleger: Google wurde vorgeschrieben, nur einzelne Wörter, kleinste Textausschnitte (160 Zeichen) und winzige Vorschaubilder zu verwenden. Mehr durften sie ohne Lizenz, also ohne Zahlung von Google an die Verlage, nicht verwenden.
Heute scannen KI-Unternehmen den gesamten Inhalt einer Website, einschließlich aller Bilder! Wo bleibt ein "Inhalteschutzrecht für Webseitenbetreiber"? Wo ist der Aufschrei, wenn es um alle Inhalte geht?
Was wäre eine Lösung?
Ich möchte nicht nur klagen, sondern auch eine Lösung anbieten: Ähnlich wie es heute schon mit Werbung auf Webseiten gemacht wird, könnte man ein einfaches und effektives Datenerhebungssystem ähnlich dem Werbesystem aufbauen.
So wie man aktuell Google mit Hilfe von Sitemaps hilft, die eigenen Inhalte bei Google zu indexieren, könnte man das auch mit OpenAI und Co. machen. Eine Sitemap hilft, die Struktur und den Inhalt einer Website effizient zu erfassen und zu indexieren. Diese Sitemaps werden mit einer eindeutigen Webseiten-ID bei den KI-Unternehmen gespeichert, so dass diese genau wissen, von welcher Webseite die Inhalte stammen.
Wenn Inhalte von einer dieser registrierten Webseiten in einer KI-Ausgabe verwendet werden, können die KI-Unternehmen dies intern erfassen und später durch eine Auswertung vergüten. Die Höhe der Vergütung kann sich, ähnlich wie bei den Werbesystemen für Webseiten, an der Anzahl, dem Anteil und der Häufigkeit der ausgelieferten Inhalte orientieren.
Die Webseiten geben also freiwillig ihre Inhalte an das KI-Unternehmen und werden später dafür monatlich entlohnt. Ganz ähnlich, wie es derzeit das Werbesystem Adsense von Google für Werbung macht. Langfristig ist dies eine Win-Win-Situation, da jede Webseite motiviert wird, gute Inhalte zu produzieren, die dann auch in der KI-Ausgabe verwendet werden.
Technisch ist das kein Hexenwerk, es muss nur von den KI-Unternehmen umgesetzt werden.
Auf diese Weise könnte die gefährliche Spirale gestoppt werden, die andernfalls zu einem Massensterben von Webseiten führen wird.
ChatGPT OpenAI - o1 kennt uns sehr gut
Gruß
Frank
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 671066
Url: https://administrator.de/imho/ki-unternehmen-stehlen-unsere-daten-ein-loesungsvorschlag-671066.html
Ausgedruckt am: 04.03.2025 um 04:03 Uhr
20 Kommentare
Neuester Kommentar
Moin
Ganz einfach: von anderen KI-generierten Websites, wie es teilweise heute schon geschieht. Die können sich dann gegenseitig ihren Dünnschiss klauen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
lks
Aber von welchen Seiten werden die KI-Unternehmen in Zukunft ihre Inhalte bzw. ihr Wissen laden?
Ganz einfach: von anderen KI-generierten Websites, wie es teilweise heute schon geschieht. Die können sich dann gegenseitig ihren Dünnschiss klauen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
lks
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bliebe lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Zitat von @Datenreise:
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bleibt lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Meine Lösung wäre, wenn die es übertreiben, die kompletten Inhalte oder die Teile davon, z.B Antworten auf die Fragen und Anleitungen nur noch für angemeldete Benutzer anzuzeigen., wie es in anderen Foren teilweise schon üblich ist. Ich wäre davon zwar prinzipiell nicht so arg begeistert, aber da ich hier eh meistens angemeldet bin, würde das mich zumindest in diesem Forum nicht stören.
Würde dies denn wirklich helfen? Dem Crawler Login-Daten zu verpassen ist sicherlich kein Hexenwerk, es bleibt lediglich die Arbeit, sich bei sämtlichen Angeboten Accounts zu eröffnen.
Es verhindert nicht, dass die an die Inhalte können. Aber mit passenden Nutzungsbedingungen könnte man die User, die als Crawler identifiziert wurden, an die Kandare nehmen.
lks
Moin,
Grundsätzlich überrascht mich der „Tatbestand“ nicht, so wie er viele andere ebensowenig überrascht. Alles was im WWW frei verfügbar ist, wird angezapft.
), Aber irgendwer muss das ja durchsetzen. Unsere kleine Bundesregierung wird da sicherlich keine nennenswerte Machtstellung haben - global gesehen. Folglich muss das EU-weit publiziert und durchgesetzt werden. Und somit muss es jemanden geben, der denen „da oben“ das Problem schildert (das wäre noch machbar) und auch einen für alle akzeptablen Lösungsweg in einen Gesetztes-/ Verordnungsentwurf „übersetzt“. Und da wird es vermutlich (vorerst) scheitern…
Grundsätzlich überrascht mich der „Tatbestand“ nicht, so wie er viele andere ebensowenig überrascht. Alles was im WWW frei verfügbar ist, wird angezapft.
Ich habe oben den Weg über die bekannte Sitemap aufgezeigt. Ich denke, das ist die einfachste und schnellste Lösung, die man umsetzen kann, wenn man will. Seiten für bestimmte Dienste zu sperren ist keine Lösung.
Erstmal losgelöst ob das der richtige oder falsche Weg wäre (klingt für mich jedenfalls erstmal nicht schwachsinnig
Ich finde deine Einwände richtig und berechtigt. Nur für mich würde sich die frage stellen - was hat der KI Betreiber davon würde er sich an irgendwelche "Sitemaps" halten? GRADE wenn die aus Ländern kommen in denen es beim Kopieren von allen möglichen Dingen eher wenig Einschränkungen gibt? Wenn dann aber zB. ChatGPT sich an sowas hält, nen Depp-Search aus China aber nicht würde es ggf. schon Nachteile geben...
Von daher glaube ich das es eher nicht auf "freiwilliger" Basis gehen wird - auch wenn ich mich freuen würde wenn ich damit falsch liege...
Von daher glaube ich das es eher nicht auf "freiwilliger" Basis gehen wird - auch wenn ich mich freuen würde wenn ich damit falsch liege...

Was man im Netz so findet....
https://www.golem.de/news/vorgehen-gegen-ki-konzerne-neues-tool-beschaef ...
https://www.golem.de/news/vorgehen-gegen-ki-konzerne-neues-tool-beschaef ...
Antwort: Qualitativer Inhalt. Und die Tatsache, dass es nach dem KI-Boom immer noch ein Internet gibt, das Inhalte produziert. Die Inhalte der Webseiten bilden ihre Daten-Grundlage.
Das würde ein Verständnis voraussetzen und den Willen zur Fairness. Bei den großen Anbietern m.E. leider nicht gegeben. Sie wollen mit aller Macht in diesem neuen Markt die Pole Position besetzen, egal, was es kostet, egal, was es fordert.
Und daher bin ich da tatsächlich mehr bei der Fraktion "haut mal von staatlicher Seite drauf". Denn wirtschaftlich interessiert es die Anbieter nicht, sie haben alle Zugriff auf riesige finanzielle Ressourcen und können ihr Produkt ja nicht nur für "Internetinhalte" nutzen, sondern auch bpsw. in der Produktion, Medizintechnik etc.
Inhaltlich bin ich natürlich ganz bei Dir, da muss auf Sicht ein Riegel vorgeschoben werden.
Ok - dann sag doch mal von WELCHER staatlicher Seite? Denn das ist ja grade das Problem - die Systeme sind verteilt. Schau dir doch mal den "flickenteppich" an:
DE: Du darfst Bier ab 16, harten Alk ab 18 kaufen - USA ab 21, teile von Alaska harten Alk gar nicht...
DE: Schusswaffen nur nach div. Prüfungen usw.... USA teils ab 12, teils ab 16/18/21,....
DE: Führerschein PKW ab 18 (ggf. 17), USA 16 (glaub ich is es noch), Ägypten: Wen interessierts ob du nen FS hast? (ich hab dort Kiddys mit max. 12-13 Jahren aufm mopped gesehen)...
Du kannst auch das Urheberrecht nehmen:
- DE: Du lädst nen Film runter und die Post vom Anwalt liegt fast schon im Briefkasten
- Ost-Europa: Lad runter, kümmert eh keinen
- China usw..: Wie, du lädst runter und kaufst dir nich die CD direkt vom örtlichen Wochenmarkt?
Gehts in den XXX Bereich:
DE: "hey, aber nur ab 18, du musst schon klicken das du erwachsen bist"
USA: "sowas gibts bei uns mal gar nich" - also... ausser wenn du in der entsprechenden Industrie arbeitest aber dann sagst du das bitte nich öffentlich
Fernost: "Muss aber zensiert sein, könnte ja sonst jugendgefährdent sein wenn die div. praktiken da laufen"...
Und jetzt kommst du und sagst "staatliche Regulierung für KI Abfragen"?!? Warum hab ich da meine Zweifel das sich _weltweit_ Behörden da auf irgendwas einigen würden?!? Oder es würde eben auch so sein das du sagst "die anfrage kommt aus DE, da antworte ich anders als wenn die aus XYZ kommt" - was aber dann vermutlich mehr Probleme schafft als es löst... (und mit VPN eh umgangen werden kann...)
DE: Du darfst Bier ab 16, harten Alk ab 18 kaufen - USA ab 21, teile von Alaska harten Alk gar nicht...
DE: Schusswaffen nur nach div. Prüfungen usw.... USA teils ab 12, teils ab 16/18/21,....
DE: Führerschein PKW ab 18 (ggf. 17), USA 16 (glaub ich is es noch), Ägypten: Wen interessierts ob du nen FS hast? (ich hab dort Kiddys mit max. 12-13 Jahren aufm mopped gesehen)...
Du kannst auch das Urheberrecht nehmen:
- DE: Du lädst nen Film runter und die Post vom Anwalt liegt fast schon im Briefkasten
- Ost-Europa: Lad runter, kümmert eh keinen
- China usw..: Wie, du lädst runter und kaufst dir nich die CD direkt vom örtlichen Wochenmarkt?
Gehts in den XXX Bereich:
DE: "hey, aber nur ab 18, du musst schon klicken das du erwachsen bist"
USA: "sowas gibts bei uns mal gar nich" - also... ausser wenn du in der entsprechenden Industrie arbeitest aber dann sagst du das bitte nich öffentlich
Fernost: "Muss aber zensiert sein, könnte ja sonst jugendgefährdent sein wenn die div. praktiken da laufen"...
Und jetzt kommst du und sagst "staatliche Regulierung für KI Abfragen"?!? Warum hab ich da meine Zweifel das sich _weltweit_ Behörden da auf irgendwas einigen würden?!? Oder es würde eben auch so sein das du sagst "die anfrage kommt aus DE, da antworte ich anders als wenn die aus XYZ kommt" - was aber dann vermutlich mehr Probleme schafft als es löst... (und mit VPN eh umgangen werden kann...)
Sehe da auch durchaus nur größere politische Blöcke, die dagegen halten können. Der Markt regelt das leider nicht, sondern eher das Gegenteil. Natürlich kann es passieren, dass Politik =Staatsmacht da auch genau dagegen steuert und dann so etwas wie die gigantische Datenschnorchelei = Überwachung der USA dabei heraus kommt, an die sich eigentlich inzwischen alle gewöhnt haben, obwohl es in demokratischen Staaten ein no-go sein sollte.
Unsere Handlungsmöglichkeiten (gerne ergänzen!)
- freiwillige Abkommen
Sehe ich kritisch, solange kein ausreichender Druck da ist (u.a. gfs. auch auf juristischem Weg), "freiwillige" Abkommen einzugehen.
- technische Ebene
Mögliche Ansätze sind oben von Frank u.A. beschrieben.
- juristische Ebene
Wer ist Geschädigt:
- Administrator.de wg. Einbruch der Werbeeinnahmen wg. Verstoß gegen AGBs: Vertragsrecht, Wettbewerbsrecht
- Autorinnen und Autoren: unerlaubte Aneignung geistigen Eigentums: Urheberrecht
Für die genannten drei Rechtsgebiete gibt es nationales und internationales Recht bzw. Rechtsabkommen (also: Länder bzw. internationale Institutionen können sich durchaus einigen). Ein beispiel unter mehreren: "Das Übereinkommen über handelsbezogene Aspekte der Rechte des geistigen Eigentums oder TRIPS-Abkommen" (s. Wikipedia)
Sind Unternehmensriesen von Privatpersonen oder kleinen Unernehmen angreifbar? Ja! Fälle gibt es einige. Interessantes Beispiel: https://de.wikipedia.org/wiki/Max_Schrems
- politische Ebene
Welche Interessensgruppen könnten hier Initiativen anstoßen?
Die EU-Kommission hat gerade eine Strategie zur Verhinderung wirksamer Maßnahmen eingeschlagen:
Zitat:" Die Kommission hat kürzlich eine Konsultation zu einem Verhaltenskodex für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI) eingeleitet. Dieser in der KI-Verordnung vorgesehene Kodex wird kritische Bereiche wie Transparenz, Urheberrecht und Risikomanagement abdecken. Im Rahmen der Konsultation sind in der EU tätige GPAI-Anbieter, Unternehmen, Vertreter*innen der Zivilgesellschaft, Rechteinhaber und wissenschaftliche Sachverständige aufgerufen, ihre Ansichten und Erkenntnisse einzubringen, die die Kommission dann in ihrem Entwurf für den Verhaltenskodex für GPAI-Modelle berücksichtigen wird." https://commission.europa.eu/news/ai-act-enters-force-2024-08-01_de
Nun, wir kennen ja die Wirksamkeit von Selbstverpflichtungen in der Industrie. Die EU-Kommission kennt sie natürlich auch. . . .
- freiwillige Abkommen
Sehe ich kritisch, solange kein ausreichender Druck da ist (u.a. gfs. auch auf juristischem Weg), "freiwillige" Abkommen einzugehen.
- technische Ebene
Mögliche Ansätze sind oben von Frank u.A. beschrieben.
- juristische Ebene
Wer ist Geschädigt:
- Administrator.de wg. Einbruch der Werbeeinnahmen wg. Verstoß gegen AGBs: Vertragsrecht, Wettbewerbsrecht
- Autorinnen und Autoren: unerlaubte Aneignung geistigen Eigentums: Urheberrecht
Für die genannten drei Rechtsgebiete gibt es nationales und internationales Recht bzw. Rechtsabkommen (also: Länder bzw. internationale Institutionen können sich durchaus einigen). Ein beispiel unter mehreren: "Das Übereinkommen über handelsbezogene Aspekte der Rechte des geistigen Eigentums oder TRIPS-Abkommen" (s. Wikipedia)
Sind Unternehmensriesen von Privatpersonen oder kleinen Unernehmen angreifbar? Ja! Fälle gibt es einige. Interessantes Beispiel: https://de.wikipedia.org/wiki/Max_Schrems
- politische Ebene
Welche Interessensgruppen könnten hier Initiativen anstoßen?
Die EU-Kommission hat gerade eine Strategie zur Verhinderung wirksamer Maßnahmen eingeschlagen:
Zitat:" Die Kommission hat kürzlich eine Konsultation zu einem Verhaltenskodex für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI) eingeleitet. Dieser in der KI-Verordnung vorgesehene Kodex wird kritische Bereiche wie Transparenz, Urheberrecht und Risikomanagement abdecken. Im Rahmen der Konsultation sind in der EU tätige GPAI-Anbieter, Unternehmen, Vertreter*innen der Zivilgesellschaft, Rechteinhaber und wissenschaftliche Sachverständige aufgerufen, ihre Ansichten und Erkenntnisse einzubringen, die die Kommission dann in ihrem Entwurf für den Verhaltenskodex für GPAI-Modelle berücksichtigen wird." https://commission.europa.eu/news/ai-act-enters-force-2024-08-01_de
Nun, wir kennen ja die Wirksamkeit von Selbstverpflichtungen in der Industrie. Die EU-Kommission kennt sie natürlich auch. . . .
Dafür wird es seitens der KI-Anbieter wenig Interesse geben. Das Problem, das man mit Leistungsschutzrecht zu lösen versuchte, war, dass Suchmaschinen durch Indizierung vorab eine (Teil-)Kopie der Inhalte erstellen und unabhängig ausliefern.
Etwas Ähnliches liegt bei KI beim Training vor - mit dem Problem, dass der Abstraktionsgrad hoch ist, und die Verwendung von Daten für das Training schwer nachweisbar ist. Die Sammlung potenzieller Trainings-Daten ist auf dem verworrenen Markt dafür auch nur noch schwer mit KI-Unternehmen in Verbindung zu bringen. Praktisch wird es hier oft zu Urheberrechtsverletzungen kommen, mit entsprechenden Verfolgungshindernissen. Die KI-Anbieter versuchen sich zumindest nicht allzu angreifbar zu machen, indem sie Reproduktion geschützter Werke möglichst im Prompting abfangen.
Du hast als Beispiel hingegen einen RAG-Prompt hinzugefügt, bei dem die Verwendung einer Quelle naturgemäß nachweisbar, aber auch weitaus unproblematischer ist. Es ist eine Grauzone, und ähnlich wie das Fernsehen sich gern der "Quelle: Youtube" bedient, kann man auch der Auffassung sein, dass der Lizenz mit der Quellenabgabe (die an sich schon der Nutzer in einer RAG-Anfrage liefert) Genüge getan ist. Das Zitatrecht überlagert dies.
Der eigentliche Grund, warum KI-Unternehmen bei RAG kaum unter Zugzwang stehen, ist aber, dass die Grenzen zwischen Werkzeug und abgeleitetem Inhalt verschwimmen. RAG- und Kontext-Funktionen werden in Anwender-Software bald so selbstverständlich sein wie der "Lesemodus" in Browsern. Wo will man da die Grenze ziehen? An Client/Server-Architektur? Heute richten Nutzer E-Mail-Clients ein, um dann festzustellen, dass ein Server des Client-Anbieters die E-Mails abruft, und der Client nur ein Frontend für diesen Server ist. Die technischen Möglichkeiten sind so vielfältig, dass sich jeder KI-Anbieter, der sich dazu positioniert, potenziell gegenüber der Konkurrenz, die eine leicht veränderte Architektur verfolgt, in einen Nachteil begibt.
Zudem glaube ich, dass Foren großteils auch nur koinzident mit dem Aufstieg der KI sterben bzw. ein evolutionäres Tief erleben. Es mag Zusammenhänge geben, etwa Nutzer, die Fragen in eine KI kopieren, um die Antwort zu geben - angetrieben von Fragestellern, welche eine Frage dieser Art ebenso in eine KI hätten eingeben können. Im Prinzip alles, was schon Suchmaschinen anhaftete. Letztens habe ich hier eine Antwort gesehen, die ausschließlich aus Links bestand. Also jede Kultur impliziert immer auch die Fähigkeit zu ihrer Zerstörung, mit oder ohne KI.
Grüße
Richard
Etwas Ähnliches liegt bei KI beim Training vor - mit dem Problem, dass der Abstraktionsgrad hoch ist, und die Verwendung von Daten für das Training schwer nachweisbar ist. Die Sammlung potenzieller Trainings-Daten ist auf dem verworrenen Markt dafür auch nur noch schwer mit KI-Unternehmen in Verbindung zu bringen. Praktisch wird es hier oft zu Urheberrechtsverletzungen kommen, mit entsprechenden Verfolgungshindernissen. Die KI-Anbieter versuchen sich zumindest nicht allzu angreifbar zu machen, indem sie Reproduktion geschützter Werke möglichst im Prompting abfangen.
Du hast als Beispiel hingegen einen RAG-Prompt hinzugefügt, bei dem die Verwendung einer Quelle naturgemäß nachweisbar, aber auch weitaus unproblematischer ist. Es ist eine Grauzone, und ähnlich wie das Fernsehen sich gern der "Quelle: Youtube" bedient, kann man auch der Auffassung sein, dass der Lizenz mit der Quellenabgabe (die an sich schon der Nutzer in einer RAG-Anfrage liefert) Genüge getan ist. Das Zitatrecht überlagert dies.
Der eigentliche Grund, warum KI-Unternehmen bei RAG kaum unter Zugzwang stehen, ist aber, dass die Grenzen zwischen Werkzeug und abgeleitetem Inhalt verschwimmen. RAG- und Kontext-Funktionen werden in Anwender-Software bald so selbstverständlich sein wie der "Lesemodus" in Browsern. Wo will man da die Grenze ziehen? An Client/Server-Architektur? Heute richten Nutzer E-Mail-Clients ein, um dann festzustellen, dass ein Server des Client-Anbieters die E-Mails abruft, und der Client nur ein Frontend für diesen Server ist. Die technischen Möglichkeiten sind so vielfältig, dass sich jeder KI-Anbieter, der sich dazu positioniert, potenziell gegenüber der Konkurrenz, die eine leicht veränderte Architektur verfolgt, in einen Nachteil begibt.
Zudem glaube ich, dass Foren großteils auch nur koinzident mit dem Aufstieg der KI sterben bzw. ein evolutionäres Tief erleben. Es mag Zusammenhänge geben, etwa Nutzer, die Fragen in eine KI kopieren, um die Antwort zu geben - angetrieben von Fragestellern, welche eine Frage dieser Art ebenso in eine KI hätten eingeben können. Im Prinzip alles, was schon Suchmaschinen anhaftete. Letztens habe ich hier eine Antwort gesehen, die ausschließlich aus Links bestand. Also jede Kultur impliziert immer auch die Fähigkeit zu ihrer Zerstörung, mit oder ohne KI.
Grüße
Richard