出典: 悪いレビュー 画像ソース: Unbounded AI によって生成数日前、Googleは突然プライバシーポリシーを更新し、インターネット上のすべての公開データを使用して独自のAIモデルをトレーニングすることを明らかにした。 つまり、新しいポリシーによれば、投稿、検索したキーワード、視聴した動画などを含むがこれらに限定されない、インターネット上に公開されたあらゆる情報が Google によってクロールされる可能性があります。 これは適切なネットストリーキングではないでしょうか!OpenAIがデータ侵害で訴えられてから間もなく、Googleは急いで攻撃を開始した。 現時点では、データ料金とは関係がない可能性が高く、Google がこの無料ウールの波を集めなければ、将来的には集められなくなる可能性が非常に高いです。 **ChatGPTが普及して以来、この問題は絶えることがありません。Shichao が最初にタイムラインの概要を説明します。今年3月、マスク氏は先頭に立ってデータ料金の先制攻撃を開始し、TwitterのAPIインターフェースはもはや無料ではないと宣言した。 その直後、米国版ポストバーであるレディットは耐えられなくなった。先月、Reddit の「ブラックアウト」キャンペーンは、公式の API 料金ポリシーに対する抗議でした。 Shichao 氏が以前この件について書いたとき、Reddit 関係者が最終的に譲歩するかどうかまだ推測していました。 現在の追跡調査から判断すると、ほとんどのサードパーティ ソフトウェアがシャットダウンされたことが確認されており、Reddit はデータ料金を請求することを決定しています。この期間中、Twitterはレート制限を再度調整し、認証にお金を費やさないアカウントは1日あたり600件の投稿しか読むことができません。これはロボットがユーザーデータを取得するのを防ぐためでもあります。 データってそんなに貴重なものなのでしょうか?シーチャオは、やはり**AIのせいだと感じました。 ** 大きな AI モデルがより賢くなりたい場合は、「フィード」するためのデータの安定したストリームが必要です。現在、大規模なモデルを作成できる人は、Baidu、Ali、Tencent などの独自のデータを持っているか、他の人のデータをクロールしているかのどちらかです (ここでは OpenAI と呼ばれています)。多くの Web サイトにはオープンで無料の API インターフェイスがあるため、Microsoft や OpenAI などの大手企業にチャンスが与えられています。 しかし、今日は過去とは異なり、AI がデータ価値を再び与えた後、チップを手にしたプラットフォームは、当然のことながら、無償で売春されることを絶対に嫌がります。 **RedditのCEOホフマンでさえ、巨人に無料でデータを提供したくないだけだと明言した。 したがって、OpenAIの起訴は、おそらくプラットフォームが「ニワトリとサルを殺し」、AIの不健全な傾向を治すために団結したという事実によるものである。しかし、今回この法律がOpenAIの側に立つかどうかは分からない。  データの著作権には次の 3 つの重要な問題が含まれるためです。**1. データ クローラー自体の動作は合法ですか? ****2. データは著作権で保護されていますか? ****3. データから生成された作品は著作権で保護されていますか? **まず、最初のデータを取得するということですが、これはお金を払って購入したり、インターネット上で公開されているデータを収集したりすることに他なりません。ただし、**公開データは許可された使用と同等ではない**ことに注意してください。また、Web サイトにデータ クローラーの動作を制限する関連条項があるかどうかにも依存します。 著作権者の承諾を直接超えたり、Webサイトの制限を回避して強制的にデータを取得した場合は、コンピュータ情報システムのデータを不正に取得する犯罪となります。 OpenAI が公開 Web サイトからデータをクロールすると主張したとしても、データのクロール行為自体が合法であるかどうかは、著作権所有者が許可を与えているかどうかによって異なります。2つ目は、**データ自体が著作権の対象**であるかどうかについてです。米国の著作権法によれば、AIモデルのトレーニングに使用されるデータが「フェアユース」の範囲内にある場合、著作権侵害にはならないとされている。しかし、問題はこの「**フェアユース**」にあります。 「フェアユース」の構成要素には、商業利用の有無、作品自体が著作権法で保護されているかどうか、使用されているパーツの数、使用後の作品自体への影響などが含まれます。ニュースレポートや学術研究と同様、適切な引用はまったく問題ありません。AI モデルや商用化された AI ソフトウェアにおける数億レベルのデータ使用は、依然として「フェアユース」としてカウントされますか?最後に、AI **生成された作品**の著作権の問題があります。学習データの著作権は明確ではないため、AIが生成したコンテンツには当然著作権紛争が発生します。数日前、Steam も著作権上の問題があるという理由で、AIGC を使用して生成されたゲームを削除しました。 AI ペイントを例に挙げると、画像の生成は分割して再構成するプロセスに相当し、最終的な結果は完全に「新しい」ものですが、トレーニング画像のいくつかの特徴がまだ残っています。 しかし、この状況を侵害とみなすかどうかについては、各国の意見が分かれています。トレーニングデータは他人のものであるため、米国著作権局は、AIによって生成された作品は著作権法で保護されず、著作権を侵害する可能性さえあると判断した。日本の法律はAIの学習に使われたデータの著作権を保護していないとして、日本政府の態度は大きく異なっている。 少なくとも現在の法的枠組みの下では、上記の疑問に対して統一的な答えを得ることは困難です。 監督が弱いので著作権者が自分でやるしかなく、もし料金を請求されるなら早く回収すべきものは回収すべきです。***▼OpenAI訴訟文書*** Twitter や Reddit の後、さらに多くのコンテンツ著作権団体が高い壁を築く可能性があることが予測されます。もちろん、この問題はプラットフォームにとって新たな金儲けの方法であり、テクノロジー大手がどれほど悪かろうと、彼らはより多くの資金を投じるだろう。 しかし、インターネット全体にとって、それは良いことではありません。当時、Wikipedia や Twitter など、オープン共有の遺伝子を持ったインターネットが誕生し、API インターフェイスが一年中無料で提供され、開発者にとってデータの呼び出しが非常に便利になりました。 しかし現在、このようにデータ料金の導入が許可された場合、結果がどうなるかは予測が難しい。結局のところ、小規模な開発者には莫大なデータ料金を支払う能力はありません。イノベーションが巨大企業でのみ発生するのであれば、これは純粋な独占ではないでしょうか?最も重要なことは、現在無料で閲覧できる多くの Web サイトは、後で閲覧する必要がある可能性があるということであり、これは私たちのような一般ユーザーにとって非常に重要です。 実際のところ、データ料金のすべてをプラットフォームのせいにすることはできず、AI 大手企業が「強奪」を恐れるようになっており、これは保身のための無力な行為です。 今回Googleは「プライバシーポリシー」を設けたが、結果がどうなるかは分からない。したがって、鍵となるのは、いつ監督という大槌が下されるかである。データの著作権の明確化はAIの発展において避けては通れないハードルであり、今やインターネットの今後の方向性にも関わってきそうです。AI船は私たちをよりオープンな時代、あるいはクローズドな時代へと押し進めるのだろうか?
大手AI企業にこのように「盗まれる」ままにしておくと、無料のWebサイトが表示されなくなるかもしれません
出典: 悪いレビュー
数日前、Googleは突然プライバシーポリシーを更新し、インターネット上のすべての公開データを使用して独自のAIモデルをトレーニングすることを明らかにした。
OpenAIがデータ侵害で訴えられてから間もなく、Googleは急いで攻撃を開始した。
ChatGPTが普及して以来、この問題は絶えることがありません。
Shichao が最初にタイムラインの概要を説明します。
今年3月、マスク氏は先頭に立ってデータ料金の先制攻撃を開始し、TwitterのAPIインターフェースはもはや無料ではないと宣言した。
先月、Reddit の「ブラックアウト」キャンペーンは、公式の API 料金ポリシーに対する抗議でした。
この期間中、Twitterはレート制限を再度調整し、認証にお金を費やさないアカウントは1日あたり600件の投稿しか読むことができません。これはロボットがユーザーデータを取得するのを防ぐためでもあります。
シーチャオは、やはり**AIのせいだと感じました。 **
現在、大規模なモデルを作成できる人は、Baidu、Ali、Tencent などの独自のデータを持っているか、他の人のデータをクロールしているかのどちらかです (ここでは OpenAI と呼ばれています)。
多くの Web サイトにはオープンで無料の API インターフェイスがあるため、Microsoft や OpenAI などの大手企業にチャンスが与えられています。
RedditのCEOホフマンでさえ、巨人に無料でデータを提供したくないだけだと明言した。
しかし、今回この法律がOpenAIの側に立つかどうかは分からない。
**1. データ クローラー自体の動作は合法ですか? **
**2. データは著作権で保護されていますか? **
**3. データから生成された作品は著作権で保護されていますか? **
まず、最初のデータを取得するということですが、これはお金を払って購入したり、インターネット上で公開されているデータを収集したりすることに他なりません。
ただし、公開データは許可された使用と同等ではないことに注意してください。また、Web サイトにデータ クローラーの動作を制限する関連条項があるかどうかにも依存します。
2つ目は、データ自体が著作権の対象であるかどうかについてです。
米国の著作権法によれば、AIモデルのトレーニングに使用されるデータが「フェアユース」の範囲内にある場合、著作権侵害にはならないとされている。
しかし、問題はこの「フェアユース」にあります。
ニュースレポートや学術研究と同様、適切な引用はまったく問題ありません。
AI モデルや商用化された AI ソフトウェアにおける数億レベルのデータ使用は、依然として「フェアユース」としてカウントされますか?
最後に、AI 生成された作品の著作権の問題があります。
学習データの著作権は明確ではないため、AIが生成したコンテンツには当然著作権紛争が発生します。数日前、Steam も著作権上の問題があるという理由で、AIGC を使用して生成されたゲームを削除しました。
トレーニングデータは他人のものであるため、米国著作権局は、AIによって生成された作品は著作権法で保護されず、著作権を侵害する可能性さえあると判断した。
日本の法律はAIの学習に使われたデータの著作権を保護していないとして、日本政府の態度は大きく異なっている。
▼OpenAI訴訟文書
もちろん、この問題はプラットフォームにとって新たな金儲けの方法であり、テクノロジー大手がどれほど悪かろうと、彼らはより多くの資金を投じるだろう。
当時、Wikipedia や Twitter など、オープン共有の遺伝子を持ったインターネットが誕生し、API インターフェイスが一年中無料で提供され、開発者にとってデータの呼び出しが非常に便利になりました。
結局のところ、小規模な開発者には莫大なデータ料金を支払う能力はありません。イノベーションが巨大企業でのみ発生するのであれば、これは純粋な独占ではないでしょうか?
最も重要なことは、現在無料で閲覧できる多くの Web サイトは、後で閲覧する必要がある可能性があるということであり、これは私たちのような一般ユーザーにとって非常に重要です。
したがって、鍵となるのは、いつ監督という大槌が下されるかである。
データの著作権の明確化はAIの発展において避けては通れないハードルであり、今やインターネットの今後の方向性にも関わってきそうです。
AI船は私たちをよりオープンな時代、あるいはクローズドな時代へと押し進めるのだろうか?