Googleは管理者が停止を強制するまでウェブサイトをスクレイピングし続けます

OpenAIも著作権侵害の訴訟を受けており、それに対応してパブリッシャー向けのオプトアウト機能であるGPTBOTを発表しました。GoogleのBard’s LaMDA LLMモデルは、Wikipediaや他のウェブサイトなどの公開フォーラムから50%のデータセットを使用しています。AIモデルを訓練するために、Googleはデジタルパブリッシャーをスクレイピングして毎日のテキスト、ビデオ、画像を生成しています。同社は、AIによるウェブサイトのスクレイピングを希望しない場合はオプトアウトできると述べています。確認すると、Googleはウェブサイトのスクレイピングを停止します。

ウェブサイトはAIのトレーニングからオプトアウトできます

これは、オーストラリア政府が最近提案した高リスクAIアプリケーションの禁止に続いています。これには、ディープフェイク、ディスインフォメーション、差別を作成するAIアプリケーションが含まれます。以前、Googleはオーストラリア政府によるAIシステムの公正な使用を求めていましたが、これがパブリッシャー向けのオプトアウトオプションを提供する初めての試みです。

Googleのスクレイパーはデフォルトで有効になっており、パブリッシャーがスクレイパーから強制的にオプトアウトしない限り、同社はウェブサイトをコピーしてAIモデルを訓練します。同社は具体的にはどのように機能するかを明示していませんが、Googleはウェブパブリッシャーがオンラインで参加できる方法について標準のプロトコルを持っています。ただし、同社はパブリッシャーがrobots.txtファイルを変更してGoogleがウェブサイトをスクレイピングしないようにする必要があると指摘しています。これはOpenAI GPTBOTと非常に似ています。

OpenAIは実行するためのコードを共有していますが、Googleはrobots.txtを変更してGoogleがウェブサイトをスクレイピングしないようにするためのコードを共有していません。robots.txtはウェブサイトだけでなく、ウェブサイト全体に関係するため、ボットとの相性が良いです。GoogleとOpenAIがスクレイピングしているデータの大部分は、Wikipedia、Redditの投稿、記事、書籍、その他のオンラインテキストから取得されています。OpenAIはこの文脈でGPT-4 AIモデルを開発するために45TBのデータを使用しました。

Googleの信頼担当副社長は、GoogleはAIの出現に合わせてパブリッシャーの権利を保護するために進化していくと述べています。専門家によると、著作権は生成型人工知能の将来世代にとって最も大きな問題の1つになるでしょう。

Googleは公共データを収集し、AIの改善に利用しています。

Googleは5月にBard ChatbotというAIチャットボットをリリースしましたが、これはGPT-2モデルに似ているようです。OpenAI ChatGPTやBing AI Chatbotよりも洗練されていないか、より良いものではありません。それ以来、Googleは可能な限り多くのデータをコピーし、AIモデルをより正確かつ優れたものにしています。さらに、Googleは2つのAI部門をDeepmindに統合して、高度な生成型AIモードに取り組んでいます。Googleは最近、プライバシーポリシーを変更し、オンラインで投稿したすべての情報をAIツールの開発に利用することを明示的に許可しています。

これまで、Googleは黙ってインターネットをスクレイピングしてきました。また、Googleのこの決定は権利を侵害し、競合他社と比べて不公平な優位性を持っていると指摘されています。競合他社は合法的にデータを取得または購入してAIを訓練しています。このため、Googleは最大50億ドルの損害賠償を支払う可能性があります。それ以前に、GoogleのOpenAIもデータスクレイピングの疑いで同様の訴訟に直面しました。

Googleは個人情報をスクレイピングし、収集し、使用し、公開データを分析してAIモデルを訓練します。これは業界に関連するためです。GoogleのAIは既にMicrosoftのBing AIチャットボットなどの他の競合他社よりも信頼性が低いです。これはまた、ユーザーが共有するデータについてより注意を払う必要があることを意味します。利点にもかかわらず、AIは私たちが対応する必要がある新たな課題をもたらします。

コメントする