2022-12-03

オープンソースの開発者と法律事務所が、GitHubと親会社のMicrosoft、開発したOpenAIの3社を訴えるクラスアクション(集団代表訴訟)を提起した

概要

  • Github Copilotは公開されたソースコードで学習されているソースコード生成AI
  • これらのコードの多くはライセンス契約によって利用条件を定めている
    • 例えば「作者名の表示」などが利用の条件となっている
  • Copilotが生成するコードは作者名の表示などの条件を満たしていない
    • これはライセンス違反であると原告側は主張
    • 被告側の以前の主張
    • GitHubのCEO(当時、2021年11月に退任)のNat Friedman氏が、Copilotのデータ利用には「フェアユース」(公正利用の例外規定)の法理が適用されるという見解…

フィルター

  • Github側のフィルターがあるという主張
    • 「GitHubで公開されているコードが生成された場合、検出してアラートを出すフィルター(オンオフ切り替え式)を用意している」と説明している。提案されたコードを使うかどうかは、ユーザーに委ねられる

  • これと食い違ういくかの報告がある
    • ゲーム「Quake III」の有名なソースコードが…Copilotから提案されたとするオープンソース開発者の話

    • テキサスA&M大学のTim Davis教授(コンピュータサイエンス・エンジニアリング)が「私が著作権を持つ大きなコードチャンク(塊)を、Copilotが帰属もLGPLもなしに出力している」とツイート

  • 大前提としてまずはどちらの主張が間違ってるのか双方が証拠を出して事実認定しないとだね
    • 僕の想像だと、おそらくフィルターは存在しているが「フィルターが『同じ』と判断する範囲」と「人間が『同じ』と判断する範囲」に食い違いがあるんだと思う
    • この話がピンとこない非エンジニアも読むと思うので具体例を出すと、例えばフィルターが「ソースコードの文字列が完全に一致したらアラートを出す」という実装の場合、ソースコード中の空白文字の数が異なっていたら警告しない。しかし人間は「空白文字の数は異なるかもしれないが明らかに同じものだろ!」と怒る
      • 流石に当時でもここまで酷い実装ではなかっただろうなというのがnishio.iconの肌感
        • ただし、考えの浅いエンジニアが急いでやっつけ仕事をしたならそういうコードになってしまうこともないとは言えない
      • どちらかというか各種のパラメータを「大体これくらいで安全だろ」と設定したら、世の中に意外と大勢の「批判のネタを作り出すために問題のあるコードが出やすい行動を繰り返し実行する人」がいた、ということだろうと思っている
      • このフィルターの出来によって批判が燃え上がることがわかった後なので、間違いなく相応の技術力のエンジニアがレビューして、パラメータも厳しめに設定し直しているはず
      • なので被告側は「その現象は過去のバージョンにあった問題で、今はもう修正済みだから再発しない」と主張するだろうね
      • 証拠として大量の生成結果とそれにもっとも類似してるソースコードのペアを出して「ほら複製権の侵害ではないでしょ」とやって「そうだね」ってなりそう

フェアユースに該当するか

  • 米国著作権法で争われてるのでフェアユースかどうかの議論になっている
  • 原告のButterick氏
    • 「ライセンス表記なしでコードを利用させると、オープンソース運動そのものを殺してしまう」

    • わざとなのかわからないけど「利用」という言葉を曖昧に使ってるな
      • 例えば具体的なライセンスとしてGPLv3を見ると利用の許諾とはlegal permission to copy, distribute and/or modify itだと書いてある
      • このソースコードを機械学習の対象とすることに関して、そもそもライセンスは何も言ってない
      • Copilotが学習データと同じものを出してしまうならcopyやmodifyに該当しうるわけだが、それは修正済みだろう
  • 過去の例
    • 2005年、図書館の蔵書をスキャン・電子化して登録する「Google Books」プロジェクトが著作権侵害にあたるとして作家団体Authors Guildと3人の著者がGoogleを訴えたクラスアクションがあった。

    • Google Books訴訟は10年かけて争われ、2015年10月、連邦控訴裁がフェアユースを認め、Google側勝訴の二審判決を下している。作家側は上訴したが、却下された。