« 2025年4月 | トップページ | 2025年10月 »

生成AI開発企業に “やり逃げ” させてはならない。

朝日新聞の記事(2025年8月29日)によると、米オープンAIが8月上旬に発表した生成AI「ChatGpt5」の評判は、前バージョンの ChatGpt4 に比べると低いよう。

一つの要因として指摘されているのは、学習データの不足だとか。
AIを学習させるデータが無くなってきていて進化させづらくなってきているということらしい。

同記事では、米AI研究グループ「エポック」が2024年6月に発表した報告書では、ネット上にある学習に有効なデータ量は英単語で約240兆語分に上るが、26年から32年にはAI開発で使い尽くされるとしている。

そんななかで「合成データ」の使用が注目されてきているという。
「生成AIで出力したデータ」、それが「合成データ」。

つまり、生成AIの学習データが無くなってきたから、今後も学習させるために生成AIで学習データを作っちゃおうというわけだ。

内容の正確性にこだわらず、文章の構造が確かなら生成AIの推論能力を鍛えることができるということらしい。

たぶん、自社開発の生成AIに「生成AIの学習データの不足を解消するにはどうすればよいかを教えてください」と尋ねたところ「生成AIで出力したデータが使えます」と言われたのだろう……違うか。

「学習データ不足」が今後どのように解決されるかはわからないけれど、一つ絶対に忘れてはいけないことがあると個人的には言いたい。

それは、「"データがある" からといって、ひと様のものを無断で使って今まで学習させてきてたでしょ!?」という点。
それが「もう無くなるから」といって、やってきたことまで無いことにさせてはならない。

そこはしっかり追求、要求、請求されるべきで、AI開発企業に「やっちゃったもん勝ちのやり逃げ」を成功させてはいけないと思う。
そもそも開発の時点で「ひと様のものを断りなく使ってよい」と考えていた人たちなのだから、放っておけば「既存の学習データの枯渇」のあともこのまま何もなかった顔をする可能性はとてもとても大きい。

"(ひと様のだけれど)データがあったので" → "使いました" → "開発しました" → "公開しました" → "話題になりました" → "資金が集まりました" という図式を漫然と成り立たせては決してならない。

創作・制作したものを学習データとして無断で使われた人たちが重ねた創作・制作に伴う鍛錬と苦悩と試行の日々へのリスペクトをもっと持ってほしい、無くさないでほしい。

加えて、AI開発企業には次のことはあらゆる国で法的に罰則付きで義務付けてもよいぐらいだと個人的には感じている。

・AIの学習に使うすべてのデータについて権利者からの許諾を得ること。
・アノテーションをどのように行っているか、アノテーションに際して児童や貧困に苦しむ人たちから労働力としての搾取が行われないように管理をしているか、労働への対価は十分に支払っているか、アノテーションを行う人たちの有害コンテンツに対する精神的・肉体的ケアは行き渡っているかなどを明確にすること。

AIを学習させる過程で学習データを入力している人たちの労働環境の確認と整備、公開をどのAI開発企業も行なうようになってほしい。

イメージとしては、児童労働や労働者からの搾取がサプライチェーン上で行われていないことを確認し公表している衣料品製造販売のパタゴニアのように。

また、開発された生成AIを使う側の組織や個人にも、上記のような点がはっきりしない生成AIは使わないという動きが出てきてほしい。

はてさて、ネット上にある学習データの枯渇に際して、AI開発企業はどのような態度を取っていくか。

生成AIの進化に拍手を送るだけでなく、その進化の裏側でAI開発企業が自分たちだけの利益や効率の向上などを進めていないかを注意深く見続け、問い続けないといけないと思うわけよ。

だって彼らは、「その節は私どもの不手際でご迷惑をおかけして申し訳ございませんでした。つきましては、従来の分とこれからの分も含めましてしっかりとお詫びならびに対処をさせていただきます」などと絶対に言わないし、しないだろうから。

| | コメント (0)

« 2025年4月 | トップページ | 2025年10月 »