GitGuardianは3月12日(現地時間)、「State of Secrets Sprawl Report 2024」において、2023年はGitHubから1,200万件を超える認証情報が流出したと報じた。これら認証情報は公開リポジトリ上のデータから検出されたもので、GitHubアカウントのものではない。

  • State of Secrets Sprawl Report 2024

認証情報の公開

GitHubはさまざまなソフトウェアのソースコードを管理できる人気のプラットフォーム。多くの開発者がソースコードをGitHubで管理・公開している。ソフトウェアは規模が大きくなるにつれ、さまざまな外部リソース(データベースなど)とやり取りするようになる。そのため、リソースにアクセスする際に認証情報を必要とするが、一部の開発者はその認証情報をソースコードに埋め込んだままリポジトリに保存することがある。これが認証情報流出の主な原因となる。

GitGuardianは過去4年間のGitHubから検出された認証情報の統計データを公開している。公開されたデータによると、2020年に流出した認証情報は約300万件だったが、2023年には約1,280万件の約4倍に増加したという。また、2023年はサイバー攻撃の初期アクセスとして、侵害された認証情報の悪用が最も多かったとされる。

  • 002l.jpg

    2020年から2023年にかけてGitHubに公開された認証情報件数の推移  引用:GitGuardian

GitHubからの流出リスク

GitGuardianによると、2023年は約11億件のコミットをスキャンし、そのうち800万件から少なくとも1つの認証情報の流出を検出したとのことだ。1コミットあたりの流出割合はおおよそ0.73%で、137件のコミットにつき少なくとも約1件の流出している計算だ。

国別の統計ではインドからの流出が最も多く、これに米国、ブラジル、中国、フランス、カナダが続く。流出した認証情報の種別では、Google API Key(約24.6%)が最も多く、これにMongoDB Credentials(約22.2%)、OpenWeatherMap Token(約11.4%)、Telegram Bot Token(約10.0%)、Google Cloud Keys(約6.1%)、AWS IAM(約3.5%)が続く。

  • 003l.jpg

    2023年にGitHubから流出した認証情報の種類別の割合 引用:GitGuardian

生成AIの認証情報

GitGuardianは、2023年にGitHubからOpenAIのAPIキーが前年比1,212倍流出したと説明している。生成AIの中ではOpenAIの認証情報流出が最も多いが、2023年12月の1か月間だけを見るとHugging Faceのアクセストークン流出がトップとなっている。

  • 004l.jpg

    2023年にGitHubから流出した生成AI(OpenAIおよびHugging Face)の認証情報件数の推移 - 引用:GitGuardian

対策

GitHub上に公開した認証情報は公開期間が短かったとしてもすべて侵害されたとみなして速やかに変更することが推奨されている。しかしながら、認証情報の公開に気づいていない開発者が多いとみられ、GitGuardianは公開から5日経過しても平均で90%以上が変更されていないと指摘している。

GitGuardianはGitHubから流出した認証情報に関するより詳細な情報を「(PDF) THE STATE OF SECRETS SPRAWL 2024 - GitGuardian」にて公開している。企業や組織にはこのレポートから自社のリスクがどこに存在するのか把握し、情報流出の防止に役立てることが望まれている。