大規模言語モデル信頼性評価ツール「LangCheck」をOSS化 - Citadel AI

AI開発スタートアップ企業Citadel AIは10月12日、LLM(Large Language Model:大規模言語モデル)を用いた業務アプリケーションの信頼性を測定するツール「LangCheck(ラングチェック)」のオープンソース化を発表、GitHubにソースコードを公開した。バージョンはv0.1.0、MIT Licenseが設定されており、pip(package installer for Python)を通じて、pip install langcheckでインストールできる。

LangCheck

「LangCheck」は、メトリックス(metrics:定量化されたデータ管理指標)を使用しLLMで生成されたテキストの評価を行うツールでLLMテストツールを網羅的にパッケージ化しており、統一化されたインターフェースでLLMアプリケーション生成データの検証を行う。使用できるメトリックスは有害な出力や差別的な出力をチェックする「Toxicity」、事実との一致度を測定する「Factual Consistency」、文法・単語等の誤りをチェックする「Fluency」、ポジティブ・ネガティブ表現をチェックする「Sentiment」など。その他利用できるメトリックスについては、Githubサイトで確認できる。

同社は、自身のリソースで機械学習を行うケースは少なく、ChatGPT等の基盤モデルをAPIアプリケーションとして利用するケースが一般的で、基盤モデル出力データの信頼性が問題となっていることに言及。対応する評価ツールは専門化、複雑化しており、既存データの評価法を統合して簡潔に利用できるツールの必要性を感じ「高品質な業務用のLLM Appを開発・運用できる環境を、エンジニアの皆様と共に早期に実現」することを目標にOSS化に踏み切ったという。Citadel AIは、2020年12月に創業したAI開発スタートアップ企業。「信頼できるAI」を目標にAI開発を行い、AIに関わる法制度や国際標準に対応する適合性診断を行う「Citadel Lens」、AIを継続的にモニタリングし異常の自動検知を行う「Citadel Radar」などのソリューションの提供を行っている。