動画の人は何をしている？Computer visionのツールセットをOSS - Microsoft

Microsoft公式ブログAzure AIは現地時間17日、同社の"Computer vision"に関する新たなツールセットをGitHubに設置したことを発表した。

リポジトリにはPytorchを深層学習ライブラリの基礎として動作させるモデルやリソースが5つのシナリオ(Classification、Similarity、Detection、Action Recognition、Crowd Counting)に分類され、Jupyter notebooks形式で提供されている。

(Nearly) Everything you need to know about computer vision in one repo動画より抜粋

公式ブログには、Action Recognitionの動作サンプルの様子が動画で公開されており、手書きでノートに書くと"writing"、本を読むと"reading"、ペットボトルの蓋をあけると"opeing bottle"、水を飲むと"drinking"と、事細かに動画に映る人の動作を数値比率とともに表している。公開の理由について、この分野は非常に有用であるにも関わらず新規参入にはハードルが高いこと、オープンソースコミュニティへの貢献、同社としてはAzureコンピュータービジョンシステムを構築するためのベストプラクティスガイドラインの提供を目標としていることなどを述べている。