御多分に漏れずAIを使う機会も増えたきた筆者だが、先日はこちらの記事を参考にRaspberry Piで、オープンソースのAIエージェント「ZeroClaw」をインストールして、カメラスキルを設置しチャットツールに"シャッタープリーズ"の一声で自宅の一室をリアルタイム撮影するところまでハンズオンできた。
動画も可能なの?と聞いてみると、聞いているだけなのに勝手に試そうとする怖さはあるが、デフォルトの設定でかなり制限されているので、そこは簡単には通らない。代わりに動作までの道筋、スクリプトの作成などを提案する。
インストールから設定、多様なLLMからの選択となかなか難易度の高いハンズオンだが、実行できるとスマートフォンからRaspberry PiのなかのLinuxのコマンドを組み合わせた動作でいろいろ拡張できるというわけだ。
設定するのにLinuxの基本操作、エラーメッセージ解読が随所に必要となるが、これもCopilotやGeminiなどのAIに聞けば、ほぼ正確な回答で進められる。サーバー周りでは必須な側面もあるLinuxを触ってスキルアップを図るという前向きなマインドも醸成される。
意外に強力なブラウザジェスチャー機能にURL
さて、AIでエラーメッセージ解読の成功率が比較にならないほど楽になっているとは言え、LLMの設定やconfigのコマンド追記の試行錯誤などの学びに労力を使った筆者。自動起動の方法など独自に進めるたびに、調べなければならないことも多々あり、何か手軽な成功体験で少し回復させようと考えた。
今回の"自然言語で操作"とは、違う何か似た感覚に覚えがある・・・そうだジェスチャー(Gesture)である。
ジェスチャーとは"身振り・手振り"を意味するが、ITの操作インタフェースに取り入れられてきた部分もある。Visorやソニーのクリエなどのガジェットも保有していたが、文字入力以外にも一定の操作が現在のIT機器にも備わっていた。
手軽なジェスチャー機能はブラウザの拡張機能である。右クリックのプレスで「←」戻る「→」進むなどストロークを描き操作する。ひさしぶりにインストールしてみると(Firefox Recommended拡張機能「Gesturefy」)、設定に以前(10年以上前)にはなかったと思われるURLへのリンク機能がある。
設定機能の新しいジェスチャー登録に「G」を手書きで登録、カスタムURLを登録にhttps://www.google.comを設定、
いろいろほかのサイトも試してみよう。同様に「O」(オー)にメール受信につかっているOutlookのURLを設定 してみる。
SaaSなど業務で活用するサイトに割り当てると、業務効率化を感じさせるものがある。ブックマークやアドレスバー操作は、塵も積もれば山となるではないが、その数が増えるととても面倒くさいのである。新鮮さの担保にも、脳内コンテクストの整理整頓にもURLへの入り口は複数あったほうが良いと感じた。
どこまで増やせて、どこまでのジェスチャー認識精度があるのか現段階では未知数だが、SaaSやクラウドコンテンツが増加する昨今、"ジェスチャー機能"は業務効率化のひとつの方法ではないかと感じる。
ちなみに、このジェスチャーと「チャット&ZeroClaw」をURLのパラメーターで連結すれば、広がりが出て面白そう。Teregramを通した形では難しそうだが、ローカルサーバで運用することは可能かもしれないことをチャットボットは示した。
うまくやれば、ジェスチャーでAIエージェントを動かせるかもしれない。リスクもあるので環境を限定しながらの実験マインドになるがジェスチャーのほうが楽なケースもあるはずだ。そう思った。











