Vol.78 生成AIで進化するドローンの目。世界に衝撃を与えたGPT-4o[小林啓倫のドローン最前線]
今年5月、ChatGPTの開発企業として知られるOpenAI社から、「GPT-4o」が発表された。GPT-4oを搭載したChatGPTは、デモンストレーションで驚くような機能を見せ、ドローンとの連携にも注目が集まっている
今年5月、ChatGPTの開発企業として知られるOpenAI社から、新しいLLM(Large Language Model:大規模言語モデル)「GPT-4o(フォーオー)」が発表された。LLMとは、いわゆる生成AIを動かすエンジンのような技術で、その性能がAIの賢さを大きく左右する。そしてこのGPT-4oを搭載したChatGPTは、デモンストレーションにおいて、各種の驚くような機能を見せた。
OpenAI社によるGPT-4oのデモンストレーション
たとえば上の動画の15分あたりで、手書きの計算式をAIに認識させ、その解き方を説明してもらうというシーンが出てくる。AIはそれをやってのけるのだが、従来の技術であれば、手書き画像を認識させて小休止、ユーザーが次の質問をして小休止…といった具合になっていただろう。
しかしGPT-4oでは、ほぼリアルタイムでAIとの会話が成立している。AIがカメラを通じて周囲の空間を認識し、ユーザーの行動を捉え、それに対して意味のある反応を行うというステップが、人間に近い速度で行えるようになっているわけだ。
ならばこの技術を使って、さまざまな機械が周囲の環境を認識し、人間とインタラクションすることを高度化させられないだろうか。そんな発想から、いまドローンとLLMを結び付けようという取り組みが始まっている。
たとえば今年4月には、日本の国立情報学研究所(NII)に所属する4名の研究者から、関連する論文が発表されている。彼らは2種類のLLMを使用し、ドローンが撮影した映像内から人間を認識して、その人物がどのような行動を取っているかを把握させるという実験を行った。
ドローンが撮影する映像をAIに解析させるという研究は、もちろんこれまでも行われてきた。ただ従来の場合、サンプルとなるデータを大量に集め、それをAIに学習させるという手間があった。つまりドローン映像を解析可能なAIを実現するためには、そのサンプルを大量に集めなければならず、しかもAIがサンプルとして使えるようにするために、人間が注釈を付けてやらなければならない。この説明だけで、それがいかに手間と時間のかかることか想像できるだろう。
そこでLLMの出番というわけだ。LLMは特定の企業やオープンソース・コミュニティによって開発済みであることが一般的で、それに多少の調整を行うだけで、さまざまなタスクをこなすAIとして利用可能になる。それをドローンを対象にして行ったのが、今回の研究だ。
高い汎用性への期待
研究者らはまず、YOLO-WorldとGPT-4Vという2つのモデルを用意した。正確に言うと、これらはLMM(Large Multimodal Model:大規模マルチモーダルモデル)といって、テキストだけでなく音声や映像といったさまざまなコンテンツによって学習が行われたモデルだ。したがって、言語だけでなく音声や映像もインプットとして取り込み、それを解析することができる。
YOLO-Worldは物体検知に特化したモデルで、前述のような事前の準備をする(大量の映像を用意して、何が映っているかという情報を人間が付与した上でAIに与える)ことなく、さまざまな物体を把握できるようになっている。GPT-4Vはその名前から想像できる通り、OpenAI社が開発したLMMで、「V」は「ビジョン」を意味している。 今回の研究では、YOLO-Worldにドローン映像内から人間が映っているかどうかを認識させ、人間が認識された場合にはそれをGPT-4Vに渡し、何をしているのか推測させるという役割分担をさせている。
実験には、Okutama-Actionというデータセットを使用した。このデータセットには、2台のドローンが異なる時間帯に撮影した動画が含まれている。各動画の長さは平均約1分で、1つのカメラフレームには最大10人が写っており、それぞれが12種類の行動のいずれかを行っている。それを事前のトレーニングなく、いきなりYOLO-WorldとGPT-4Vに与え、どのくらいの精度で認識できるか試したわけだ。
その結果、YOLO-Worldは人を見つけ出すことにおいて高い性能を示したものの、残念ながらGPT-4Vは、その人の行動を正確に認識するのが難しいことが判明した。
データセット「Okutama-Action」の一部
ただ研究者らは今回の結果について、精度は従来のアプローチに及ばなかったものの、モデルを訓練するのではなく単に指示するだけで良いという点で、大きなメリットがあると考えている。このアプローチであれば、指示の内容を変更するだけで、ドローンを全く別の用途に適用できる可能性があるためだ。たとえば今回の実験は、人間を検出するという点で災害救助などを念頭に置いたものだったが、牛や羊などを検出して放牧に役立てるといった使い方にもすぐ転用できるだろう。
研究者らは今後、精度を上げるための研究を続けるとしている。また生成AI全般を見ても、それをロボット等の端末に搭載できるほどサイズを小さくする研究が行われており、OpenAI社も一時中断していたロボット研究を再開するとしている。いずれ私たちが使うChatGPTと同じ頭脳が、ドローンに搭載される日が来るかもしれない。