「あの窓まで荷物を運んで」と指示可能なドローン[小林啓倫のドローン最前線] Vol.90
物流の最終段階である、「消費者の手元に商品を届ける最後の区間」を指す「ラストワンマイル配送」。近年、EC市場の拡大により配送需要が急増し、さまざまな問題が生じている。
ドローンに期待される「ラストワンマイル配送」
たとえば日本では、ラストワンマイルを担うドライバーの不足が深刻化している。ある調査によれば、宅配需要に対するトラックの配送能力は2024年以降から不足に転じていると見られ、2030年における宅配トラックドライバーの不足人数は、約5.8万人に達すると予測されている。
また都市部における交通渋滞や、信号待ちによる配送時間の増加も問題となっている。それにより配送の効率性が落ち、配送能力のさらなる低下を招いているためだ。たとえば国土交通省の全国道路・街路交通情勢調査によれば、東京都の一般道における平均旅行速度は時速19.4km、大阪府では時速22.0kmと、全国平均の時速30.5kmを大きく下回っている。
こうした問題を一気に解決する手段として期待されているのが、もちろんドローンだ。自律型のドローンにラストワンマイルの配送を担当させれば、人員を大幅に追加することなく、配送能力を強化することができる。そして空を飛んで移動できるドローンであれば、道路の渋滞や細い道なども気にする必要はない。さまざまな法制度に従う必要は残るものの、最短距離・最短時間で配送を終わらせることが期待できる。
とはいえ、ドローンによるラストワンマイル配送には課題も多い。現在実現されているドローン配送の多くは、比較的開けた場所への大まかな配送が中心となっている。たとえば「A地点の離陸ポートからB地点の着陸ポートへ」といった定型的なルートを飛行したり、広い着陸スペースが確保された場所へ荷物を下ろしたりするケースが多い。私たちが日常的に利用するオンラインショッピングで求められるラストワンマイル配送は、それとは大きく異なる。
ラストワンマイル配送の多くで求められるのは、マンションの一室やオフィスビルの特定のフロアといった、より細かく、よりピンポイントな場所に荷物を届けることだ。「玄関前に置いてください」「宅配ボックスに入れてください」といった指示は一般的になったが、自律型ドローンにアパートの3階のベランダや、オフィスの窓まで直接荷物を届けさせるのは至難の業だ。しかしそれが実現できれば、消費者は配送を待つために在宅している必要がなくなり、受け取りのタイミングを気にするストレスも軽減される。特に高層マンションの住民や、セキュリティの厳しいオフィスビルで働く人々にとっては、このメリットは計り知れない。
そこで、従来のドローン配送システムでは対応が難しかった、「特定の窓へ、言葉による指示だけで届ける」という、人間のような柔軟性と精度を兼ね備えた配送能力を実現する研究が進められている。そのひとつが、今回紹介する「LogisticsVLN」という技術だ。
「言葉で指示する」だけでドローンが配送を実現
[caption id="attachment_116231" align="aligncenter" width="1280"]
言葉で指示するだけで、指定された配送を行ってくれるドローンが実現される?(画像は筆者がChatGPTで生成)[/caption]
この論文を発表したのは、中国科学院の研究者ら。彼らの提案するシステムは、人間のように言葉(テキストによる指示)と映像(カメラに映る景色)を理解するAIを搭載したドローンというもので、それにより複雑な指示でも的確にこなし、ラストワンマイル配送を実行してくれる。
LogisticsVLNにおいて、ドローンが言葉による指示を受けてから実際に荷物を届けるまでのプロセスは、大きく分けて4つに分けられる。
まず、顧客からの配送リクエスト(たとえば「3階の窓の外にある青い植木鉢のところに届けてください」)を、システム内のLLM(大規模言語モデル)が解析する。LLMは、ChatGPTのような生成AIの頭脳となる技術であり、この自然な文章の中から、配送に必要な重要な情報(「目標の階数(3階)」や「目印となる特徴的な物体(青い植木鉢)」など)を的確に抽出する。
次に、抽出された「目標の階数」の情報に基づき、ドローンが建物の適切な高さまで上昇する。このとき、ドローンの前面カメラが捉えた建物の映像を、VLM(視覚言語モデル、文字通り視覚と言語の解析を行うAIモデル)が分析する。VLMは、映像中の窓の並びや建物の構造などから、現在ドローンが見ているのが何階部分に相当するのかを推定する。
第3に、目標の階数に到達したドローンは、建物の周囲をゆっくりと飛行しながら、目標となる窓の探索を開始する。ドローンは複数のカメラを搭載しており、広範囲の映像情報をリアルタイムで取得する。これらの映像は再びVLMに入力され、VLMは最初のステップで抽出された「目印となる物体(青い植木鉢)」を映像の中から探し出す。
VLMが「青い植木鉢」を伴う目標の窓を映像内に発見すると、ドローンは最終的な配送フェーズに入る。ドローンは目標の窓に接近する途中で電線や木の枝、隣の建物の壁などに衝突しないよう、搭載された深度センサー(対象物との距離を測定するセンサー)からの情報を活用する。深度センサーの情報とカメラ映像を組み合わせることで、AIは3次元的な空間認識を行い、安全な飛行経路を判断する。そして慎重に目標の窓へ接近し、荷物を正確に届けることでミッションを完了する。
残念ながら、このシステムはまだ現実空間では実用化されていないものの、仮想空間上で都市部の環境を再現した場を使った実験が行われている。それによれば、中国のアリババ社が開発したQwen2-VL-7BというVLMを使用した場合、300のタスクのうち半数以上(成功率54.7%)で配送に成功した。これは特定の環境への事前学習や、詳細な地図情報なしに達成された結果であり、「本アプローチの潜在的な有効性を示している」と研究者らは評価している。
もちろんLogisticsVLNを現実空間で実用化するためには、悪天候への対応や、より複雑な障害物回避能力、法規制の整備など、まだ多くの課題を乗り越える必要がある。しかしこの研究は、「言葉で指示するだけで荷物が窓まで届く」という新たなドローンのナビゲーションが、着実に現実のものとなりつつあることを示していると言えるだろう。