このブログは、株式会社ArmorisアルバイトのShaderoが書いています。
あるもりすぶろぐの内容は個人の意見です。
はじめに
今回は、Googleが開発しているLLMであるGeminiの検証を行いました。 具体的には、建物が写った画像をGeminiに読み込ませ、その建物の位置を推論した際の精度を評価しました。この記事では、位置推論の精度と、精度を向上させるための方法について考察します。
概要
Google Geminiを用いることで、画像に写った建物の名前と位置を推論することができます。
画像に人物や他の建物が写っていると、推論を行ってくれなかったり、誤った推論を行う場合があります。検索対象の建物以外の情報が極力写らないように画像をトリミングした状態で推論を行うことで、精度が向上します。
Google Geminiについて
Google Geminiとは、Googleが開発を行っているLLMです。テキストの他に画像を入力として受け取ることが可能で、画像を入力した場合、文字認識や、物体の推論、建物の位置推論などを行う事ができます。
検証
今回の検証は、秋葉原にある有名な建物を5件ピックアップして行いました。
画像の取得にはGoogle ストリートビューを用い、検証時に入力するプロンプトは「この画像の場所を教えてください」としました。
今回検証に用いた建物とその画像は以下の5件です。
検証結果
上記条件での推論結果は以下の通りです。
建物名 | 推論 |
---|---|
秋葉原UDX | ○ |
愛三電気 | × |
ソフマップ秋葉原 | ○ |
神田明神 | -- |
秋葉原電気街 | × |
秋葉原UDXとソフマップ秋葉原においては正しい推論を行いました。
一方、愛三電気では誤った推論をし、異なる位置を出力しました。 また秋葉原電気街においては、画像の大黒屋の看板を認識し、大黒屋の店舗がいくつか出力されましたがいずれも誤った推論でした。
神田明神においては、「人物の画像についてはまだ対応していません。」といった出力がされ、そもそも推論を行ってくれませんでした。
追加検証
上記の検証で推論に失敗した3つのケースに対して追加検証を行いました。
追加検証で用いた画像は以下の通りです。
愛三電気では、愛三電気以外の建物が極力写らないようにトリミングしました。 神田明神では、人が写らないように画像をトリミングしました。 秋葉原電気街では、画像をトリミングし写っている建物を減らしました。
追加検証結果
上記の条件での推論結果は以下の通りです。
建物名 | 推論 |
---|---|
愛三電気 | ○ |
神田明神 | ○ |
秋葉原電気街 | △ |
愛三電気と神田明神では、正しい推論を行ってくれました。
秋葉原電気街においては、正確な位置は推論できなかったものの、建物が東京都千代田区内にある旨の出力をしました。
最後に
今回は、Googleが開発しているLLMであるGeminiの検証を行いました。
今回検証した建物5件のうち、4件の位置を正確に特定できました。
人物が写った画像で検証すると、「人物の画像についてはまだ対応していません。」と言われ検索してくれないケースがありました。また検索対象以外の建物が写っていると、誤った推論を行うケースがありました。検索対象の建物のみ画像に写るようにトリミングを行う事で、推論の精度を上げることができると思います。