精度3倍の高性能類似画像検索システムを開発

特許庁様
お問い合わせ
BACKGROUND

背景

特許庁において審査業務が行われている商標画像の申請件数は毎年増加し、2020年には18万件を超えていました。

業務効率化が急務でしたが、従前のイメージサーチツールでは、特に部分一致や方向違いなどの画像の検出が困難でした。

精度面の壁を打ち破るため、データ分析コンペティションの仕組みを活用することとし、特許庁初のコンペ運営事業者としてNishikaを選定いただきました。

WHAT WE DO

取り組み

正解データとして、実際の出願画像に審査官が類似と判定した画像をペアとしたセットを4000程度提供。また、検索対象データとして、承認済み商標画像約80万枚を提供しました。

検索結果上位20件に真に類似の画像を含められるかどうかを競うタスクとし、80万枚の画像から20件の中に類似の画像を含める、まさに「大河の一滴を見つける」高難易度のタスクとなりました。

さらに、単に精度が高いだけでなく、現実的に運用可能な環境で実用に耐える推論速度を出すことも必要な条件とするため、クラウドサービスで調達が可能なサーバースペック(CPUコア数、メモリ、ディスクサイズ、GPU種類などの観点で)を実行環境として指定した上で、AIモデル開発を行いました。

ACHIEVEMENT

成果

600チーム以上の個人・企業が参加し、競い合いました。上位には、類似画像検索を研究対象とするR&D部門のチームなども参加しました。

トップソリューションでは、まず画像を特徴ベクトルに変換するにあたり、事前学習モデルとしてSwin Transformer, ConvNeXtなど実績のあるモデルを使用するだけでなく、与えられた教師データに加えて画像のphash値から類似画像をグルーピングし、新たな教師データとするといった前処理も重要なプロセスとなりました。
得られた特徴ベクトルに対し、予め定めた実行環境内で動作するように、必要に応じてPCAなどによる次元削減を行った上で、得られたベクトルをクエリとして検索を行いました。

トップソリューションはいずれも、従前のイメージサーチシステムの倍以上の精度を達成し、特に優勝ソリューションは従前システムの約3倍の精度を達成しました。

予め定めた実行環境で、クエリ画像ごとの推論速度も2秒以下と実用できる水準を実現し、高い精度と実用可能性を兼ね備えたソリューションが完成しました。

プレスリリース
経済産業省:「AI×商標:イメージサーチコンペティション」の入賞モデルを決定
Nishikaは、10000名超の実装力に強みがあるデータサイエンティストを抱える集団として、多様なテーマの実績があります。
以下もご覧ください。

AI導入事例

■ Nishikaとは

Nishikaは、数百人のデータサイエンティストがAIモデルの精度を競い合い、最も良い精度のソリューションをクライアント企業に納めさせていただく開発手法「データ分析コンペティション」を提供しています。
各領域に強い数千名の登録データサイエンティストの力を借り、他のどの開発手法よりも高い性能のAIモデルを開発することが可能です。

また、コンペティションを通じて幅広い領域のAI開発を手掛けさせていただいている実績を活かし、これからAI開発に着手するが、広い視点で相談に乗ってほしい、という企業様に対しても、実績の確かな手法を携えたご支援をさせていただくことが可能です。