匿名化すべき個人情報を90%超自動抽出

TKC様 / Nishika
お問い合わせ
BACKGROUND

背景

個人情報のマスキングは、多くのケースにおいて求められます。

判例を含む多くの法律情報をデータベース化し提供されているTKC様でも例外ではなく、判例中の個人情報を匿名化する作業は業務負荷の高いものでした。

Nishikaとしても個人情報抽出・マスキングを重要性の高い課題であると考えていた折、TKC様からも賛意をいただき、データ分析コンペとしてAI開発に着手することとしました。

WHAT WE DO

取り組み

Nishikaにて、匿名化すべき箇所をラベルなし含む6種類に分類し、合計27000箇所超をラベリングしたデータを作成しました。


- PERSON: 人名など

- ORGFACPOS: Organization(組織名など), Facility(施設名など), Position(役職名など)を統合したラベル

- LOCATION: 場所、住所など

- TIMEX: 日付、時刻など

- MISC: その他。商品名、ウェブサイト名など


固有表現抽出と呼ばれる機械学習タスクとして設計し、その抽出精度(micro-F1 Score)を競いました。

ACHIEVEMENT

成果

約300名のデータサイエンティストに参加いただき、AIの精度が競い合われました。

最高精度のソリューションは、大規模言語モデルBERTをベースにした6種類の学習済みモデルを用いてアンサンブルしたもので、評価データである約7000のラベルに対して91.4%の精度で抽出可能なものとなりました。

特に人名は94.5%、組織名・施設名は81.4%という高い精度で抽出可能なものとなり、有用性の高いAI開発に成功しました。

プレスリリース
Nishika:判例中の個人情報を9割超の精度で抽出可能なアルゴリズムを開発
Nishikaは、8000名超の実装力に強みがあるデータサイエンティストを抱える集団として、多様なテーマの実績があります。
以下もご覧ください。

AI導入事例

■ Nishikaとは

Nishikaは、数百人のデータサイエンティストがAIモデルの精度を競い合い、最も良い精度のソリューションをクライアント企業に納めさせていただく開発手法「データ分析コンペティション」を提供しています。
各領域に強い数千名の登録データサイエンティストの力を借り、他のどの開発手法よりも高い性能のAIモデルを開発することが可能です。

また、コンペティションを通じて幅広い領域のAI開発を手掛けさせていただいている実績を活かし、これからAI開発に着手するが、広い視点で相談に乗ってほしい、という企業様に対しても、実績の確かな手法を携えたご支援をさせていただくことが可能です。