個人情報のマスキングは、多くのケースにおいて求められます。
判例を含む多くの法律情報をデータベース化し提供されているTKC様でも例外ではなく、判例中の個人情報を匿名化する作業は業務負荷の高いものでした。
Nishikaとしても個人情報抽出・マスキングを重要性の高い課題であると考えていた折、TKC様からも賛意をいただき、データ分析コンペとしてAI開発に着手することとしました。
Nishikaにて、匿名化すべき箇所をラベルなし含む6種類に分類し、合計27000箇所超をラベリングしたデータを作成しました。
- PERSON: 人名など
- ORGFACPOS: Organization(組織名など), Facility(施設名など), Position(役職名など)を統合したラベル
- LOCATION: 場所、住所など
- TIMEX: 日付、時刻など
- MISC: その他。商品名、ウェブサイト名など
固有表現抽出と呼ばれる機械学習タスクとして設計し、その抽出精度(micro-F1 Score)を競いました。
約300名のデータサイエンティストに参加いただき、AIの精度が競い合われました。
最高精度のソリューションは、大規模言語モデルBERTをベースにした6種類の学習済みモデルを用いてアンサンブルしたもので、評価データである約7000のラベルに対して91.4%の精度で抽出可能なものとなりました。
特に人名は94.5%、組織名・施設名は81.4%という高い精度で抽出可能なものとなり、有用性の高いAI開発に成功しました。