世界最高水準の精度96.2%AI搭載オフラインでセキュアな音声文字起こし

SecureMemoは、完全オフライン・オンプレミス環境への導入に対応したAI文字起こしソフトウェアです。世界最高水準のAIを活用し、精度96.2%と圧倒的な文字起こし品質を誇ります。経営会議・日々の会議・商談・採用面談・インタビューなどの音声をセキュアな環境で正確にテキスト化することができます。

クラウド版で精度を無料体験する

SecureMemoとは

セキュアな環境の文字起こしツールとして多くのクライアント様にご導入いただいております。

高精度な文字起こし性能

世界最高水準の精度96.2%(WER:単語誤り率 3.8%)を誇るOpenAI Whisperをベースに、日本のビジネス会議音声でNishikaがファインチューニング。他の追随を許さない高い性能を示します。

オフラインでセキュア

外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。

声紋登録不要の話者特定

⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

独自開発の音声認識AI「shirushi」について

リアルな会議音声の認識精度を向上

サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。


この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。

通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。

読み上げ音声による文字起こし結果

shirushi

2002年にゴマはニラゴンゴ火山の溶岩によって破壊され、ほとんどの街路特に街の中心部が埋まってしまいました。

A社

22年に胡麻ミラゴン語火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。

B社

2002年に後輪にら5火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。

C社

2002年に後輪ニラ5火山の溶岩によって破壊され、ほとんどの街路特に街の中心部が埋まってしまいました。

D社

2002年に後輪ニラ5火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。

音声認識精度評価

元音声:https://drive.google.com/file/d/1bkDnekFgB405rb4e8mLjgSR3sEXPkwgM/view?usp=drive_link

リアル音声による文字起こし結果

shirushi

何かの盗み取られる人みたいなのがないんですよねっていう話で、クラウドも安全じゃないですよとは言いたくないので、クラウドも基本的なセキュリティ対策というのを行っていますよというのを使っています。

A社

でなんかこう息子に取られるみたいなのがないですねっていう話でクラウドを食べてじゃ安全じゃないですよとは言いたくないので、クラウドも基本的なそのセキュリティ対策っていうのを行っていますよっていうのを伝えています。

B社

なんかこの角取られるみたいなのがない。ねっていうんで、ラグも安全じゃないですよとは言いたくないので、クラウドの基本的なセキュリティ対策っていうのは行っていますよ

C社

なんか妄想に来られるみたいなのがない。ねっていう話でクラウドもぜひ安全じゃないですよとは言ってないので、クラウドの基本的なセキュリティ対策っていうのは行ってますよっていうことを伝え

D社

なんか妄想に来られるみたいなのがないねっていう話でクラウドもぜひ安全じゃないですよとは言ってないので、クラウドの基本的なセキュリティ対策っていうのは行ってますよっていうことを伝え

音声認識精度評価

元音声:https://drive.google.com/file/d/1jOwpX17rARPEpeKdtixdMuk_WHjRlSRz/view?usp=drive_link

ユースケース/導入実績

警察、官公庁、自治体、医療機関、民間企業などの幅広いお客様へのご導入実績があります。

警察・官公庁・自治体

公的で機微な情報を含む会議録文字起こし

警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。

医療機関

委員会・部会の会議録、医師・患者の会話文字起こし

医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

経営企画・IR

投資家向け説明会などの会議録文字起こし

経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。

Nishikaによる独自チューニング

ChatGPT等を提供するOpenAIが開発した、68万時間の教師付きデータで学習したモデル“OpenAI Whisper”をベースに、日本のビジネス会議音声で弊社が独自にファインチューニングしたモデル“shirushi”を搭載しています。

Whisperによる高精度音声認識

- OpenAI Whisperは、Webから収集された68万時間の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識システム

NishikaにてWhisperをチューニング

- 日本のビジネス会議音声でファインチューニング
- オリジナルWhisper由来の音声認識時バグを排除

声紋登録不要の
話者特定機能を追加

- Whisperには存在しない話者特定機能を追加実装
- 声紋登録不要。完全自動で話者を特定

声紋登録不要の完全自動話者特定

声紋登録が必要な話者識別機能は、様々な人が参加する会議では事実上使うことができません。
弊社では、事前の声紋登録が不要な完全自動の話者識別AIを独自開発。
⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

約100言語の音声の文字起こしに対応

日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。

日本語
英語
中国語
ドイツ語
スペイン語
ロシア語
韓国語
フランス語
ポルトガル語
トルコ語
ポーランド語
カタロニア語
オランダ語
アラビア語
スウェーデン語
イタリア語
インドネシア語
ヒンディー語
フィンランド語
ベトナム語
ヘブライ語
ウクライナ語
ギリシャ語
マレー語
チェコ語
ルーマニア語
デンマーク語
ハンガリー語
タミル語
ノルウェー語
タイ語
ウルドゥー語
クロアチア語
ブルガリア語
リトアニア語
ラテン語
マオリ語
マラヤーラム語
ウェールズ語
スロベニア語
カンナダ語
エストニア語
マケドニア語
ブルドン語

約100言語の音声について、英語や日本語への翻訳も可能

100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。

高精度な英語訳

外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

簡易な日本語訳(β機能)

外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

SecureMemoの利用方法

精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。

音声/動画ファイルをアップロード

mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。

文字起こし結果・話者特定結果を「聞きながら」修正

文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。

文字起こしデータのエクスポート

文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。

利用環境

お客様の環境に応じて、複数の提供形態を準備しております。

提供形態

カンタンに導入可能な

スタンドアロン型

  • 個別の端末にアプリケーションをインストールする形式です
  • 環境があれば、翌日からでも利用開始いただける手軽さが強み
  • まずはSecureMemoを少数導入し、これまでにない業務効率化の効果を体験したい、というお客様におすすめです

全社的な利用に最適な

クライアントサーバー型

  • AIによる処理はサーバー側で実施し、その結果をクライアント端末にお返しする形式です
  • 複数端末から利用することができ、利用端末を制限しない柔軟さが強み
  • 組織的にSecureMemoを利用し、大きな業務効率化の効果をあげたい、というお客様におすすめです

推奨動作環境

スタンドアロン型

CPU利用の場合

GPU利用の場合

OS

Windows 11 (x64)
Windows 10 (x64)

Windows 11 (x64)
Windows 10 (x64)

CPU

Core i5または相当以上
※CPU性能やコア数によって処理速度は向上

Core i5または相当以上
※CPU性能やコア数によって処理速度は向上

Memory

16GB以上 (8GB以上)

16GB以上 (8GB以上)

HDD

空き容量20GB以上

空き容量20GB以上

GPU

-

VRAM 12GB以上 (8GB以上)
※CUDA Toolkit 11.7以上
※NVIDIA製GPUのみサポート

クライアントサーバー型

サーバー(CPU)

サーバー(GPU)

OS

Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)

Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)

CPU

4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加

4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加

RAM

16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加

16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加

HDD

空き容量10GB以上

空き容量100GB以上

GPU

-

VRAM 12GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
※CUDA Toolkit 11.7以上
※NVIDIA製GPUのみサポート

よくある質問

その他のご質問についてはお気軽にお問合せください。

文字起こしの精度はどのくらいですか?

最も高い性能を示すSecureMemo Premiumモデルは、弊社検証の結果、単語誤り率(WER)は3.8%となります。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。

セキュリティが求められる用途で使いたいが、大丈夫?

全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。

クラウドでの利用も可能?

クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。

文字起こしの速度ですが、どのくらいの時間で完了しますか?

変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。