世界最高水準の精度94.7%のAI搭載
セキュアな音声文字起こし

SecureMemoは、オンプレミス提供により完全オフライン環境への導入に対応したAI文字起こしソフトウェアです。
世界最高水準のAIを活用し、精度94.7%と圧倒的な文字起こし品質を誇ります。
社内会議やZoomミーティングなどの音声をセキュアな環境で正確にテキスト化することができます。

クラウド版で精度を無料体験する

SecureMemoとは

セキュアな環境の文字起こしツールとして多くのクライアント様にご導入いただいております。

高精度な文字起こし性能

世界最高水準の精度94.7%(WER:単語誤り率 5.3%)を誇るOpenAI Whisperをベースに、Nishikaが実用上の課題を解消した音声認識AIを搭載。他の追随を許さない高い性能を示します。

オフラインでセキュア

外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。

完全自動の話者識別

⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

ユースケース/導入実績

警察、官公庁、自治体、医療機関、民間企業などの幅広いお客様へのご導入実績があります。

警察・官公庁・自治体

公的で機微な情報を含む会議録文字起こし

警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。

医療機関

委員会・部会の会議録、医師・患者の会話文字起こし

医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

経営企画・IR

投資家向け説明会などの会議録文字起こし

経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。

Nishikaによる独自チューニング

ChatGPT等を提供するOpenAIが開発した、68万時間の教師付きデータで学習したモデル“OpenAI Whisper”を搭載しています。
さらに、弊社にてオリジナルWhisper由来の音声認識時バグを排除したり、実行環境に合わせたモデルの最適化などを施しています。

Whisperによる高精度音声認識

- OpenAI Whisperは、Webから収集された68万時間の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識システム

NishikaにてWhisperをチューニング

- オリジナルWhisper由来の音声認識時バグを排除
- 実行環境に最適な精度・速度になるようにモデルを選定
- その他、利用者の欲する出力を実用レベルの速度で得られるようチューニング

Nishikaにて話者特定機能を追加

- Whisperには存在しない話者特定機能を追加実装
- 完全自動で発言ごとの話者を特定し、高精度文字起こしとともにアウトプット

発言者の自動識別機能

事前の声紋登録が不要な、完全自動の話者識別AIを独自開発。⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。

約100言語の音声の文字起こしに対応

日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。

日本語
英語
中国語
ドイツ語
スペイン語
ロシア語
韓国語
フランス語
ポルトガル語
トルコ語
ポーランド語
カタロニア語
オランダ語
アラビア語
スウェーデン語
イタリア語
インドネシア語
ヒンディー語
フィンランド語
ベトナム語
ヘブライ語
ウクライナ語
ギリシャ語
マレー語
チェコ語
ルーマニア語
デンマーク語
ハンガリー語
タミル語
ノルウェー語
タイ語
ウルドゥー語
クロアチア語
ブルガリア語
リトアニア語
ラテン語
マオリ語
マラヤーラム語
ウェールズ語
スロベニア語
カンナダ語
エストニア語
マケドニア語
ブルドン語

約100言語の音声について、英語や日本語への翻訳も可能

100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。

高精度な英語訳

外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

簡易な日本語訳(β機能)

外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。

SecureMemoの利用方法

精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。

音声/動画ファイルをアップロード

mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。

文字起こし結果・話者特定結果を「聞きながら」修正

文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。

文字起こしデータのエクスポート

文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。

利用環境

お客様の環境に応じて、複数の提供形態を準備しております。

提供形態

カンタンに導入可能な

スタンドアロン型

  • 個別の端末にアプリケーションをインストールする形式です
  • 環境があれば、翌日からでも利用開始いただける手軽さが強み
  • まずはSecureMemoを少数導入し、これまでにない業務効率化の効果を体験したい、というお客様におすすめです

全社的な利用に最適な

クライアントサーバー型

  • AIによる処理はサーバー側で実施し、その結果をクライアント端末にお返しする形式です
  • 複数端末から利用することができ、利用端末を制限しない柔軟さが強み
  • 組織的にSecureMemoを利用し、大きな業務効率化の効果をあげたい、というお客様におすすめです

推奨動作環境

スタンドアロン型

CPU利用の場合

GPU利用の場合

OS

Windows 11 (x64)
Windows 10 (x64)

Windows 11 (x64)
Windows 10 (x64)

CPU

Core i5または相当以上
※CPU性能やコア数によって処理速度は向上

Core i5または相当以上
※CPU性能やコア数によって処理速度は向上

Memory

16GB以上 (8GB以上)

16GB以上 (8GB以上)

HDD

空き容量20GB以上

空き容量20GB以上

GPU

-

VRAM 12GB以上 (8GB以上)
※CUDA Toolkit 11.7を利用

クライアントサーバー型

サーバー(CPU)

サーバー(GPU)

OS

Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)

Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)

CPU

4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加

4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加

RAM

16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加

16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加

HDD

空き容量10GB以上

空き容量100GB以上

GPU

-

VRAM 12GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
※CUDA Toolkit 11.7を利用

よくある質問

その他のご質問についてはお気軽にお問合せください。

文字起こしの精度はどのくらいですか?

最も高い性能を示すSecureMemo Premiumモデルは、単語誤り率(WER)が5.3%と報告されています。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。

セキュリティが求められる用途で使いたいが、大丈夫?

全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。

クラウドでの利用も可能?

クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。

文字起こしの速度ですが、どのくらいの時間で完了しますか?

変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。