SecureMemoは、オンプレミス提供により完全オフライン環境への導入に対応したAI文字起こしソフトウェアです。
世界最高水準のAIを活用し、精度94.7%と圧倒的な文字起こし品質を誇ります。
社内会議やZoomミーティングなどの音声をセキュアな環境で正確にテキスト化することができます。
セキュアな環境の文字起こしツールとして多くのクライアント様にご導入いただいております。
世界最高水準の精度94.7%(WER:単語誤り率 5.3%)を誇るOpenAI Whisperをベースに、Nishikaが実用上の課題を解消した音声認識AIを搭載。他の追随を許さない高い性能を示します。
外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。
⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
警察、官公庁、自治体、医療機関、民間企業などの幅広いお客様へのご導入実績があります。
警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。
医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。
ChatGPT等を提供するOpenAIが開発した、68万時間の教師付きデータで学習したモデル“OpenAI Whisper”を搭載しています。
さらに、弊社にてオリジナルWhisper由来の音声認識時バグを排除したり、実行環境に合わせたモデルの最適化などを施しています。
- OpenAI Whisperは、Webから収集された68万時間の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識システム
- オリジナルWhisper由来の音声認識時バグを排除
- 実行環境に最適な精度・速度になるようにモデルを選定
- その他、利用者の欲する出力を実用レベルの速度で得られるようチューニング
- Whisperには存在しない話者特定機能を追加実装
- 完全自動で発言ごとの話者を特定し、高精度文字起こしとともにアウトプット
事前の声紋登録が不要な、完全自動の話者識別AIを独自開発。⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。
100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。
外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。
mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。
文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。
文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。
お客様の環境に応じて、複数の提供形態を準備しております。
カンタンに導入可能な
全社的な利用に最適な
CPU利用の場合
GPU利用の場合
OS
Windows 11 (x64)
Windows 10 (x64)
Windows 11 (x64)
Windows 10 (x64)
CPU
Core i5または相当以上
※CPU性能やコア数によって処理速度は向上
Core i5または相当以上
※CPU性能やコア数によって処理速度は向上
Memory
16GB以上 (8GB以上)
16GB以上 (8GB以上)
HDD
空き容量20GB以上
空き容量20GB以上
GPU
-
VRAM 12GB以上 (8GB以上)
※CUDA Toolkit 11.7を利用
サーバー(CPU)
サーバー(GPU)
OS
Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)
Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)
CPU
4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加
4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加
RAM
16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
HDD
空き容量10GB以上
空き容量100GB以上
GPU
-
VRAM 12GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
※CUDA Toolkit 11.7を利用
その他のご質問についてはお気軽にお問合せください。
最も高い性能を示すSecureMemo Premiumモデルは、単語誤り率(WER)が5.3%と報告されています。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。
全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。
クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。
変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。