SecureMemoは、オンプレミス・オフライン環境への導入にも対応した、AI文字起こしソフトウェアです。
世界最高水準のAIを活用し、圧倒的な精度を誇ります。さらにAIの動作に最適な環境を用意することで、数分での文字起こしが可能。セキュアな環境で音声データを正確にテキスト化することができます。
世界最先端のAIを搭載した、オンプレミス・オフライン環境でも導入可能な文字起こしソフトウェアです。
2022年に公開され、68万時間の音声データにて学習を行った世界最高水準のファウンデーションモデル(OpenAI Whisper)をベースにNishikaが開発したソフトウェアであり、他の追随を許さない高い性能を示します。
外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。
医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。
公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
ChatGPT等を提供するOpenAIが開発した、68万時間の教師付きデータで学習したモデル“OpenAI Whisper”を搭載し、さらに弊社にてチューニングを行っています。
ファウンデーションモデルは、大量かつ多量なデータで訓練され、多様な下流タスクに適応(ファインチューニングなど)できるモデルのことを指します。例として、大量のテキストデータで学習し、自然言語分類や質問応答など多様なタスクで利用可能なBERTや、文章生成も可能なGPT-3、画像分類が可能なCLIPなどが挙げられます。
ファウンデーションモデルの1つであるOpenAI Whisper は、Webから収集された 680,000 時間分の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識 (ASR) システムです。このように大規模で多様なデータセットを学習に使用したことで、アクセント、バックグラウンドノイズ、および専門用語に対する堅牢性が向上しています。
Reference: https://openai.com/blog/whisper/
SecureMemoのご利用方法は簡単。音声ファイルをアップロードし、テキスト化されるのを待つだけです。
mp3, wav, m4aなどのファイル形式の音声/動画ファイルをアップロードします。
アップロードすると、文字起こしの進捗状況が表示されます。
同時に複数のファイルをアップロード可能です。
文字起こしが完了すると、テキストファイルで結果をエクスポートすることができます。
文字起こし結果をクリックすると、その時点から音声の再生がスタートし、「聞きながら修正」を行うことができます。
以下の環境に限らず、幅広い環境で動作する設計となっています。お気軽にお問合せください。
CPU利用の場合
GPU利用の場合
OS
Windows 10 (x64)
Windows 11 (x64)
Windows 10 (x64)
Windows 11 (x64)
CPU
第12世代Core i5
(10コア12スレッド、4.2GHz)相当以上
第12世代Core i5
(10コア12スレッド、4.2GHz)相当以上
Memory
16GB
16GB
GPU
-
【Premiumをご利用の場合】
Memory 12GB以上
【Standardをご利用の場合】
Memory 8GB以上
※CUDA Toolkit 11.7を利用
パラメータ数が多く認識精度を最大限に向上させた
パラメータ数が少なく動作環境の要求水準を抑えた
最も高い性能を示すSecureMemo Premiumが搭載しているファウンデーションモデルは、単語誤り率(WER)が5.3%と報告されています。
体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。
全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。
クラウド環境でのご利用も可能です。Nishikaが提供するAPIをCallしていただくことができます。
Webブラウザ上からご利用いただけるサービスも、現在開発中です。
OpenAI作成のWhisperに対して弊社にて高速化を施しておりますが、変換速度はSecureMemoを実行される環境に依存します。
事例として、CPU利用の場合、1時間ほどの会議の音声でPremiumで1時間ほど、Standardで45分ほどかかります。Premiumですと従来の製品より若干時間が必要ですが、その分高い精度を示します。
一方、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。