世界最高水準のAI搭載
オンプレミス文字起こし
SecureMemo

SecureMemoは、オンプレミス・オフライン環境への導入にも対応した、AI文字起こしソフトウェアです。
世界最高水準のAIを活用し、圧倒的な精度を誇ります。さらにAIの動作に最適な環境を用意することで、数分での文字起こしが可能。セキュアな環境で音声データを正確にテキスト化することができます。

サンプル音声を無料で文字起こししてみる

SecureMemoとは

世界最先端のAIを搭載した、オンプレミス・オフライン環境でも導入可能な文字起こしソフトウェアです。

高精度な文字起こし性能

2022年に公開され、68万時間の音声データにて学習を行った世界最高水準のファウンデーションモデル(OpenAI Whisper)をベースにNishikaが開発したソフトウェアであり、他の追随を許さない高い性能を示します。

オンプレミスでセキュリティ担保

外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。

導入実績

医療機関様:委員会・部会の会議録文字起こし、
医師・患者の会話文字起こし

医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

警察・官公庁・自治体様:
公的で機微な情報を含む会議録文字起こし

警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。
公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

経営企画・IR担当様:
投資家向け説明会などの会議録文字起こし

経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。
そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。

68万時間の教師付きデータで学習したモデル"OpenAI Whisper"

ChatGPT等を提供するOpenAIが開発した、 68万時間の教師付きデータで学習したモデル“OpenAI Whisper”を搭載し、さらに弊社にてチューニングを行っています。

ファウンデーションモデルは、大量かつ多量なデータで訓練され、多様な下流タスクに適応(ファインチューニングなど)できるモデルのことを指します。例として、大量のテキストデータで学習し、自然言語分類や質問応答など多様なタスクで利用可能なBERTや、文章生成も可能なGPT-3、画像分類が可能なCLIPなどが挙げられます。
ファウンデーションモデルの1つであるOpenAI Whisper は、Webから収集された 680,000 時間分の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識 (ASR) システムです。このように大規模で多様なデータセットを学習に使用したことで、アクセント、バックグラウンドノイズ、および専門用語に対する堅牢性が向上しています。

Reference: https://openai.com/blog/whisper/

文字起こしの利用方法

SecureMemoのご利用方法は簡単。音声ファイルをアップロードし、テキスト化されるのを待つだけです。

音声ファイルをアップロード

mp3, wav, m4aなどのファイル形式の音声/動画ファイルをアップロードします。
アップロードすると、文字起こしの進捗状況が表示されます。
同時に複数のファイルをアップロード可能です。

文字起こしデータのエクスポート

文字起こしが完了すると、テキストファイルで結果をエクスポートすることができます。

文字起こし結果を聞きながら修正

文字起こし結果をクリックすると、その時点から音声の再生がスタートし、「聞きながら修正」を行うことができます。

推奨動作環境

以下の環境に限らず、幅広い環境で動作する設計となっています。お気軽にお問合せください。

CPU利用の場合

GPU利用の場合

OS

Windows 10 (x64)
Windows 11 (x64)

Windows 10 (x64)
Windows 11 (x64)

CPU

第12世代Core i5
(10コア12スレッド、4.2GHz)相当以上

第12世代Core i5
(10コア12スレッド、4.2GHz)相当以上

Memory

16GB

16GB

GPU

-

【Premiumをご利用の場合】
Memory 12GB以上
【Standardをご利用の場合】
Memory 8GB以上

※CUDA Toolkit 11.7を利用

導入プラン

パラメータ数が多く認識精度を最大限に向上させた

SecureMemo Premium

  • ファウンデーションモデルの中でも、最もパラメータ数が多く性能が高いモデルを搭載しています
  • ある程度時間をかけてでも、正確な文字起こし結果が欲しいユースケースに向いています
  • 端末ごとの年間ライセンスによるご提供となります。利用量に依る従量課金は一切ございません
価格を問い合わせる

パラメータ数が少なく動作環境の要求水準を抑えた

SecureMemo Standard

  • ファウンデーションモデルの中でも、パラメータ数を一定抑え、実用水準の性能を担保したモデルを搭載しています
  • 精度は一定あれば十分、高速に文字起こし結果が欲しいユースケースに向いています
  • 端末ごとの年間ライセンスによるご提供となります。利用量に依る従量課金は一切ございません
価格を問い合わせる

よくある質問

精度はどのくらいですか?

最も高い性能を示すSecureMemo Premiumが搭載しているファウンデーションモデルは、単語誤り率(WER)が5.3%と報告されています。
体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。

セキュリティが求められる用途で使いたいが、大丈夫?

全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。

クラウドでの利用も可能?

クラウド環境でのご利用も可能です。Nishikaが提供するAPIをCallしていただくことができます。
Webブラウザ上からご利用いただけるサービスも、現在開発中です。

文字起こしの変換速度ですが、どのくらいの時間で完了しますか?

OpenAI作成のWhisperに対して弊社にて高速化を施しておりますが、変換速度はSecureMemoを実行される環境に依存します。
事例として、CPU利用の場合、1時間ほどの会議の音声でPremiumで1時間ほど、Standardで45分ほどかかります。Premiumですと従来の製品より若干時間が必要ですが、その分高い精度を示します。
一方、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。