世界最高水準のAI搭載
オンプレミス文字起こし
SecureMemo

SecureMemoは、オンプレミス・オフライン環境への導入にも対応した、AI文字起こしソフトウェアです。
世界最高水準のAIを活用し、数分での文字起こしが可能。セキュアな環境で音声データを正確にテキスト化することができます。

サンプル音声を無料で文字起こししてみる

SecureMemoとは

世界最先端のAIを搭載した、オンプレミス・オフライン環境でも導入可能な文字起こしソフトウェアです。

オンプレミスでセキュリティ担保

外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。

高精度な文字起こし性能

2022年に公開され、68万時間の音声データにて学習を行った世界最高水準のファウンデーションモデル(OpenAI Whisper)をベースにNishikaが開発したソフトウェアであり、他の追随を許さない高い性能を示します。

68万時間の教師付きデータで学習したモデル"OpenAI Whisper"

ファウンデーションモデルは、大量かつ多量なデータで訓練され、多様な下流タスクに適応(ファインチューニングなど)できるモデルのことを指します。例として、大量のテキストデータで学習し、自然言語分類や質問応答など多様なタスクで利用可能なBERTや、文章生成も可能なGPT-3、画像分類が可能なCLIPなどが挙げられます。
ファウンデーションモデルの1つであるOpenAI Whisper は、Webから収集された 680,000 時間分の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識 (ASR) システムです。このように大規模で多様なデータセットを学習に使用したことで、アクセント、バックグラウンドノイズ、および専門用語に対する堅牢性が向上しています。

Reference: https://openai.com/blog/whisper/

文字起こしの利用方法

SecureMemoのご利用方法は簡単。音声ファイルをアップロードし、テキスト化されるのを待つだけです。

音声ファイルをアップロード

mp3, wav, m4aなどのファイル形式の音声ファイルをアップロードします。アップロードすると、文字起こしの進捗状況がプログレスバーで表示されます。同時に4つまでのファイルをアップロード可能です。

文字起こしデータのエクスポート

文字起こしが完了すると、テキストファイルで結果をエクスポートすることができます。

利用環境

以下の環境に限らず、幅広い環境で動作する設計となっています。お気軽にお問合せください。

Ubuntu 18.04

Windows 11

CPU

Intel(R)Xeon(R) 2.2GHz(1コア,2スレッド)

IntelCore i7 7500-U 2.7GHz(2コア,4スレッド)

Memory

12GB

8GB

Storage

166GB

1TB

GPU

Tesla T4
Memory: 16GB
NVIDIA Cuda Driver Version: 460.32.03
CUDAVersion: 11.2

-

セキュアな環境下で行う文字起こしのユースケース

金融業界様: 資本業務提携検討時の会議録文字起こし

M&Aや企業間取引を推進するにあたり、各会議で話された情報を正確に記録することは重要です。しかし、限られたスタッフで推進する中で、議事録作成に多くの時間を割くのは避けたく、さらに機微情報を含むことから、セキュリティの確保されたスタンドアロン環境でテキスト化したい、というニーズもあります。
SecureMemoを利用して、セキュアな環境での高精度文字起こしを実現しましょう。

医療機関様: 患者様の情報を含む議事録文字起こし

患者様の情報を含む会議の記録を取ることは重要ですが、人手で作業するには業務負荷が高く、一方で機微な情報を含むため、自動化する場合も院内で完結してテキスト化する必要があります。
SecureMemoを利用して、セキュアな環境での高精度文字起こしを実現しましょう。

営業担当様: 多数の営業ヒアリング文字起こし

営業担当様にとって、お客様の要望や感想を記録することは基本中の基本かと思われます。 一方で、お客様からいただく情報には秘匿性の高いものも含まれ、多数のお客様への営業をこなす中で効率的に文字起こししたいとしても、オフラインの環境下で情報を取り扱う必要があります。
SecureMemoを利用して、セキュアな環境での高精度文字起こしを実現しましょう。

導入プラン

パラメータ数が少なく動作環境の要求水準を抑えた

SecureMemo Standard

  • ファウンデーションモデルの中でも、パラメータ数を一定抑え、実用水準の性能を担保したモデルを搭載しています
  • 精度は一定あれば十分、高速に文字起こし結果が欲しいユースケースに向いています
  • 端末ごとの年間ライセンスによるご提供となります。利用量に依る従量課金は一切ございません
価格を問い合わせる

パラメータ数が多く認識精度を最大限に向上させた

SecureMemo Premium

  • ファウンデーションモデルの中でも、最もパラメータ数が多く性能が高いモデルを搭載しています
  • ある程度時間をかけてでも、正確な文字起こし結果が欲しいユースケースに向いています
  • 端末ごとの年間ライセンスによるご提供となります。利用量に依る従量課金は一切ございません
価格を問い合わせる

よくある質問

精度はどのくらいですか?

最も高い性能を示すSecureMemo Premiumが搭載しているファウンデーションモデルは、単語誤り率(WER)が5.3%と報告されています。
体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。

セキュリティが求められる用途で使いたいが、大丈夫?

全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。

クラウドでの利用も可能?

クラウド環境でのご利用も可能です。Nishikaが提供するAPIをCallしていただくことができます。
Webブラウザ上からご利用いただけるサービスも、現在開発中です。

文字起こしの変換速度ですが、どのくらいの時間で完了しますか?

SecureMemo Standardをご利用いただきますと、1時間半ほどの会議の音声を数分で文字起こしすることができます(GPU環境)。
お客様にてご用意いただく環境によっては処理時間が長くかかることがございますが、精度を一定妥協できるようでしたらより高速な処理にもご対応可能ですので、お気軽にお問合せください。