SecureMemoは、完全オフライン・オンプレミス環境への導入に対応したAI文字起こしツールです。世界最高水準のAIを活用し、精度96.2%と圧倒的な文字起こし精度。
さらに、AI議事録ツールとして初のオフライン生成AI要約を提供します。
会議・商談・採用面談等の音声から、セキュアな環境で正確な議事録作成が可能です。
セキュアな環境での文字起こしツールとして多くのクライアント様にご導入いただいております。
世界最高水準の精度96.2%(WER:単語誤り率 3.8%)。OpenAI Whisperをベースに、日本のビジネス会議音声で独自のファインチューニングを実施。他の追随を許さない高い精度を示します。
外部ネットワークから遮断された環境で、機密性の高い音声ファイルを処理、出力テキストを保存可能なため、セキュリティインシデントのリスクを最小限に抑えられます。
AI議事録ツールとして日本初のオフライン生成AI要約を提供(弊社調べ)。トピック別要約、決定事項・議事要旨要約の2種類を提供。正確な議事録作成をサポートします。
サービス提供開始から、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただき、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、OpenAI Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してだけでなく、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。
この音声認識AIを「shirushi」と名付け、SecureMemoCloudに搭載しております。
通常の音声認識精度を測る方法として、読み上げ音声に対する認識率を表示されることが多いですが、shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え訓練を行い、リアルな会議音声の認識率についても自信を持って提供しております。
shirushi
2002年にゴマはニラゴンゴ火山の溶岩によって破壊され、ほとんどの街路特に街の中心部が埋まってしまいました。
A社
22年に胡麻はミラゴン語火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。
B社
2002年に後輪はにら5火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。
C社
2002年に後輪はニラ5火山の溶岩によって破壊され、ほとんどの街路特に街の中心部が埋まってしまいました。
D社
2002年に後輪はニラ5火山の溶岩によって破壊され、ほとんどの街路特に町の中心部が埋まってしまいました。
元音声:https://drive.google.com/file/d/1bkDnekFgB405rb4e8mLjgSR3sEXPkwgM/view?usp=drive_link
shirushi
何かの盗み取られる人みたいなのがないんですよねっていう話で、クラウドも安全じゃないですよとは言いたくないので、クラウドも基本的なセキュリティ対策というのを行っていますよというのを使っています。
A社
でなんかこう息子に取られるみたいなのがない。ですねっていう話で。クラウドを食べてじゃ安全じゃないですよとは言いたくないので、クラウドも基本的なそのセキュリティ対策っていうのを行っていますよっていうのを伝えています。
B社
なんかこの角取られるみたいなのがない。ねっていうんで、ラグも安全じゃないですよとは言いたくないので、クラウドの基本的なセキュリティ対策っていうのは行っていますよ。
C社
なんか妄想に来られるみたいなのがない。ねっていう話でクラウドもぜひ安全じゃないですよとは言ってないので、クラウドの基本的なセキュリティ対策っていうのは行ってますよっていうことを伝え
D社
なんか妄想に来られるみたいなのがない。ねっていう話でクラウドもぜひ安全じゃないですよとは言ってないので、クラウドの基本的なセキュリティ対策っていうのは行ってますよっていうことを伝え
元音声:https://drive.google.com/file/d/1jOwpX17rARPEpeKdtixdMuk_WHjRlSRz/view?usp=drive_link
素早く会議の概要を把握したい方向けに、生成AIによる要約を提供。これもオフラインで完結し、セキュリティリスクはありません。
(2024年10月現在、スタンドアロン型のみ搭載。2024年度中にクライアントサーバー型でも提供)
内容をトピックごとに分け、トピックタイトルと共に要約します。
決定事項と議事要旨をそれぞれ要約します。
SecureMemoシリーズをご導入いただいた企業様の活用事例をご覧ください。
クミアイ化学工業株式会社 ( 501 - 1000名 / 化学 ) - SecureMemo導入事例
『私たちは創造する科学を通じて「いのちと自然を守り育てる」ことをメインテーマとし、安全・安心で豊かな社会の実現に貢献します』を企業理念として掲げ、農薬製品や化成品の開発・製造・販売を行われているクミアイ化学工業株式会社様にインタビューを行いました。以前より、議事録作成や文字起こしのツール導入については各部門からの... 続きを読む
株式会社スガテック ( 1000名 - / プラントエンジニアリング ) - SecureMemoCloud導入事例
『日本製鉄グループの一員として、プラント建設・整備工事の一翼を担う』創業から約100年間の蓄積された経験とノウハウを生かして、製鉄プラントを中心とする各種大規模プラントの設備建設および改修・整備工事を行う、総合エンジニアリング社(以上は会社HPの企業情報より)である株式会社スガテック様にインタビューを行いまし.. 続きを読む
警察、官公庁、自治体、医療機関、民間企業の経営企画・IR部署など、幅広いお客様へのご導入実績があります。
警察・官公庁・自治体様におかれては、会議録や日々の情報収集業務において、文字起こしソフトウェアの活用ニーズがあります。公的で機微な情報が非常に多く、オンプレミスのセキュアな環境での音声データの取り扱いが求められること、また効率的な業務推進が課題となっており、DX化の一環としても高性能な文字起こしAIの導入が重要となっています。
医療機関様では、院内で行われる会議録や医師・患者の会話を記録に残す用途での文字起こしソフトウェアの活用ニーズがありますが、患者様の情報を含み、機微な情報であるため、院内ネットワークで閉じた処理が要求されます。そのような需要にお応えできるソフトウェアとして、SecureMemoの導入実績がございます。
経営企画・IR担当様は、取締役会、株主総会、投資家向け説明会・カンファレンスといった会議について、対外的な情報提供のために議事録を作成、取りまとめる必要があります。一方で、機微な内容であることからクラウド環境を容易に利用することができない類のものでもあります。
ChatGPT等を提供するOpenAIが開発した、68万時間の教師付きデータで学習したモデル“OpenAI Whisper”をベースに、日本のビジネス会議音声で弊社が独自にファインチューニングしたモデル“shirushi”を搭載しています。
- OpenAI Whisperは、Webから収集された68万時間の多言語およびマルチタスクの教師付きデータでトレーニングされた自動音声認識システム
- 日本のビジネス会議音声でファインチューニング
- オリジナルWhisper由来の音声認識時バグを排除
- Whisperには存在しない話者特定機能を追加実装
- 声紋登録不要。完全自動で話者を特定
声紋登録が必要な話者識別機能は、様々な人が参加する会議では事実上使うことができません。
弊社では、事前の声紋登録が不要な完全自動の話者識別AIを独自開発。
⾳声区間検出・話者⾳声からの特徴量抽出の2点について、個別に最適化したニューラルネットワークを適⽤しています。
日本語だけでなく、英語、中国語、タイ語などを含む約100言語の音声文字起こしが可能です。
100言語の音声について、その言語での出力だけでなく、指定した言語での出力が可能。つまり、英語や日本語(β機能)への翻訳も可能です。
外国語の音声に対して、英語モードを指定することで高い精度で英語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
外国語の音声に対して、日本語モードを指定することで簡単な日本語訳での出力が可能。何語か分からない音声でも、100言語の中に含まれていれば翻訳可能です。
精度の高い文字起こし・話者特定AIのみならず、会議録作成支援ツールとして便利な諸機能を備えています。
mp3, m4a, wav, wma, mp4, avi, mov, wmvなどの音声/動画ファイルをアップロードします。同時に複数のファイルをアップロードし、次々文字起こしにかけることが可能。文字起こし中は、進捗状況が確認できます。
文字起こし結果・話者特定結果は、発話別の再生・ループ再生といった機能を使い、「聞きながら修正」が可能。
文字起こしが完了すると、csv, docx, srt, vttなど種々のファイル形式で結果をエクスポートすることができます。
お客様の環境に応じて、複数の提供形態を準備しております。
カンタンに導入可能な
全社的な利用に最適な
CPU利用の場合
GPU利用の場合
OS
Windows 11 (x64)
Windows 10 (x64)
Windows 11 (x64)
Windows 10 (x64)
CPU
Core i5または相当以上
※CPU性能やコア数によって処理速度は向上
Core i5または相当以上
※CPU性能やコア数によって処理速度は向上
Memory
16GB以上 (8GB以上)
16GB以上 (8GB以上)
HDD
空き容量20GB以上
空き容量20GB以上
GPU
-
VRAM 12GB以上 (8GB以上)
※CUDA Toolkit 11.7以上
※NVIDIA製GPUのみサポート
サーバー(CPU)
サーバー(GPU)
OS
Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)
Windows server 2022 (x64)
Windows server 2019 (x64)
Windows server 2016 (x64)
CPU
4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加
4vCPU, 3GHz以上
※1 AIライセンスの場合。AIライセンス数により増加
RAM
16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
16GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
HDD
空き容量10GB以上
空き容量100GB以上
GPU
-
VRAM 12GB以上 (8GB以上)
※1 AIライセンスの場合。AIライセンス数により増加
※CUDA Toolkit 11.7以上
※NVIDIA製GPUのみサポート
その他のご質問についてはお気軽にお問合せください。
最も高い性能を示すSecureMemo Premiumモデルは、弊社検証の結果、単語誤り率(WER)は3.8%となります。体感では、人間が注意深く文字起こしした際の精度とほぼ同一水準の精度を示します。
全ての処理を完全にオフラインな環境で実行可能な設計となっており、セキュアな環境でのご利用に向いています。
クラウドでの利用については、別サービスであるSecureMemoCloudにて対応可能です。フリープランをご準備しておりますのでお気軽にお試しください。
変換速度はSecureMemoを実行される環境に依存しますが、GPU利用の場合、1時間ほどの会議の音声が4-5分で完了します。CPU利用の場合、高速化オプションを利用した場合、35-45分程度で完了します。文字起こしすべき音声が多い場合、GPUの導入を推奨いたします。