完全無料 · 登録不要 · 99言語対応

英語音声の無料文字起こし — ブラウザで完結

VoxScriber Nanoは英語(English)を理解し、デバイス上でローカルに処理します。無料モードでは10分制限があります。

VoxScriber Nano(オープンソース)をブラウザで実行 — ローカルAI、最大10分/ファイル、精度約85%。プロ用途はPremiumをご利用ください。

🔒 ローカルAI💰 完全無料📝 10分/ファイル

文字起こしはブラウザ内でローカルに実行されます。任意で結果をサーバーに共有(同意が必要)することで、サービス改善にご協力いただけます。制限:10分/ファイル、精度~85%。

Premiumを見る

無料 vs Premium — 比較

無料(ブラウザ)Premium(クラウド)
ファイル制限10 min10 horas
精度~85%>95%
話者分離
単語単位のタイムスタンプ
ビデオサポート(MP4/MOV)
エクスポート形式TXT, SRT, VTTDOCX, PDF, JSON…
速度(1h音声)~2 min / 1h~2 min / 1h
プライバシー100% local☁️ + 🔒
🔒

ローカルAI

ブラウザ内で文字起こし。サーバーへの送信は任意(同意が必要)です。

高速・ローカル処理

ブラウザ内でAI処理 — 待ち時間なし。

🌍

99言語対応

音声の言語を自動検出します。

💻

登録不要

アカウント作成なしで今すぐ開始。

使い方

1

音声をアップロードまたは録音

MP3、WAV、M4A、OGGファイルをドラッグ&ドロップ、またはマイクを使用。

2

AIがデバイス上で動作

Whisper AIは一度ダウンロードしてキャッシュに保存。次回以降は待ち時間なし。

3

テキストをコピーまたはダウンロード

数秒で結果が表示。.txtでダウンロードするか、ワンクリックでコピー。

Whisperは英語をどの程度処理できますか?

英語はWhisperが最も得意とする言語で、モデルの学習データの大部分を占めています。Nanoモデルでも米国、英国、オーストラリア、インドの英語アクセントを確実に処理します。エラーは固有名詞、専門用語、激しい重なり会話に集中します。

英語の音声は通常どこから来ますか?

ZoomやTeamsの会議録音、大学の講義、ポッドキャストのエピソード、YouTube音声、ジャーナリズムや研究のためのインタビュー録音。

無料で文字起こしできる関連言語: ドイツ語 · オランダ語 · フランス語 · 無料文字起こし対応の全20言語

ブラウザ文字起こしの精度はどのくらいですか?

ブラウザ文字起こしは、OpenAIのWhisperモデルをWebAssemblyを使用してデバイス上で直接実行します。3つのモデルサイズを提供しており、精度は選択したモデルに依存します:

  • Nano(約40MB)デフォルト。明瞭な音声で約85%の精度。簡単なメモ、ボイスメッセージ、下書きに最適。iOSで動作する唯一のモデル。
  • Mini(約150MB)約90%の精度。デバイスに4GB以上のRAMがあり、よりクリーンな出力が必要な場合の良い中間点。
  • Plus(約500MB)最も正確なローカルオプションで、明瞭な音声で93%に近づきます。ダウンロードと実行が遅く、8GB以上のRAMを搭載したデスクトップマシンに最適。

ローカルモデルの精度を低下させる要因:背景ノイズ、複数人の同時発話、強いアクセント、圧縮ボイスノートなどの低ビットレート録音。95%以上のプロフェッショナルな精度、単語レベルのタイムスタンプや話者ラベルが必要な場合は、クラウドモデルが必要です—上記の比較をご覧ください。

ブラウザ vs クラウド文字起こし:どちらが必要ですか?

ブラウザ文字起こしは、プライバシーが最も重要な場合や音声が短い場合に適したツールです:何もアップロードされず、後で削除するものもなく、費用もかかりません。トレードオフは速度と精度です—CPUは約1時間の音声を20分で処理し、ローカルモデルは話者ラベルと単語レベルのタイミングをスキップします。

クラウド文字起こしは、仕事中(会議、インタビュー、講義、法的録音)に適したツールです。専用GPUが1時間の音声を約2分でテキストに変換し、95%以上の精度、最大30人の話者ラベル付け、最大10時間のファイル受け入れ、字幕形式に加えてDOCX、PDF、JSONへのエクスポートが可能です。

実用的な目安:カフェで録音を声に出して読んでも問題ない場合は、クラウドの速度と精度が勝ります。音声が機密性の高いもの(医療相談、機密会議、プライベートボイスノート)であれば、ブラウザツールはすべてをマシン上に保持し、数分で使用可能な文字起こしを提供します。多くのユーザーは両方を組み合わせています:ブラウザでの簡単なプライベートノート、クラウドでのプロフェッショナルな作業。

プレミアムプランを見る

対応音声フォーマット

MP3、WAV、M4A、OGG、OPUS、FLAC、WEBMをアップロードできます—ブラウザがデコードできるものであれば何でも。一般的なソースはそのまま動作します:WhatsAppボイスノート(OPUS)、iPhoneボイスメモ(M4A)、Androidレコーダーファイル、Zoom録音(M4A/MP4)、Telegramボイスメッセージ(OGG)、ポッドキャストファイル(MP3)。MP4やMOVなどのビデオコンテナは、ブラウザがコーデックをサポートしている場合、オーディオトラックがデコードされます。ファイルの読み込みに失敗した場合、通常の原因は一般的なコンテナ内の珍しいコーデックです—最初にMP3に変換することでほぼすべての場合に解決します。

別のフォーマットが必要ですか?無料のコンバーターをご利用ください: 無料のMP3/WAV/OGG/AAC音声コンバーター

🚀 Premium

さらに必要ですか?Premiumをご覧ください

プロ向け機能 — 話者識別、長時間ファイル、AI分析、全フォーマット対応エクスポート。

🎭

話者識別(ダイアリゼーション)

各セグメントで誰が話しているかを自動識別。会議、インタビュー、ポッドキャストに最適。

⏱️

最大10時間のファイル対応

ローカルモデルは10分まで対応。Premiumでは最大10時間のファイルを処理できます。

🧠

要約・感情分析・トピック抽出

AIがコンテンツを分析し、要約、感情分析、トピック抽出を生成します。

📄

多彩なエクスポート形式

SRT、VTT、DOCX、JSON、PDFでエクスポート — 字幕、文書、自動化に最適。

Premiumプランを見る

よくある質問