品質設定
文字起こし品質の設定方法、各レベルの違い、高度な機能を使用すべきタイミング、精度とコストのバランスの最適化について学びます。
利用可能な品質レベル
基本品質
精度: 85-92% | 速度: 2-5倍高速 | コスト: 標準コスト
クリアな音声や一般的な用途に最適です。
推奨シーン:
- 良好な品質の音声
- 話者1名
- 背景ノイズが少ない
- 個人利用またはカジュアルな利用
- 予算に限りがある場合
非推奨シーン:
- ノイズが多い音声
- 複数話者が重なる場合
- 複雑な専門用語を含む場合
- 重要な業務利用
技術仕様:
- 処理: 最適化ベースモデル
- 言語モデル: 標準
- ノイズ除去: 基本
- コンテキスト: 30秒
アドバンス品質
精度: 92-96% | 速度: 標準速度 | コスト: 標準コストの+50%
品質とコストの理想的なバランスです。
推奨シーン:
- 会議の議事録作成
- プロフェッショナルなインタビュー
- 公開用コンテンツ
- 中程度の品質の音声
- 業務利用
非推奨シーン:
- 非常に厳しい予算
- 極めて劣悪な音声
- 重要でない文字起こし
- カジュアルな利用のみ
技術仕様:
- 処理: リファインメント付き高度モデル
- 言語モデル: コンテキスト + 技術用語対応
- ノイズ除去: インテリジェント
- コンテキスト: 60秒
プレミアム品質
精度: 96-99% | 速度: 2-3倍低速 | コスト: 標準コストの+120%
重要な業務利用向けの最大精度です。
推奨シーン:
- 医療・法務関連の文字起こし
- 複数話者が重なる音声
- 複雑な技術コンテンツ
- 学術出版物
- コンプライアンスおよび監査
非推奨シーン:
- カジュアルな利用
- 予算に限りがある場合
- 緊急の結果が必要な場合
- シンプルな音声
技術仕様:
- 処理: プレミアムマルチパスモデル
- 言語モデル: 専門用語・技術分野対応
- ノイズ除去: 高度AI
- コンテキスト: 120秒
詳細設定
話者識別
複数の話者の発言を分離します。
| オプション | 最適な用途 |
|---|---|
| 無効 | 話者が1名、または話者分離が不要な場合 |
| 有効 | 複数話者、会議 |
必要な場合のみ有効にしてください(複数話者)。2~6人の話者で最も効果的です。音声品質が良好であることが前提です。
タイムスタンプ
時間マーカーを追加します。
| オプション | 最適な用途 |
|---|---|
| タイムスタンプなし | シンプルな連続テキスト |
| 文ごと | 字幕、同期 |
| 単語ごと | 正確な編集、分析 |
単語ごとのタイムスタンプは動画編集に便利です。ほとんどのケースでは文ごとのタイムスタンプで十分です。
不適切な言葉のフィルター
不適切な言葉を削除または検閲します。
| オプション | 最適な用途 |
|---|---|
| 無効 | 忠実な文字起こし |
| 検閲 | 公開コンテンツ |
| 削除 | 企業環境 |
医療・法務関連の文字起こしでは無効にしてください。公開される可能性があるコンテンツでは検閲を、フォーマルな企業環境では削除を選択してください。
スマートフォーマット
句読点や書式を改善します。
| オプション | 最適な用途 |
|---|---|
| 基本 | カジュアルな利用 |
| 高度 | 公開、フォーマルな文書 |
次のステップ
- 話者識別 – 文字起こしでの声の分離方法
- サポートされている形式 – 対応ファイル形式一覧
- 大容量ファイル – 長尺ファイル処理のヒント