戻る
3 分で読了
文字起こし

文字起こし品質設定

文字起こし品質設定の構成方法、品質レベルの違い、各レベルの最適な使用シーンについて学びます。

品質設定

文字起こし品質の設定方法、各レベルの違い、高度な機能を使用すべきタイミング、精度とコストのバランスの最適化について学びます。

利用可能な品質レベル

基本品質

精度: 85-92% | 速度: 2-5倍高速 | コスト: 標準コスト

クリアな音声や一般的な用途に最適です。

推奨シーン:

  • 良好な品質の音声
  • 話者1名
  • 背景ノイズが少ない
  • 個人利用またはカジュアルな利用
  • 予算に限りがある場合

非推奨シーン:

  • ノイズが多い音声
  • 複数話者が重なる場合
  • 複雑な専門用語を含む場合
  • 重要な業務利用

技術仕様:

  • 処理: 最適化ベースモデル
  • 言語モデル: 標準
  • ノイズ除去: 基本
  • コンテキスト: 30秒

アドバンス品質

精度: 92-96% | 速度: 標準速度 | コスト: 標準コストの+50%

品質とコストの理想的なバランスです。

推奨シーン:

  • 会議の議事録作成
  • プロフェッショナルなインタビュー
  • 公開用コンテンツ
  • 中程度の品質の音声
  • 業務利用

非推奨シーン:

  • 非常に厳しい予算
  • 極めて劣悪な音声
  • 重要でない文字起こし
  • カジュアルな利用のみ

技術仕様:

  • 処理: リファインメント付き高度モデル
  • 言語モデル: コンテキスト + 技術用語対応
  • ノイズ除去: インテリジェント
  • コンテキスト: 60秒

プレミアム品質

精度: 96-99% | 速度: 2-3倍低速 | コスト: 標準コストの+120%

重要な業務利用向けの最大精度です。

推奨シーン:

  • 医療・法務関連の文字起こし
  • 複数話者が重なる音声
  • 複雑な技術コンテンツ
  • 学術出版物
  • コンプライアンスおよび監査

非推奨シーン:

  • カジュアルな利用
  • 予算に限りがある場合
  • 緊急の結果が必要な場合
  • シンプルな音声

技術仕様:

  • 処理: プレミアムマルチパスモデル
  • 言語モデル: 専門用語・技術分野対応
  • ノイズ除去: 高度AI
  • コンテキスト: 120秒

詳細設定

話者識別

複数の話者の発言を分離します。

| オプション | 最適な用途 | |---|---| | 無効 | 話者が1名、または話者分離が不要な場合 | | 有効 | 複数話者、会議 |

必要な場合のみ有効にしてください(複数話者)。2~6人の話者で最も効果的です。音声品質が良好であることが前提です。

タイムスタンプ

時間マーカーを追加します。

| オプション | 最適な用途 | |---|---| | タイムスタンプなし | シンプルな連続テキスト | | 文ごと | 字幕、同期 | | 単語ごと | 正確な編集、分析 |

単語ごとのタイムスタンプは動画編集に便利です。ほとんどのケースでは文ごとのタイムスタンプで十分です。

不適切な言葉のフィルター

不適切な言葉を削除または検閲します。

| オプション | 最適な用途 | |---|---| | 無効 | 忠実な文字起こし | | 検閲 | 公開コンテンツ | | 削除 | 企業環境 |

医療・法務関連の文字起こしでは無効にしてください。公開される可能性があるコンテンツでは検閲を、フォーマルな企業環境では削除を選択してください。

スマートフォーマット

句読点や書式を改善します。

| オプション | 最適な用途 | |---|---| | 基本 | カジュアルな利用 | | 高度 | 公開、フォーマルな文書 |

次のステップ