Deutsch-Audio kostenlos transkribieren — direkt im Browser
VoxScriber Nano versteht Deutsch (Deutsch) und verarbeitet lokal auf Ihrem Gerät. Limit von 10 Min. im Gratis-Modus.
Führt VoxScriber Nano (Open-Source) in Ihrem Browser aus — lokale KI, bis zu 10 Min. pro Datei, Basisgenauigkeit (~85%). Für professionelle Nutzung: Premium.
Transkription läuft lokal in Ihrem Browser. Sie können das Ergebnis optional mit uns teilen (mit Einwilligung), um den Dienst zu verbessern. Limit: 10 Min. pro Datei, ~85% Genauigkeit.
Gratis vs. Premium — die Unterschiede
| Gratis (Browser) | Premium (Cloud) | |
|---|---|---|
| Limit pro Datei | 10 min | 10 horas |
| Genauigkeit | ~85% | >95% |
| Sprecher-Diarisierung | ❌ | ✅ |
| Zeitstempel pro Wort | ❌ | ✅ |
| Video-Support (MP4/MOV) | ❌ | ✅ |
| Export-Formate | TXT, SRT, VTT | DOCX, PDF, JSON… |
| Geschwindigkeit (1h Audio) | ~2 min / 1h | ~2 min / 1h |
| Datenschutz | 100% local | ☁️ + 🔒 |
Lokale KI
Transkription läuft in Ihrem Browser. Das Teilen mit unseren Servern ist optional (erfordert Einwilligung).
Schnell und lokal
KI-Verarbeitung direkt im Browser — keine Warteschlangen.
99 Sprachen
Erkennt die Sprache Ihrer Audiodatei automatisch.
Keine Anmeldung
Sofort loslegen, ohne Konto zu erstellen.
So funktioniert es
Audio hochladen oder aufnehmen
Ziehen Sie eine MP3-, WAV-, M4A- oder OGG-Datei per Drag & Drop, oder nutzen Sie das Mikrofon.
KI läuft auf Ihrem Gerät
Whisper AI wird einmalig heruntergeladen und bleibt im Cache. Kein Warten beim nächsten Besuch.
Text kopieren oder herunterladen
Ergebnis erscheint in Sekunden. Als .txt herunterladen oder mit einem Klick kopieren.
Wie gut verarbeitet Whisper Deutsch?
Whisper kommt überraschend gut mit deutschen langen zusammengesetzten Wörtern zurecht und schreibt sie als korrekte einzelne Komposita, anstatt sie zu trennen. Schweizerdeutsch und starke bayerische oder österreichische Dialekte sind die Hauptschwächen – sie können die Genauigkeit deutlich reduzieren, während Standard-Hochdeutsch zuverlässig transkribiert wird.
Woher Deutsch-Audio normalerweise stammt
Besprechungsaufnahmen aus dem Geschäftsleben, Universitätsvorlesungen, Podcast-Episoden, Arzt-Diktate und WhatsApp-Sprachnachrichten.
Wie genau ist die Browser-Transkription?
Die Browser-Transkription führt OpenAI's Whisper-Modell direkt auf Ihrem Gerät über WebAssembly aus. Wir bieten drei Modellgrößen, und die Genauigkeit hängt davon ab, welche Sie wählen:
- Nano (~40MB) — Der Standard. Etwa 85 % Genauigkeit bei klarer Sprache. Am besten für schnelle Notizen, Sprachnachrichten und Entwürfe. Das einzige Modell, das auf iOS läuft.
- Mini (~150MB) — Etwa 90 % Genauigkeit. Ein guter Mittelweg, wenn Ihr Gerät 4GB+ RAM hat und Sie sauberere Ausgabe benötigen.
- Plus (~500MB) — Die genaueste lokale Option, die bei klarem Audio nahezu 93 % erreicht. Längere Lade- und Laufzeit; am besten auf Desktop-Rechnern mit 8GB+ RAM.
Was die Genauigkeit bei jedem lokalen Modell verringert: Hintergrundgeräusche, mehrere Personen, die durcheinander sprechen, starke Akzente und Aufnahmen mit niedriger Bitrate wie komprimierte Sprachnotizen. Wenn Sie professionelle Genauigkeit über 95 %, Wortzeitstempel oder Sprecherkennung benötigen, sind Cloud-Modelle erforderlich – siehe Vergleich oben.
Browser- vs. Cloud-Transkription: Welche brauchen Sie?
Die Browser-Transkription ist das richtige Werkzeug, wenn der Datenschutz am wichtigsten ist oder das Audio kurz ist: Es wird nichts hochgeladen, es gibt nichts zu löschen und es kostet nichts. Der Kompromiss sind Geschwindigkeit und Präzision – Ihre CPU verarbeitet etwa eine Stunde Audio in zwanzig Minuten, und das lokale Modell überspringt Sprecherkennung und Wortzeitstempel.
Die Cloud-Transkription ist das richtige Werkzeug, wenn Sie arbeiten: Meetings, Interviews, Vorlesungen, rechtliche Aufnahmen. Dedizierte GPUs verwandeln eine Stunde Audio in etwa zwei Minuten mit über 95 % Genauigkeit, kennzeichnen bis zu 30 verschiedene Sprecher, akzeptieren Dateien bis zu 10 Stunden Länge und exportieren in DOCX, PDF und JSON zusätzlich zu den Untertitelformaten.
Eine praktische Faustregel: Wenn Sie die Aufnahme in einem Café vorlesen würden, gewinnen die Geschwindigkeit und Genauigkeit der Cloud. Wenn das Audio sensibel ist – eine medizinische Konsultation, ein vertrauliches Meeting, eine private Sprachnotiz – bleibt das Browser-Tool alles auf Ihrem Gerät und liefert dennoch in Minuten ein brauchbares Transkript. Viele unserer Nutzer kombinieren beides: schnelle private Notizen im Browser, professionelle Arbeit in der Cloud.
Premium-Pläne ansehen →Unterstützte Audioformate
Laden Sie MP3, WAV, M4A, OGG, OPUS, FLAC oder WEBM hoch – alles, was Ihr Browser dekodieren kann. Gängige Quellen funktionieren sofort: WhatsApp-Sprachnotizen (OPUS), iPhone-Sprachmemos (M4A), Android-Recorder-Dateien, Zoom-Aufnahmen (M4A/MP4), Telegram-Sprachnachrichten (OGG) und Podcast-Dateien (MP3). Video-Container wie MP4 und MOV werden für ihre Tonspur dekodiert, wenn der Browser den Codec unterstützt. Wenn eine Datei nicht geladen wird, liegt die Ursache meist in einem ungewöhnlichen Codec in einem gängigen Container – eine Konvertierung in MP3 löst das Problem in fast allen Fällen.
Benötigen Sie zuerst ein anderes Format? Nutzen Sie unsere kostenlosen Konverter: kostenloser MP3 / WAV / OGG / AAC Audio-Konverter
Mehr benötigt? Premium entdecken
Für den professionellen Einsatz — Sprecher-Diarisierung, lange Dateien, KI-Analyse und alle Exportformate.
Sprecher-Diarisierung
Erkennt automatisch, wer in jedem Abschnitt spricht. Perfekt für Meetings, Interviews und Podcasts.
Dateien bis 10 Stunden
Das lokale Modell unterstützt bis zu 10 Min. Premium verarbeitet Dateien bis zu 10 Stunden.
Zusammenfassung, Sentiment & Themen
KI analysiert den Inhalt und erstellt Zusammenfassungen, Sentiment-Analysen und Themen-Extraktion.
Vollständiger Export
Export als SRT, VTT, DOCX, JSON und PDF — ideal für Untertitel, Dokumente und Automatisierungen.