Gratis Kinesiska ljudtranskribering i din webbläsare
VoxScriber Nano förstår Kinesiska (中文) och bearbetar lokalt på din enhet. Gräns på 10 min i gratisläge.
Kör VoxScriber Nano (öppen källkod) i din webbläsare — lokal AI, upp till 10 min per fil, grundläggande noggrannhet (~85%). För professionellt bruk: Premium.
Transkribering sker lokalt i din webbläsare. Du kan valfritt dela resultatet med oss (med samtycke) för att förbättra tjänsten. Gräns: 10 min per fil, ~85% noggrannhet.
Gratis vs Premium — se skillnaden
| Gratis (webbläsare) | Premium (moln) | |
|---|---|---|
| Filgräns | 10 min | 10 horas |
| Noggrannhet | ~85% | >95% |
| Högtalaridentifiering | ❌ | ✅ |
| Tidsstämplar per ord | ❌ | ✅ |
| Videostöd (MP4/MOV) | ❌ | ✅ |
| Exportformat | TXT, SRT, VTT | DOCX, PDF, JSON… |
| Hastighet (1h ljud) | ~2 min / 1h | ~2 min / 1h |
| Integritet | 100% local | ☁️ + 🔒 |
Lokal AI
Transkribering sker i din webbläsare. Delning med våra servrar är valfritt (kräver samtycke).
Snabbt och lokalt
AI-bearbetning direkt i webbläsaren — inga vänteköer.
99 språk
Identifierar automatiskt språket i ditt ljud.
Ingen registrering
Börja direkt, utan att skapa ett konto.
How it works
Ladda upp eller spela in ljud
Dra en MP3-, WAV-, M4A- eller OGG-fil, eller använd din mikrofon direkt.
AI körs på din enhet
Whisper AI laddas ned en gång och lagras i cache. Ingen väntan vid nästa besök.
Kopiera eller ladda ned texten
Resultatet visas på sekunder. Ladda ned som .txt eller kopiera med ett klick.
Hur bra hanterar Whisper Kinesiska?
Whisper producerar som standard förenklade kinesiska tecken och hanterar mandarin tillförlitligt, löser tonberoende homofoner från sammanhang. Traditionell teckenutskrift är inkonsekvent — den kan blanda skript — och kantonesiska är markant svagare än mandarin. Inga mellanslag läggs till mellan ord, vilket är korrekt för kinesiska.
Var Kinesiska-ljud vanligtvis kommer ifrån
WeChat-röstmeddelanden, affärsmöten, universitetsföreläsningar och podcast- eller videoinnehåll.
Hur noggrann är webbläsartranskribering?
Webbläsartranskribering kör OpenAI:s Whisper-modell direkt på din enhet med WebAssembly. Vi erbjuder tre modellstorlekar och noggrannheten beror på vilken du väljer:
- Nano (~40 MB) — Standard. Cirka 85% noggrannhet på tydligt tal. Bäst för snabba anteckningar, röstmeddelanden och utkast. Den enda modellen som fungerar på iOS.
- Mini (~150 MB) — Ungefär 90% noggrannhet. En bra kompromiss om din enhet har 4 GB+ RAM och du behöver renare utdata.
- Plus (~500 MB) — Det mest noggranna lokala alternativet, närmar sig 93% på rent ljud. Långsammare att ladda ner och köra; bäst på stationära datorer med 8 GB+ RAM.
Vad som sänker noggrannheten för alla lokala modeller: bakgrundsljud, flera personer som pratar samtidigt, kraftiga accenter och lågbitrate-inspelningar som komprimerade röstanteckningar. Om du behöver professionell noggrannhet över 95%, tidsstämplar på ordnivå eller talarattribut krävs molnmodeller — se jämförelsen ovan.
Webbläsare vs molntranskribering: vilken behöver du?
Webbläsartranskribering är rätt verktyg när integritet är viktigast eller ljudet är kort: inget laddas upp, inget behöver raderas efteråt, och det kostar inget. Avvägningen är hastighet och precision — din CPU bearbetar ungefär en timme ljud på tjugo minuter, och den lokala modellen hoppar över talarattribut och tidsstämplar på ordnivå.
Molntranskribering är rätt verktyg när du arbetar: möten, intervjuer, föreläsningar, juridiska inspelningar. Dedikerade GPU:er omvandlar en timme ljud till text på cirka två minuter med över 95% noggrannhet, märker upp till 30 olika talare, accepterar filer upp till 10 timmar och exporterar till DOCX, PDF och JSON utöver undertextformat.
En praktisk tumregel: om du skulle känna dig bekväm med att läsa inspelningen högt på ett café, vinner molnets hastighet och noggrannhet. Om ljudet är känsligt — en medicinsk konsultation, ett konfidentiellt möte, ett privat röstmeddelande — håller webbläsarverktyget allt på din maskin och ger dig ändå en användbar transkription på några minuter. Många av våra användare kombinerar båda: snabba privata anteckningar i webbläsaren, professionellt arbete i molnet.
Se Premium-planer →Ljudformat som stöds
Ladda upp MP3, WAV, M4A, OGG, OPUS, FLAC eller WEBM — allt som din webbläsare kan avkoda. Vanliga källor fungerar direkt: WhatsApp-röstanteckningar (OPUS), iPhone-röstmemon (M4A), Android-inspelningsfiler, Zoom-inspelningar (M4A/MP4), Telegram-röstmeddelanden (OGG) och poddfiler (MP3). Videobehållare som MP4 och MOV avkodas för sitt ljudspår när webbläsaren stöder codec. Om en fil inte kan laddas är den vanligaste orsaken en ovanlig codec i en vanlig behållare — att konvertera till MP3 löser det nästan alltid.
Behöver du ett annat format först? Använd våra gratisomvandlare: gratis MP3 / WAV / OGG / AAC-ljudomvandlare
Behöver du mer? Prova Premium
För professionellt bruk — högtalaridentifiering, långa filer, AI-analys och alla exportformat.
Högtalaridentifiering
Identifierar automatiskt vem som talar i varje segment. Perfekt för möten, intervjuer och poddar.
Filer upp till 10 timmar
Den lokala modellen stöder upp till 10 min. Premium hanterar filer upp till 10 timmar.
Sammanfattning, sentiment & ämnen
AI analyserar innehållet och genererar sammanfattningar, sentimentanalys och ämnesutdrag.
Fullständiga exportalternativ
Exportera till SRT, VTT, DOCX, JSON och PDF — idealiskt för undertexter, dokument och automatisering.