Text a àudio: les 7 millors eines TTS en català (i castellà) el 2026

El 2024 ElevenLabs va publicar mostres en què la majoria d'oients nadius eren incapaços de distingir un narrador humà d'una veu sintètica. No només havia millorat la pronunciació: l'entonació, les pauses, la respiració i les microvariacions emocionals ja eren pràcticament indistingibles d'un actor de doblatge professional. Dos anys després, aquest estàndard s'ha convertit en la base de qualsevol eina seriosa de text a àudio, i el problema ha deixat de ser "sona natural?" per passar a "quina trio, quant em costa i suporta la meva llengua?".

Si has arribat fins aquí buscant convertir text a àudio en català —o en castellà— aquesta és la guia honesta que necessites. Hem provat les eines més utilitzades, hem verificat quines veus existeixen realment per a cada llengua, i al final de l'article t'expliquem també el camí invers: com fer àudio a text quan el que tens és un enregistrament i necessites una transcripció.

TL;DR: Per a text a àudio en català, Google Cloud TTS és segurament la millor opció equilibrada (veus `ca-ES` Neural2/WaveNet); ElevenLabs té la qualitat més natural i clonació de veu; Microsoft Azure és sòlid per a entorns corporatius. Per al castellà, ElevenLabs és el referent en naturalitat. Per al camí invers (àudio a text), Transcriu està optimitzat per al català i el castellà amb diarització d'interlocutors i exportació en múltiples formats.

Per a què serveix realment convertir text a àudio?

Fa cinc anys, el TTS (text-to-speech) era una tecnologia de nínxol: lectors de pantalla, GPS, veus robòtiques de centraletes. Avui és una de les capes d'IA més transversals que existeixen, i els casos d'ús s'han multiplicat molt més enllà de l'accessibilitat.

Accessibilitat i lectura assistida. Continua sent el cas clàssic, però ja no es limita a persones amb discapacitat visual. Qualsevol persona amb dislèxia, fatiga visual, problemes de concentració o simplement preferència auditiva pot consumir qualsevol text com si fos un pòdcast. Aplicacions com Speechify i NaturalReader han fet una indústria sencera d'això.

Producció de pòdcasts i narració. Crear un pòdcast diari o convertir articles de blog en versió àudio era inviable fa cinc anys; avui ho fa una creadora sola des del portàtil. El flux típic és: redactes el guió, el passes per ElevenLabs o Google TTS, i obtens un MP3 publicable. La veu sintètica ja no es percep com a "veu de robot" si el model és bo.

Aprenentatge d'idiomes. Aquí el TTS és or: poder escoltar qualsevol frase escrita pronunciada per un nadiu amb entonació nadiua accelera la fonètica. És especialment útil per aprendre pronunciació catalana o variants del castellà (rioplatense, mexicà, andalús, neutre).

E-learning i formació corporativa. Produir un curs en línia amb narració humana costa entre 50 i 200 euros per hora final de contingut. Amb TTS, aquest cost baixa a cèntims. La qualitat ja no és excusa: una veu neuronal moderna és indistingible per al 95% de l'audiència.

Doblatge i localització. Empreses com HeyGen i Synthesia ja dobleguen vídeos sencers mantenint la veu de l'orador original però traduint el contingut. El TTS multilingüe amb clonació de veu fa això possible.

Proves d'UX i prototipatge de veu. Assistents virtuals, IVR (les veus de centraletes), wearables, cotxes connectats. Qualsevol producte amb interfície de veu passa per una eina TTS.

Screencasts, tutorials a YouTube i vídeos curts. Si has vist un vídeo informatiu a TikTok narrat amb una veu curiosament perfecta, gairebé segur que és una veu sintètica. El flux creator + TTS és ja dominant en formats curts.

Demostració del nivell actual del TTS d'ElevenLabs en llengües romàniques

Com funciona la tecnologia TTS (ràpid i sense tecnicismes)

No necessites entendre l'arquitectura interna per triar bé, però saber aquests tres conceptes t'ajuda a no comprar fum.

TTS concatenatiu (l'escola antiga). Les veus antigues estaven fetes enregistrant una persona pronunciant milers de síl·labes i després enganxant aquests fragments. Resultat: pronunciava correctament però sonava robòtic, sense entonació natural. Això és el que sentíeu als GPS de fa deu anys.

TTS neuronal o paramètric. Una xarxa neuronal aprèn a generar l'ona d'àudio directament a partir del text. No enganxa fragments: genera. Això permet entonació natural, èmfasis correctes, respiracions i fins i tot emocions. És el que fan servir totes les eines modernes (ElevenLabs, Google WaveNet, OpenAI, Amazon Polly Neural, Azure Neural).

Clonació de veu (voice cloning). Models com ElevenLabs et permeten pujar 1-3 minuts de la teva pròpia veu i obtenir una rèplica sintètica que diu qualsevol cosa. Això obre possibilitats creatives enormes però també riscos ètics importants (deepfakes d'àudio). Les plataformes serioses inclouen marca d'aigua i verificació de consentiment.

Quan una eina diu "veu neuronal", "veu WaveNet" o "veu HD", es refereix a això. Quan diu "veu estàndard", sol ser TTS concatenatiu més antic. La diferència de qualitat és brutal i gairebé sempre val la pena pagar l'extra per neuronal.

Les 7 millors eines TTS per a català i castellà (2026)

Anem al gra. Aquesta és la taula comparativa amb les opcions que realment valen la pena per convertir text a àudio. La columna del català és important: moltes plataformes encara no el suporten o ho fan malament.

Eina	Pla gratis	Veus en castellà	Veus en català	Qualitat	Millor per a	Preu aprox.
ElevenLabs	10.000 caràcters/mes	20+ (Espanya i LATAM)	Sí, qualitat variable	Excel·lent	Pòdcasts, audiollibres, doblatge	Des de ~5 $/mes
Google Cloud TTS	1M caràcters/mes (estàndard)	30+ (WaveNet + Neural2)	Sí (`ca-ES`, diverses)	Molt bona	Volum, apps, multilingüe	~16 $/M caràcters
OpenAI TTS	Només de pagament	6 veus multilingües	Sí, via multilingüe	Molt bona	Devs amb API OpenAI	~15 $/M caràcters
Amazon Polly	5M caràcters/mes (12 mesos)	10+ veus neuronals	No nativament	Bona/Molt bona	Apps a AWS, IVR	~16 $/M caràcters
Azure AI Speech	0,5M caràcters/mes	20+ veus neuronals	Sí (`ca-ES`)	Molt bona	Empreses Microsoft	~16 $/M caràcters
Murf.ai	10 min/mes	15+ veus	No	Bona	Vídeos corporatius, e-learning	Des de ~29 $/mes
NaturalReader	Lectura il·limitada (veu estàndard)	Sí, diverses	Limitat	Bona	Lectura personal, estudi	Des de ~9 $/mes

Anem a desglossar cadascuna.

1. ElevenLabs — la referència en naturalitat

Si només has de provar una eina, prova aquesta. Les veus neuronals d'ElevenLabs en castellà són, a dia d'avui, les que més s'assemblen a una persona real. Tenen control d'estabilitat, similitud, estil emocional, i suporten clonació de veu amb resultats sorprenentment bons a partir d'un minut de mostra.

Avantatges:

Qualitat de veu líder del mercat
Clonació de veu a partir de ~1 minut
Veus en castellà d'Espanya i de diverses variants llatinoamericanes
API senzilla i ben documentada
Suport per a català (qualitat variable segons la veu)

Limitacions:

Més car que les alternatives en volum alt
El pla gratis s'esgota ràpid (10k caràcters ≈ 10-15 min d'àudio)
Algunes veus "premium" requereixen pla superior

Millor per a: podcasters, audiollibres, doblatge creatiu, narració de vídeos, i qualsevol cas on la qualitat de veu sigui crítica.

2. Google Cloud TTS — el rei del català i del volum

Google Cloud Text-to-Speech és la millor opció si necessites volum, preu competitiu i suport multilingüe sòlid, especialment per al català (`ca-ES`). Té veus WaveNet i Neural2 que són molt bones, no al nivell d'ElevenLabs però més que suficients per a la majoria de casos. El pla gratis (1 milió de caràcters al mes en veus estàndard, 1 milió en WaveNet) és absurdament generós.

Avantatges:

Pla gratis enorme
Suport oficial de català amb diverses veus masculines i femenines
Més de 380 veus en 50+ llengües
Pagament per ús (sense subscripció)
Integració fàcil amb Google Cloud

Limitacions:

Requereix compte de Google Cloud i targeta de crèdit
Les veus no arriben al nivell emocional d'ElevenLabs
Interfície orientada a desenvolupadors

Millor per a: apps amb TTS integrat, contingut en català, e-learning a escala, accessibilitat massiva.

3. OpenAI TTS — la drecera si ja pagues l'API

OpenAI va llançar el seu model TTS juntament amb GPT-4. Té sis veus (alloy, echo, fable, onyx, nova, shimmer) que funcionen en moltes llengües inclòs el castellà i, amb resultats acceptables, el català. La qualitat és sorprenentment bona per a un producte que no és el seu focus principal, i la integració amb la resta de l'ecosistema OpenAI la fa ideal si ja construeixes amb la seva API.

Avantatges:

Qualitat de veu molt alta
Integració amb la resta de models OpenAI
Molt bona pronunciació multilingüe
Latència baixa amb el model `tts-1`

Limitacions:

Només 6 veus (sense clonació, sense personalització)
No té UI pròpia: només API
Limitat per a casos amb moltes veus diferents

Millor per a: desenvolupadors que ja utilitzen OpenAI, prototips, assistents conversacionals.

4. Amazon Polly — sòlid però sense català

Polly va ser un dels pioners del TTS al núvol, i continua sent una opció molt sòlida per a aplicacions, IVR i producte. Les seves veus neuronals en castellà (Lupe, Mia, Pedro, Lucia, Sergio, Andrés) són bones, especialment per a neutre llatí. No té veus natives en català, cosa que és un punt important si la teva audiència és de Catalunya, el País Valencià o les Illes.

Avantatges:

Integració nativa amb AWS
Pla gratis de 5 milions de caràcters durant 12 mesos
Veus de bona qualitat per a LATAM
Marques SSML molt completes

Limitacions:

Sense català
Veus en castellà d'Espanya limitades
Menys natural que ElevenLabs

Millor per a: apps a AWS, IVR d'empreses, lectura de notificacions, productes B2B.

5. Azure AI Speech — l'opció enterprise

Microsoft té un servei TTS molt complet dins d'Azure Cognitive Services. Les seves veus neuronals són comparables a les de Google, suporten català (`ca-ES`) i tenen un control SSML excel·lent. La integració amb la resta de Microsoft 365 la converteix en favorita de departaments TI corporatius.

Avantatges:

Suport de català (`ca-ES-EnricNeural`, `ca-ES-JoanaNeural`, etc.)
Veus personalitzades amb Custom Neural Voice
Latència molt baixa
Compliment normatiu enterprise

Limitacions:

Configuració inicial més complexa
Documentació dispersa
Més car a volum molt alt

Millor per a: empreses amb stack Microsoft, productes enterprise, intranets corporatives.

6. Murf.ai — per a vídeos corporatius sense codi

Murf no és una API; és una eina de producció. Puges el text, tries veu, ajustes pauses i entonació, i exportes MP3 o WAV. El seu editor és molt intuïtiu i és l'opció preferida d'equips d'e-learning i màrqueting que no volen tocar codi.

Avantatges:

Editor visual complet
Estoc de música de fons
Bona qualitat neuronal
Col·laboració en equip

Limitacions:

Sense català
Model de subscripció (no pay-per-use)
Pla gratis molt limitat

Millor per a: vídeos corporatius, formació, màrqueting.

7. NaturalReader — per a lectura personal

NaturalReader és l'eina preferida d'estudiants i professionals que volen convertir documents (PDFs, Word, web) en àudio per escoltar-los mentre fan una altra cosa. Té aplicació d'escriptori, extensió de Chrome i app mòbil. Les veus gratis són bàsiques; les premium ja són de nivell neuronal.

Millor per a: estudi, lectura personal, productivitat.

Comparativa de les millors veus TTS en llengües ibèriques el 2026

Eines gratis vs de pagament: quan val la pena pagar?

Pregunta raonable: si hi ha plans gratis decents, cal pagar?

Queda't en gratis si:

Generaràs menys de 10-15 minuts d'àudio al mes
És per a ús personal (estudi, accessibilitat)
No t'importa la petita diferència de qualitat entre veu estàndard i veu neuronal
Només necessites castellà neutre

Paga si:

Publicaràs contingut (pòdcast, YouTube, audiollibres)
Necessites català o variants regionals amb bona qualitat
Vols clonació de veu
Generes més de 30 minuts al mes
La qualitat de veu forma part del teu producte

Truc pràctic: moltes creadores combinen dos serveis. Per exemple, fan servir ElevenLabs per a narracions llargues premium i Google TTS per a notificacions o parts secundàries. Les APIs són fàcils de combinar.

Per a volum mitjà (1-5 hores d'àudio al mes), ElevenLabs Pro o Google Cloud TTS solen ser les opcions més rendibles.

I per al català específicament

Aquí toca ser sincers: el català està pitjor cobert que el castellà, encara que la situació ha millorat molt el 2024-2026. No totes les plataformes el suporten, i entre les que ho fan, la qualitat varia molt.

Les que sí tenen català amb qualitat acceptable:

Google Cloud TTS — veus `ca-ES` masculines i femenines, qualitat WaveNet/Neural2. És probablement la millor opció per produir contingut en català a escala.
Microsoft Azure — veus `ca-ES-EnricNeural`, `ca-ES-JoanaNeural` i d'altres. Qualitat molt decent.
ElevenLabs — suport multilingüe que cobreix català, qualitat variable segons la veu que triïs. Les veus clonades funcionen bé si entrenes amb veu en català.
Acapela Group — empresa belga amb focus històric en llengües minoritzades, inclòs el català. Qualitat clàssica concatenativa, menys natural però correcta.

Les que no suporten català (o ho fan via workaround):

Amazon Polly — sense veus natives
Murf.ai — sense català
La majoria d'eines comercials orientades a màrqueting

Recomanació pràctica: si el teu producte és per al mercat català, prova primer Google Cloud TTS. Si no hi ha pressupost zero, AINA (el projecte de la Generalitat de Catalunya) té models de veu catalans oberts que pots autoallotjar. És un projecte públic important per garantir que el català tingui presència en l'ecosistema d'IA, i els models són reaprofitables per a producte i recerca.

També val la pena seguir Projecte CommonVoice de Mozilla, que recull veus en català per entrenar models oberts. Cada minut de veu donada millora el TTS i el STT en català.

Com convertir text a àudio en 30 segons (pas a pas)

Per a ElevenLabs (el més ràpid):

Entra a elevenlabs.io i crea compte gratis amb email o Google.
Al panell, enganxa el text a la caixa central.
Al selector de veu a la dreta, tria una veu en castellà o multilingüe (per exemple "Mateo" o "Bella").
Ajusta els sliders de stability (0,5 és un bon punt de partida) i similarity (0,75).
Prem Generate.
Escolta l'àudio. Si no t'agrada, regenera —cada generació és lleugerament diferent— o ajusta els sliders.
Descarrega'l com a MP3.

Per a Google Cloud TTS des de la consola web:

Entra a console.cloud.google.com/text-to-speech.
Selecciona idioma "Catalan (Spain)" o "Spanish (Spain)".
Selecciona una veu tipus "Neural2" o "WaveNet".
Enganxa el text en SSML o text pla.
Prem Speak it per previsualitzar.
Per descarregar l'àudio, crida l'API des del teu codi o fes servir Cloud Shell.

Per a alguna cosa més artesanal i lliure: el projecte Coqui TTS i Piper permeten autoallotjar TTS de codi obert amb models en castellà i, més limitadament, català. La qualitat ja no està a l'altura comercial, però per a hobbies o producte on-device és una opció real. AINA també publica models oberts entrenats específicament per al català.

I al revés: àudio a text (transcripció automàtica)

L'altre 50% de la feina amb veu i text és el camí invers: tens un enregistrament —una reunió, una entrevista, una classe, una sessió clínica— i necessites la transcripció. Aquí el panorama és molt diferent del TTS.

Eina	Pla gratis	Idiomes	Diarització	Precisió cat/cast	Millor per a
Transcriu	Sí, prova	Català, castellà i més	Sí, automàtica	Optimitzada	Logopedes, periodistes, estudiants
OpenAI Whisper (API)	No, però open-source gratis	99+ idiomes	No nativa	Molt bona	Devs, autoallotjament
AssemblyAI	Crèdit inicial	30+ idiomes	Sí	Bona	Apps SaaS
Rev.com	No	Anglès sobretot	Sí	Excel·lent (humà)	Professional anglès
Google Speech-to-Text	60 min/mes	125+ idiomes	Sí	Bona	Apps GCP
Otter.ai	300 min/mes	Anglès principalment	Sí	Bona (anglès)	Reunions en anglès

La gran pregunta aquí no és només "transcriu bé?", sinó "transcriu bé en la meva llengua, amb dos parlants simultanis, amb àudio de qualitat mitjana, i el puc descarregar en el format que necessito?".

Whisper (OpenAI): el model base de tota la indústria

Whisper és el model de codi obert de transcripció d'OpenAI. Hi ha darrere de la majoria de productes comercials d'avui, inclosa bona part del flux de Transcriu en les seves capes tècniques. Suporta català i castellà amb molt bona precisió. Els emperons: requereix coneixements tècnics per autoallotjar-lo, no té diarització nativa, i l'API d'OpenAI té un cost per minut.

AssemblyAI

API potent per a empreses que volen afegir transcripció al seu producte. Bona qualitat, suporta castellà, té diarització automàtica i detecció de temes. No és l'opció per a usuaris finals.

Google Speech-to-Text

Robust, multilingüe, escalable. Bona precisió però menys natural en el formatatge (puntuació, majúscules) que Whisper. Suporta català.

Transcriu — la nostra recomanació per a català i castellà

Avís: en som part interessada. Dit això, Transcriu està construït específicament per resoldre el problema de transcripció en català i castellà per a professionals que no són desenvolupadors: logopedes que necessiten transcriure sessions, periodistes que necessiten processar entrevistes, estudiants que enregistren classes, investigadores amb grups focals.

Per què encaixa en aquests perfils:

Optimitzat per a català i castellà des del primer minut, no com una llengua "suportada més" entre 99.
Diarització automàtica d'interlocutors: detecta quan canvia el parlant i l'etiqueta.
Exportació a múltiples formats: Word, PDF, TXT, SRT (subtítols), VTT.
Transcripció automàtica amb edició posterior fàcil al navegador.
Sense instal·lar res, sense corba tècnica.
Pagament per ús o subscripció segons volum.

Per a què no et recomanaríem Transcriu: si necessites transcriure àudio en anglès amb argot molt específic (mèdic EUA, jurídic EUA), Rev o AssemblyAI estan més optimitzats. Si el que vols és muntar el teu propi pipeline de transcripció dins d'un producte, Whisper autoallotjat et donarà més control.

Com triar l'eina correcta (arbre de decisió)

Per no marejar-te amb la comparativa, aquest és el drecera mental.

Si el teu objectiu és CONVERTIR TEXT A ÀUDIO (TTS):

Necessites la màxima qualitat per a pòdcast, audiollibre o doblatge? → ElevenLabs.
Necessites català de qualitat? → Google Cloud TTS (o Azure com a alternativa).
Ja pagues l'API d'OpenAI? → OpenAI TTS.
Volum alt a baix cost? → Google Cloud TTS.
Vídeos corporatius sense codi? → Murf.ai.
Lectura personal de PDFs i articles? → NaturalReader o Speechify.

Si el teu objectiu és CONVERTIR ÀUDIO A TEXT (STT):

Ets logopeda, periodista, estudiant o professional, i necessites català/castellà? → Transcriu.
Ets desenvolupador i vols autoallotjar? → Whisper de codi obert.
Vols integrar-ho a la teva app? → AssemblyAI o Google Speech-to-Text.
Necessites transcripció humana premium en anglès? → Rev.com.

Si necessites les dues coses en el mateix flux —per exemple, transcrius una entrevista i després generes un resum en àudio— combinar Transcriu (per a STT) amb ElevenLabs o Google TTS (per a TTS) és el més pràctic.

Bones pràctiques perquè el teu àudio generat soni bé

Encara que les eines són millors que mai, el resultat depèn molt del text d'entrada i de com el configures. Alguns consells ràpids.

Escriu pensant en com es llegirà. El TTS no improvisa: llegeix el que poses. Si escrius "Dr." l'eina pot llegir "doctor" o lletrejar-lo. Millor escriu "doctor" directament. El mateix amb nombres: "1.500" pot llegir-se "u coma cinc-cents" o "mil cinc-cents". Si és important, escriu-ho amb paraules.

Fes servir puntuació generosa. Les comes, els punts i els punts i comes són els senyals més forts que rep la IA per entonar. Una frase sense puntuació es llegeix atropelladament.

SSML per a control fi. Les plataformes professionals (Google, Azure, Polly) suporten SSML (Speech Synthesis Markup Language), on pots especificar pauses, èmfasis, velocitat, to i pronunciacions fonètiques. Si necessites qualitat broadcast, val la pena aprendre'l.

Divideix textos llargs. Generar 10.000 paraules de cop pot donar resultats desiguals en entonació. Divideix per capítols o seccions i processa per blocs.

Iterar és normal. Les veus neuronals tenen un component probabilístic. La mateixa frase pot sonar lleugerament diferent en dues generacions. Genera dues o tres vegades i queda't amb la millor.

Català: compte amb els manlleus i noms propis. Les veus catalanes a vegades pronuncien malament noms en castellà o anglicismes. Si el text en té molts, ajusta manualment amb fonètica SSML. També compte amb els numerals i les dates: el català té formes pròpies ("u" vs "un", "el primer" vs "l'u") que algunes veus encara confonen.

Aspectes legals i ètics del TTS el 2026

No volem tancar sense això, perquè cada cop és més rellevant.

Clonació de veu i consentiment. Clonar la veu d'una persona sense el seu consentiment explícit és il·legal a la majoria de jurisdiccions, incloent-hi la UE sota l'AI Act. ElevenLabs i altres plataformes serioses requereixen verificació d'identitat per clonar veus. No clonis la veu d'una persona famosa, cap o exparella "per fer broma": les conseqüències poden ser serioses.

Audiollibres i drets d'autor. Convertir un llibre en àudio amb TTS no et dona drets sobre el contingut. Si el text no és teu, necessites llicència.

Etiquetatge de contingut sintètic. L'AI Act europeu obligarà a etiquetar el contingut generat per IA. Si publiques un pòdcast generat amb TTS, el més net és declarar-ho.

Privacitat. Si transcrius contingut sensible (sessions de logopèdia, teràpia, entrevistes confidencials), tria plataformes que xifrin les dades en repòs i en trànsit, i que tinguin política clara sobre l'ús dels teus enregistraments per entrenar models.

Preguntes freqüents

Quina és la millor eina per convertir text a àudio en català gratis?

Per a ús personal i volum baix, el pla gratis de Google Cloud TTS (1 milió de caràcters/mes) és segurament l'opció més generosa amb suport de català. ElevenLabs ofereix 10.000 caràcters gratis al mes amb suport de català via multilingüe. Per a lectura de PDFs i articles llargs, NaturalReader ofereix lectura il·limitada amb veu estàndard gratis, però el suport català és més limitat.

Les veus sintètiques en català es noten?

El 2026, amb un bon model neuronal (Google Neural2 `ca-ES`, Azure Neural, ElevenLabs multilingüe), la veu és força propera a una persona real, però encara una mica per sota del nivell que tenim per a castellà o anglès. Un oient nadiu pot detectar microartefactes, especialment en frases molt llargues o en pronúncia de paraules tècniques. Tot i així, és perfectament utilitzable per a accessibilitat, e-learning o pòdcasts.

Puc fer servir veus sintètiques comercialment?

Sí, totes les plataformes esmentades permeten ús comercial dins del seu pla corresponent. Revisa els termes: algunes distingeixen entre veus "stock" (ús lliure) i veus "premium" (a vegades amb restriccions). Per a clonació de veu, necessites consentiment explícit de la persona clonada.

Hi ha bones eines TTS específicament per a català?

Sí. Les millors són Google Cloud TTS (diverses veus `ca-ES` Neural2), Microsoft Azure (veus neuronals) i ElevenLabs (multilingüe amb suport català). Acapela també ofereix veus catalanes històriques. El projecte AINA de la Generalitat té models oberts per autoallotjar.

Com converteixo un PDF sencer a àudio?

Fes servir una eina com NaturalReader o Speechify que accepten PDF directament. Si vols més control, extreu el text amb qualsevol eina (Adobe, Smallpdf, etc.), neteja'l i passa'l per ElevenLabs o Google TTS. Per a PDFs molt llargs, divideix per capítols.

Quina diferència hi ha entre veu neuronal i veu estàndard?

La veu estàndard fa servir TTS concatenatiu (més antic): enganxa fragments preenregistrats. Sona correcte però pla. La veu neuronal genera l'ona d'àudio amb una xarxa neuronal: sona amb entonació natural, respiracions, emoció. La diferència de qualitat és enorme; el cost extra sol valer la pena.

Quant costa generar una hora d'àudio TTS?

Depèn molt. Una hora de narració són unes 9.000 paraules = ~50.000 caràcters. A Google Cloud TTS Neural2 són uns 0,80 dòlars. A ElevenLabs uns 1-3 dòlars segons el pla. A OpenAI TTS uns 0,75 dòlars. Comparat amb un actor de doblatge (50-200 euros/hora final), la diferència és astronòmica.

Com passo d'àudio a text si el que tinc és un enregistrament?

Per a usuàries no tècniques en català i castellà, et recomanem Transcriu: puges l'àudio, tries idioma, esperes uns minuts i obtens la transcripció amb diarització i opció d'exportar a Word, PDF o SRT. Per a desenvolupadores, Whisper de codi obert o l'API d'OpenAI Whisper són les alternatives més habituals.

Les eines TTS funcionen bé amb accents regionals catalans?

La majoria de veus comercials actuals són de variant central (Barcelona). El balear i el valencià estan menys representats. Per a contingut local, val la pena provar diverses veus i triar la que s'adapti millor, o entrenar una veu pròpia amb clonació si tens el corpus.

És legal clonar la meva pròpia veu per fer-la servir professionalment?

Sí, i de fet és el que fan moltes creadores: clonen la seva veu una vegada amb ElevenLabs i la fan servir per narrar contingut sense haver d'enregistrar noves preses. Assegura't de complir els termes de la plataforma i de verificar la teva identitat correctament.

Conclusió: com decidir avui mateix

La bona notícia és que ja no hi ha males opcions: qualsevol eina de la llista produeix resultats molt superiors al que era possible el 2020. La decisió correcta depèn de tres preguntes:

En quina llengua treballo? Si és castellà neutre, totes funcionen. Si és català, et queden Google, Azure, ElevenLabs i Acapela.
Quin volum? Baix → plans gratis. Mitjà → ElevenLabs Pro o Google Cloud TTS pay-per-use. Alt → Google o Polly.
Per a què? Qualitat premium → ElevenLabs. Producte/app → Google, Azure, OpenAI. Personal → NaturalReader, Speechify.

I recorda l'altre 50%: si el que necessites és el camí invers —convertir enregistraments a text— hi ha eines especialitzades molt millors que les que fan les dues coses a mitges.

Si treballes amb veu —en qualsevol direcció— val la pena tenir una eina per a cada costat. Per a text a àudio, prova ElevenLabs o Google Cloud TTS. Per a àudio a text en català o castellà, prova Transcriu gratis i digues-nos què en penses.

TL;DR: Per a text a àudio en català, Google Cloud TTS és segurament la millor opció equilibrada (veus `ca-ES` Neural2/WaveNet); ElevenLabs té la qualitat més natural i clonació de veu; Microsoft Azure és sòlid per a entorns corporatius. Per al castellà, ElevenLabs és el referent en naturalitat. Per al camí invers (àudio a text), Transcriu està optimitzat per al català i el castellà amb diarització d'interlocutors i exportació en múltiples formats.

Per a què serveix realment convertir text a àudio?

Proves d'UX i prototipatge de veu. Assistents virtuals, IVR (les veus de centraletes), wearables, cotxes connectats. Qualsevol producte amb interfície de veu passa per una eina TTS.

Demostració del nivell actual del TTS d'ElevenLabs en llengües romàniques

Com funciona la tecnologia TTS (ràpid i sense tecnicismes)

No necessites entendre l'arquitectura interna per triar bé, però saber aquests tres conceptes t'ajuda a no comprar fum.

Les 7 millors eines TTS per a català i castellà (2026)

Eina	Pla gratis	Veus en castellà	Veus en català	Qualitat	Millor per a	Preu aprox.
ElevenLabs	10.000 caràcters/mes	20+ (Espanya i LATAM)	Sí, qualitat variable	Excel·lent	Pòdcasts, audiollibres, doblatge	Des de ~5 $/mes
Google Cloud TTS	1M caràcters/mes (estàndard)	30+ (WaveNet + Neural2)	Sí (`ca-ES`, diverses)	Molt bona	Volum, apps, multilingüe	~16 $/M caràcters
OpenAI TTS	Només de pagament	6 veus multilingües	Sí, via multilingüe	Molt bona	Devs amb API OpenAI	~15 $/M caràcters
Amazon Polly	5M caràcters/mes (12 mesos)	10+ veus neuronals	No nativament	Bona/Molt bona	Apps a AWS, IVR	~16 $/M caràcters
Azure AI Speech	0,5M caràcters/mes	20+ veus neuronals	Sí (`ca-ES`)	Molt bona	Empreses Microsoft	~16 $/M caràcters
Murf.ai	10 min/mes	15+ veus	No	Bona	Vídeos corporatius, e-learning	Des de ~29 $/mes
NaturalReader	Lectura il·limitada (veu estàndard)	Sí, diverses	Limitat	Bona	Lectura personal, estudi	Des de ~9 $/mes

Anem a desglossar cadascuna.

1. ElevenLabs — la referència en naturalitat

Avantatges:

Qualitat de veu líder del mercat
Clonació de veu a partir de ~1 minut
Veus en castellà d'Espanya i de diverses variants llatinoamericanes
API senzilla i ben documentada
Suport per a català (qualitat variable segons la veu)

Limitacions:

Més car que les alternatives en volum alt
El pla gratis s'esgota ràpid (10k caràcters ≈ 10-15 min d'àudio)
Algunes veus "premium" requereixen pla superior

Millor per a: podcasters, audiollibres, doblatge creatiu, narració de vídeos, i qualsevol cas on la qualitat de veu sigui crítica.

2. Google Cloud TTS — el rei del català i del volum

Avantatges:

Pla gratis enorme
Suport oficial de català amb diverses veus masculines i femenines
Més de 380 veus en 50+ llengües
Pagament per ús (sense subscripció)
Integració fàcil amb Google Cloud

Limitacions:

Requereix compte de Google Cloud i targeta de crèdit
Les veus no arriben al nivell emocional d'ElevenLabs
Interfície orientada a desenvolupadors

Millor per a: apps amb TTS integrat, contingut en català, e-learning a escala, accessibilitat massiva.

3. OpenAI TTS — la drecera si ja pagues l'API

Avantatges:

Qualitat de veu molt alta
Integració amb la resta de models OpenAI
Molt bona pronunciació multilingüe
Latència baixa amb el model `tts-1`

Limitacions:

Només 6 veus (sense clonació, sense personalització)
No té UI pròpia: només API
Limitat per a casos amb moltes veus diferents

Millor per a: desenvolupadors que ja utilitzen OpenAI, prototips, assistents conversacionals.

4. Amazon Polly — sòlid però sense català

Avantatges:

Integració nativa amb AWS
Pla gratis de 5 milions de caràcters durant 12 mesos
Veus de bona qualitat per a LATAM
Marques SSML molt completes

Limitacions:

Sense català
Veus en castellà d'Espanya limitades
Menys natural que ElevenLabs

Millor per a: apps a AWS, IVR d'empreses, lectura de notificacions, productes B2B.

5. Azure AI Speech — l'opció enterprise

Avantatges:

Suport de català (`ca-ES-EnricNeural`, `ca-ES-JoanaNeural`, etc.)
Veus personalitzades amb Custom Neural Voice
Latència molt baixa
Compliment normatiu enterprise

Limitacions:

Configuració inicial més complexa
Documentació dispersa
Més car a volum molt alt

Millor per a: empreses amb stack Microsoft, productes enterprise, intranets corporatives.

6. Murf.ai — per a vídeos corporatius sense codi

Avantatges:

Editor visual complet
Estoc de música de fons
Bona qualitat neuronal
Col·laboració en equip

Limitacions:

Sense català
Model de subscripció (no pay-per-use)
Pla gratis molt limitat

Millor per a: vídeos corporatius, formació, màrqueting.

7. NaturalReader — per a lectura personal

Millor per a: estudi, lectura personal, productivitat.

Comparativa de les millors veus TTS en llengües ibèriques el 2026

Eines gratis vs de pagament: quan val la pena pagar?

Pregunta raonable: si hi ha plans gratis decents, cal pagar?

Queda't en gratis si:

Generaràs menys de 10-15 minuts d'àudio al mes
És per a ús personal (estudi, accessibilitat)
No t'importa la petita diferència de qualitat entre veu estàndard i veu neuronal
Només necessites castellà neutre

Paga si:

Publicaràs contingut (pòdcast, YouTube, audiollibres)
Necessites català o variants regionals amb bona qualitat
Vols clonació de veu
Generes més de 30 minuts al mes
La qualitat de veu forma part del teu producte

Per a volum mitjà (1-5 hores d'àudio al mes), ElevenLabs Pro o Google Cloud TTS solen ser les opcions més rendibles.

I per al català específicament

Les que sí tenen català amb qualitat acceptable:

Google Cloud TTS — veus `ca-ES` masculines i femenines, qualitat WaveNet/Neural2. És probablement la millor opció per produir contingut en català a escala.
Microsoft Azure — veus `ca-ES-EnricNeural`, `ca-ES-JoanaNeural` i d'altres. Qualitat molt decent.
ElevenLabs — suport multilingüe que cobreix català, qualitat variable segons la veu que triïs. Les veus clonades funcionen bé si entrenes amb veu en català.
Acapela Group — empresa belga amb focus històric en llengües minoritzades, inclòs el català. Qualitat clàssica concatenativa, menys natural però correcta.

Les que no suporten català (o ho fan via workaround):

Amazon Polly — sense veus natives
Murf.ai — sense català
La majoria d'eines comercials orientades a màrqueting

També val la pena seguir Projecte CommonVoice de Mozilla, que recull veus en català per entrenar models oberts. Cada minut de veu donada millora el TTS i el STT en català.

Com convertir text a àudio en 30 segons (pas a pas)

Per a ElevenLabs (el més ràpid):

Entra a elevenlabs.io i crea compte gratis amb email o Google.
Al panell, enganxa el text a la caixa central.
Al selector de veu a la dreta, tria una veu en castellà o multilingüe (per exemple "Mateo" o "Bella").
Ajusta els sliders de stability (0,5 és un bon punt de partida) i similarity (0,75).
Prem Generate.
Escolta l'àudio. Si no t'agrada, regenera —cada generació és lleugerament diferent— o ajusta els sliders.
Descarrega'l com a MP3.

Per a Google Cloud TTS des de la consola web:

Entra a console.cloud.google.com/text-to-speech.
Selecciona idioma "Catalan (Spain)" o "Spanish (Spain)".
Selecciona una veu tipus "Neural2" o "WaveNet".
Enganxa el text en SSML o text pla.
Prem Speak it per previsualitzar.
Per descarregar l'àudio, crida l'API des del teu codi o fes servir Cloud Shell.

I al revés: àudio a text (transcripció automàtica)

Eina	Pla gratis	Idiomes	Diarització	Precisió cat/cast	Millor per a
Transcriu	Sí, prova	Català, castellà i més	Sí, automàtica	Optimitzada	Logopedes, periodistes, estudiants
OpenAI Whisper (API)	No, però open-source gratis	99+ idiomes	No nativa	Molt bona	Devs, autoallotjament
AssemblyAI	Crèdit inicial	30+ idiomes	Sí	Bona	Apps SaaS
Rev.com	No	Anglès sobretot	Sí	Excel·lent (humà)	Professional anglès
Google Speech-to-Text	60 min/mes	125+ idiomes	Sí	Bona	Apps GCP
Otter.ai	300 min/mes	Anglès principalment	Sí	Bona (anglès)	Reunions en anglès

Whisper (OpenAI): el model base de tota la indústria

AssemblyAI

API potent per a empreses que volen afegir transcripció al seu producte. Bona qualitat, suporta castellà, té diarització automàtica i detecció de temes. No és l'opció per a usuaris finals.

Google Speech-to-Text

Robust, multilingüe, escalable. Bona precisió però menys natural en el formatatge (puntuació, majúscules) que Whisper. Suporta català.

Transcriu — la nostra recomanació per a català i castellà

Per què encaixa en aquests perfils:

Optimitzat per a català i castellà des del primer minut, no com una llengua "suportada més" entre 99.
Diarització automàtica d'interlocutors: detecta quan canvia el parlant i l'etiqueta.
Exportació a múltiples formats: Word, PDF, TXT, SRT (subtítols), VTT.
Transcripció automàtica amb edició posterior fàcil al navegador.
Sense instal·lar res, sense corba tècnica.
Pagament per ús o subscripció segons volum.

Com triar l'eina correcta (arbre de decisió)

Per no marejar-te amb la comparativa, aquest és el drecera mental.

Si el teu objectiu és CONVERTIR TEXT A ÀUDIO (TTS):

Necessites la màxima qualitat per a pòdcast, audiollibre o doblatge? → ElevenLabs.
Necessites català de qualitat? → Google Cloud TTS (o Azure com a alternativa).
Ja pagues l'API d'OpenAI? → OpenAI TTS.
Volum alt a baix cost? → Google Cloud TTS.
Vídeos corporatius sense codi? → Murf.ai.
Lectura personal de PDFs i articles? → NaturalReader o Speechify.

Si el teu objectiu és CONVERTIR ÀUDIO A TEXT (STT):

Ets logopeda, periodista, estudiant o professional, i necessites català/castellà? → Transcriu.
Ets desenvolupador i vols autoallotjar? → Whisper de codi obert.
Vols integrar-ho a la teva app? → AssemblyAI o Google Speech-to-Text.
Necessites transcripció humana premium en anglès? → Rev.com.

Bones pràctiques perquè el teu àudio generat soni bé

Encara que les eines són millors que mai, el resultat depèn molt del text d'entrada i de com el configures. Alguns consells ràpids.

Fes servir puntuació generosa. Les comes, els punts i els punts i comes són els senyals més forts que rep la IA per entonar. Una frase sense puntuació es llegeix atropelladament.

Divideix textos llargs. Generar 10.000 paraules de cop pot donar resultats desiguals en entonació. Divideix per capítols o seccions i processa per blocs.

Iterar és normal. Les veus neuronals tenen un component probabilístic. La mateixa frase pot sonar lleugerament diferent en dues generacions. Genera dues o tres vegades i queda't amb la millor.

Aspectes legals i ètics del TTS el 2026

No volem tancar sense això, perquè cada cop és més rellevant.

Audiollibres i drets d'autor. Convertir un llibre en àudio amb TTS no et dona drets sobre el contingut. Si el text no és teu, necessites llicència.

Etiquetatge de contingut sintètic. L'AI Act europeu obligarà a etiquetar el contingut generat per IA. Si publiques un pòdcast generat amb TTS, el més net és declarar-ho.

Preguntes freqüents

Quina és la millor eina per convertir text a àudio en català gratis?

Les veus sintètiques en català es noten?

Puc fer servir veus sintètiques comercialment?

Hi ha bones eines TTS específicament per a català?

Com converteixo un PDF sencer a àudio?

Quina diferència hi ha entre veu neuronal i veu estàndard?

Quant costa generar una hora d'àudio TTS?

Com passo d'àudio a text si el que tinc és un enregistrament?

Les eines TTS funcionen bé amb accents regionals catalans?

És legal clonar la meva pròpia veu per fer-la servir professionalment?

Conclusió: com decidir avui mateix

La bona notícia és que ja no hi ha males opcions: qualsevol eina de la llista produeix resultats molt superiors al que era possible el 2020. La decisió correcta depèn de tres preguntes:

En quina llengua treballo? Si és castellà neutre, totes funcionen. Si és català, et queden Google, Azure, ElevenLabs i Acapela.
Quin volum? Baix → plans gratis. Mitjà → ElevenLabs Pro o Google Cloud TTS pay-per-use. Alt → Google o Polly.
Per a què? Qualitat premium → ElevenLabs. Producte/app → Google, Azure, OpenAI. Personal → NaturalReader, Speechify.

I recorda l'altre 50%: si el que necessites és el camí invers —convertir enregistraments a text— hi ha eines especialitzades molt millors que les que fan les dues coses a mitges.