Un'interfaccia di output alternativa a quella video è rappresentata dalla sintesi vocale. Questo tipo di interfaccia presenta le informazioni in uscita dal sistema sotto forma di parlato, vocale, piuttosto che in forma grafica o testuale. Le informazioni in uscita dal sistema, vengono passate ad un sintetizzatore vocale: un dispositivo hardware o un software che accetta in ingresso un insieme di caratteri (una parola o una frase), e genera in uscita una "voce" che legge il testo dato in input. Ci sono varie tecniche per la sintesi vocale, con prestazioni e risultati diversi tra loro. Modelli di sintesi più semplici sono più performanti, ma rendono in uscita un parlato poco chiaro. Altre tecniche sono più efficaci nella resa del parlato, ma su macchine di fascia media il parlato può risultare poco fluido. La scelta di un sintetizzatore hardware può sembrare la scelta migliore, dal momento che non carica la nostra macchina del lavoro di sintesi. Bisogna però sempre verificare se il modello scelto è supportato dallo screen reader che utilizziamo.
Altro problema legato alla scelta del sintetizzatore è quello del supporto della nostra lingua nativa. La maggior parte dei sintetizzatori supporta l'inglese, ma per leggere un testo italiano abbiamo bisogno del supporto per l'italiano che è presente solo in pochi sintetizzatori.