Obsah, který mluví Ještě před oznámením W3C byla organizací VoiceXML Forum přijata specifikace X+V (XHTML+Voice Profile) ve verzi 1.2. X+V přináší možnost komunikovat s obsahem webu prostřednictvím hlasu. To umožňuje díky propojení některých webových technologií, jako je XHTML a XML Events, s VoiceXML a základy XML, které jsou vyvinuty v rámci technologie W3C Speech Interface Framework. X+V spojuje hlasové moduly, které pracují se syntézou řeči, mluvenými dialogy, hlasovými příkazy či mluvnicí. Vše přitom bylo vyvíjeno tak, aby to odpovídalo připravovanému standardu VoiceXML 2.0. Specifikace VoiceXML 2.0 následovala vzápětí po uvedení X+V verze 1.2. Organizace W3C, která se VoiceXML stará, tuto aktuální verzi nabídla pro připomínkové řízení. Zmíněná specifikace je dalším příspěvkem k vyvíjené technologii Speech Interface Framework. Jako důsledek jejího případného nasazení budou moci uživatelé, možná již poměrně brzy, v menu různých zákaznických linek využít hlas místo neustálého tisknutí různých tlačítek na telefonu.
Přínos VoiceXML V roce 1998 vzniklo VoiceXML fórum, které se na základě jazyka XML rozhodlo vytvořit prostředek pro práci s hlasem. První výstup byl publikován v roce 2000, kdy byla vypuštěna verze VoiceXML 1.0. Smysl vzniku specifikace VoiceXML spočívá v přemostění rozdílů mezi mluveným a psaným slovem. Má umožnit vývojářům kombinovat umělou řeč, digitalizované audio, rozpoznávání řeči s případným vkládáním požadavků a informací pomocí dnes tradičních metod, jako klávesnice, nebo technologie elektronického inkoustu, jenž je známá například z Tablet PC.