Generació computacional de veu i rostres expressius

Proyecto: Ayudas internas/convocatorias propiasProyectos

Detalles del proyecto

Descripción

" “Deixa que em posi les ulleres que no t’escolto bé... “ Tot i que pugui resultar sorprenent, aquesta frase és ben real i més d’un l’haurà sentit dir a alguna persona d’edat avançada. Lluny de ser una absurditat, la veritat és que no són les nostres orelles les que hi senten, sinó el nostre cervell, i aquest no tan sols ho fa amb el sentit de l’oïda sinó també amb el de la vista. Existeixen experiments on s’encén i s’apaga un breu vídeo d’una persona pronunciant una síl·laba i el so que percebem canvia totalment si observem, o no, la cara de la persona que la pronuncia.

Des de fa anys, el Grup de recerca en Tecnologies Mèdia (GTM) fa recerca i s’ha posicionat internacionalment en l’àmbit de la generació de veu computacional fent servir supercomputació i geometries tridimensionals realistes del tracte vocal. Des de la participació i coordinació científica del projecte europeu EUNISON (FET-308874, 2013-2016), on es van sintetitzar amb èxit vocals i diftongs, el GTM ha seguit investigant per tal de produir sons més complexes. Així mateix, en el transcurs del projecte estatal GENIOVOX (TEC2016-81107-P, 2016-2019) hem començat a considerar la possibilitat d’introduir expressivitat en la síntesi de veu numèrica mitjançant modificacions dels polsos glotals i lleus canvis en la geometria del tracte vocal. L’objectiu principal del projecte sol·licitat consisteix en anar un pas més enllà explorant quina és la influència relativa entre la imatge i el so a l’hora de percebre, per exemple, un to enfadat o un d’alegre, generats numèricament. Tot i que aquesta qüestió s'ha abordat parcialment a la literatura mitjançant models articulatoris de veu unidimensionals i animacions facials, a dia d'avui ningú ha valorat la possibilitat d'emprar models biomecàncis tridimensionals acoblats amb models realistes del tracte vocal, que a més incloguin l'expressió facial, per tal de simular els processos biomecànics i acústics reals que intervenen en la generació de veu humana.
"

Descripción de Layman

" “Deixa que em posi les ulleres que no t’escolto bé... “ Tot i que pugui resultar sorprenent, aquesta frase és ben real i més d’un l’haurà sentit dir a alguna persona d’edat avançada. Lluny de ser una absurditat, la veritat és que no són les nostres orelles les que hi senten, sinó el nostre cervell, i aquest no tan sols ho fa amb el sentit de l’oïda sinó també amb el de la vista. Existeixen experiments on s’encén i s’apaga un breu vídeo d’una persona pronunciant una síl·laba i el so que percebem canvia totalment si observem, o no, la cara de la persona que la pronuncia.

Des de fa anys, el Grup de recerca en Tecnologies Mèdia (GTM) fa recerca i s’ha posicionat internacionalment en l’àmbit de la generació de veu computacional fent servir supercomputació i geometries tridimensionals realistes del tracte vocal. Des de la participació i coordinació científica del projecte europeu EUNISON (FET-308874, 2013-2016), on es van sintetitzar amb èxit vocals i diftongs, el GTM ha seguit investigant per tal de produir sons més complexes. Així mateix, en el transcurs del projecte estatal GENIOVOX (TEC2016-81107-P, 2016-2019) hem començat a considerar la possibilitat d’introduir expressivitat en la síntesi de veu numèrica mitjançant modificacions dels polsos glotals i lleus canvis en la geometria del tracte vocal. L’objectiu principal del projecte sol·licitat consisteix en anar un pas més enllà explorant quina és la influència relativa entre la imatge i el so a l’hora de percebre, per exemple, un to enfadat o un d’alegre, generats numèricament. Tot i que aquesta qüestió s'ha abordat parcialment a la literatura mitjançant models articulatoris de veu unidimensionals i animacions facials, a dia d'avui ningú ha valorat la possibilitat d'emprar models biomecàncis tridimensionals acoblats amb models realistes del tracte vocal, que a més incloguin l'expressió facial, per tal de simular els processos biomecànics i acústics reals que intervenen en la generació de veu humana.
"
EstadoFinalizado
Fecha de inicio/Fecha fin1/01/1931/12/19