Generació computacional de veu i rostres expressius

Projecte: Ajuts interns/convocatòries pròpiesProjectes

Detalls del projecte

Description

" “Deixa que em posi les ulleres que no t’escolto bé... “ Tot i que pugui resultar sorprenent, aquesta frase és ben real i més d’un l’haurà sentit dir a alguna persona d’edat avançada. Lluny de ser una absurditat, la veritat és que no són les nostres orelles les que hi senten, sinó el nostre cervell, i aquest no tan sols ho fa amb el sentit de l’oïda sinó també amb el de la vista. Existeixen experiments on s’encén i s’apaga un breu vídeo d’una persona pronunciant una síl·laba i el so que percebem canvia totalment si observem, o no, la cara de la persona que la pronuncia.

Des de fa anys, el Grup de recerca en Tecnologies Mèdia (GTM) fa recerca i s’ha posicionat internacionalment en l’àmbit de la generació de veu computacional fent servir supercomputació i geometries tridimensionals realistes del tracte vocal. Des de la participació i coordinació científica del projecte europeu EUNISON (FET-308874, 2013-2016), on es van sintetitzar amb èxit vocals i diftongs, el GTM ha seguit investigant per tal de produir sons més complexes. Així mateix, en el transcurs del projecte estatal GENIOVOX (TEC2016-81107-P, 2016-2019) hem començat a considerar la possibilitat d’introduir expressivitat en la síntesi de veu numèrica mitjançant modificacions dels polsos glotals i lleus canvis en la geometria del tracte vocal. L’objectiu principal del projecte sol·licitat consisteix en anar un pas més enllà explorant quina és la influència relativa entre la imatge i el so a l’hora de percebre, per exemple, un to enfadat o un d’alegre, generats numèricament. Tot i que aquesta qüestió s'ha abordat parcialment a la literatura mitjançant models articulatoris de veu unidimensionals i animacions facials, a dia d'avui ningú ha valorat la possibilitat d'emprar models biomecàncis tridimensionals acoblats amb models realistes del tracte vocal, que a més incloguin l'expressió facial, per tal de simular els processos biomecànics i acústics reals que intervenen en la generació de veu humana.
"

Layman's description

" “Deixa que em posi les ulleres que no t’escolto bé... “ Tot i que pugui resultar sorprenent, aquesta frase és ben real i més d’un l’haurà sentit dir a alguna persona d’edat avançada. Lluny de ser una absurditat, la veritat és que no són les nostres orelles les que hi senten, sinó el nostre cervell, i aquest no tan sols ho fa amb el sentit de l’oïda sinó també amb el de la vista. Existeixen experiments on s’encén i s’apaga un breu vídeo d’una persona pronunciant una síl·laba i el so que percebem canvia totalment si observem, o no, la cara de la persona que la pronuncia.

Des de fa anys, el Grup de recerca en Tecnologies Mèdia (GTM) fa recerca i s’ha posicionat internacionalment en l’àmbit de la generació de veu computacional fent servir supercomputació i geometries tridimensionals realistes del tracte vocal. Des de la participació i coordinació científica del projecte europeu EUNISON (FET-308874, 2013-2016), on es van sintetitzar amb èxit vocals i diftongs, el GTM ha seguit investigant per tal de produir sons més complexes. Així mateix, en el transcurs del projecte estatal GENIOVOX (TEC2016-81107-P, 2016-2019) hem començat a considerar la possibilitat d’introduir expressivitat en la síntesi de veu numèrica mitjançant modificacions dels polsos glotals i lleus canvis en la geometria del tracte vocal. L’objectiu principal del projecte sol·licitat consisteix en anar un pas més enllà explorant quina és la influència relativa entre la imatge i el so a l’hora de percebre, per exemple, un to enfadat o un d’alegre, generats numèricament. Tot i que aquesta qüestió s'ha abordat parcialment a la literatura mitjançant models articulatoris de veu unidimensionals i animacions facials, a dia d'avui ningú ha valorat la possibilitat d'emprar models biomecàncis tridimensionals acoblats amb models realistes del tracte vocal, que a més incloguin l'expressió facial, per tal de simular els processos biomecànics i acústics reals que intervenen en la generació de veu humana.
"
EstatusAcabat
Data efectiva d'inici i finalització1/01/1931/12/19