Un JNSP qui rejoint un peu le vôtre: ça m'énerve la diction pas du tout naturelle des annonces faites en gare, c'est plein de pauses trop longues et les phrases finissent sans arrêt en intonation montante, ce qui est super perturbant, une sorte de «uncanny valley» vocale. C'est si difficile que ça de donner un rhytme et une intonation naturelle à des échantillons de voix ?
Ce sont des phrases types composées de mots ou bouts de phrases enregistrés séparément, alors que le même mot ne sera pas forcément utilisé de la même façon selon la phrase.
Par exemple, pour un nom de gare comme "Paris Montparnasse" ne sera pas prononcé de a même façon dans les phrases suivantes :
- "le train numéro 2-4-5-6-7-8 à destination de Paris Montparnasse, départ 11 heure 55, entre en gare voie C."
- "ce train desservira les gares de Bidule, Truc, Paris Montparnasse, Chouette et son terminus Machin."
- "le terminus de ce train est Paris Montparnasse."
- "le TGV à destination de Paris Montparnasse va partir, attention à la fermeture automatique des portes s'il vous plait."
Du coup, il faudrait distinguer dans chaque phrase quel type d'accentuation il faut mettre (mot en milieu de phrase, fin de phrase, avant une virgule, mot qui nécessite une emphase parce qu'il est particulièrement important ou mot quelconque dans la phrase) et enregistrer une version différente de mot pour chacun des cas, et pour chaque mot.
Ça représente beaucoup de temps d'enregistrement, potentiellement des complications niveau logiciel s'il n'est pas prévu pour ça, alors que le but c'est d'avoir un message clairement audible et compréhensible, pas forcément une voix agréable et naturelle
Comme il s'agit de phrases pré-enregistrées composées de mots indépendants les uns des autres, c'est pas forcément aisé de leur donner une intonation réaliste, surtout si ce n'est pas l'objectif n°1 des annonces