Même si le studio aide beaucoup Nintendo sur le développement, la spécialité de Monolith Soft, c’est avant tout de créer des J-RPG portés par une histoire prenante et émouvante. Au fil des années, le studio a réussi à améliorer sa narration sur de nombreux points, notamment la mise en scène des cinématiques, mais un domaine ne satisfait toujours pas le patron et fondateur Tetsuya Takahashi : les expressions faciales et leurs animations. C’est dans l’artbook japonais de Xenoblade Chronicles 3 qu’il exprime ce souhait (notre traduction se base sur la traduction en anglais de Nintendo Everything) :
Quand on dit que l’on donne de l’importance aux expressions faciales, nous les avons bien sûr toujours considérées comme importantes, mais on aimerait leur donner encore plus d’importance dans le future. Nous avons parlé de la grammaire vidéoludique plus tôt, et il y a des scènes avec des conversations banales, n’est-ce pas ? S’il y a une scène avec une conversation de trois minutes, on peut vite s’en agacer si elle est écrite en pure grammaire vidéoludique. On a envie d’appuyer sur le bouton, en espérant progresser plus vite à travers celle-ci.
Mais, quand on regarde un film, même si une scène dure cinq minutes, tant que les performances d’acteur et l’alchimie fonctionne, même s’il n’y a pas de musique ou d’effets spéciaux, on continue à la regarder. La différence peut résider dans le choix des mots, ou l’intonation, mais la partie la plus importante est les expressions. Beaucoup d’acteurs peuvent parler en utilisant simplement leurs yeux, et ces choses peuvent combler un vide et empêcher les gens de s’ennuyer devant un film, mais on ne peut pas encore arriver à ce niveau d’expressivité dans les jeux pour l’instant. C’est pourquoi nous aimerions plus nous concentrer sur cet aspect dans le futur.
Pour donner un exemple extrême, si nous faisions une scène durant dix minutes, on aimerait bien faire quelque chose qui se tienne juste sur les échanges verbaux, sans musique et effets, et c’est l’objectif qu’on aimerait viser. C’est juste un exemple, évidemment. Nous ne sommes pas en train d’essayer de faire des scènes de dialogue durant dix minutes, ne vous méprenez pas (rires).
Pour en revenir au sujet, quand on regarde les cinématiques d’un jeu, beaucoup ont des scènes d’action ou des scènes flashy, et il y a beaucoup de titres qui constitueraient, je pense, un très bon matériel de référence pour les générations futures. Mais quand il s’agit de personnes et de leurs échanges de mots et d’émotions, il y a une préférence pour l’action, tandis que la mise en valeur des parties silencieuses est majoritairement coincée dans le domaine de la grammaire vidéoludique, et j’aimerais bien que Monolith Soft arrive à sortir de ça en premier.