[Série] Pushers and Otakus Are Global d'Atsuo Nakayama, partie 21. L'ingénieur de 20 ans, président de l'extraordinaire groupe de talents Masayoshi Son Foundation, va révolutionner l'industrie vidéo avec le service d'IA vocale CoeFont

Cela fait déjà 15 ans depuis la naissance d'Hatsune Miku, et même si les voix Vocaloid sont devenues familières, il a été difficile de créer une voix IA qui puisse être confondue avec une voix humaine. Semblable à la « vallée étrange », qui se produit à la fois dans la beauté et dans la laideur, les gens deviennent extrêmement conscients des différences à moins qu'ils n'atteignent un certain degré de précision. Aujourd’hui encore, il est possible de créer quelque chose de similaire en dépensant plusieurs millions de yens, mais cela ne permet pas de généralisation. CoeFont, qui est apparu comme un révolutionnaire dans ce domaine, était révolutionnaire car il pouvait reproduire votre voix à l'aide de l'IA pour seulement 500 yens. Ce qui est encore plus surprenant, c'est que le développeur n'a que 20 ans. Cette fois, nous avons interviewé Shogo Hayakawa, le créateur du service vocal AI, sur son parcours.


■Étudiant du secondaire qui a réussi à collecter des fonds auprès d'un grand salon de beauté tout en travaillant à temps partiel dans une entreprise d'IA
―― : Veuillez vous présenter.

C'est Shogo Hayakawa. Je suis actuellement étudiant en deuxième année à Tokyo Tech et je dirige un service/entreprise appelé CoeFont (police vocale), qui compte actuellement environ 30 employés. Je suivais justement un cours universitaire et je le fais tout en travaillant à temps partiel.


--- M. Hayakawa a démarré sa propre entreprise très jeune, mais ce qui est encore plus surprenant, c'est que même avant CoeFont, il était impliqué dans le développement d'applications depuis le lycée. Comment avez-vous grandi ? Avez-vous vécu à l’étranger ?

En raison du travail de mon père (professeur d'université), j'ai vécu plusieurs années en Angleterre depuis la maternelle jusqu'à l'âge de 7 ans, mais j'étais un enfant particulièrement normal. Tout ce que je faisais, c'était jouer au football. J'aimais aussi les jeux et, à l'époque, j'utilisais souvent Club Penguin* pour discuter en ligne avec des amis sur mon PC.

*Club Penguin est un jeu MMO sorti en 2005 et constitue un énorme service avec 200 millions d'utilisateurs enregistrés en 2013. Le développeur canadien New Horizon a été acquis par Disney en 2007 pour 350 millions de dollars.


―― : Après mon retour au Japon, je suis entré dans un collège et un lycée, mais au lycée, je suis entré au lycée des sciences et technologies de l'Institut de technologie de Tokyo*, qui n'est pas affilié à cette école. Pourquoi as-tu été transféré dans cette école ?

Ce n'était pas gratuit. Eh bien, d’une manière générale, le collège est également gratuit. Mais si tu utilises ton smartphone pendant les cours, tu te feras gronder, tu devras porter un uniforme, tu ne pourras pas sortir jouer en dehors de l'école pendant le déjeuner, et... non, j'avoue que ce que tu dis est étrange. Cependant, j’avais tellement de liberté pendant mes années de lycée que quand j’y repense, je pense que c’était stressant pendant mes années de collège mdr.

*École secondaire des sciences et technologies de l'Institut de technologie de Tokyo : avec un score d'écart de 72, c'est la 12ème école préparatoire nationale de Tokyo après Kaisei, l'Université Gakugei, Waseda, etc. (selon « Everyone's High School Information ») . À partir de la deuxième année, les étudiants sont affectés à des domaines spécialisés tels que la chimie appliquée, les systèmes d'information, les systèmes mécaniques, l'électricité et l'électronique et la conception architecturale. Bien que la culture libérale de l'école soit populaire, certains disent qu'elle constitue un désavantage pour les examens d'entrée.


--: C'est assez pointu (mdr) je vois. Vous avez donc passé l’examen d’entrée et êtes allé dans un endroit où il y avait plus de liberté. Avez-vous pu étudier ?

Je suppose que j'ai pu étudier même si je n'avais pas beaucoup de temps pour étudier.Je n'étais pas du genre à être numéro un, mais j'ai continué à essayer d'être dans le top 10 % le plus efficacement possible. Je n’étais pas vraiment passionné par le fait d’être numéro un. J'étais le genre de personne qui faisait ce qui devait être fait avec le minimum d'heures de travail nécessaire, puis qui faisait ce qui me plaisait.


-- : D'après ce que j'ai entendu, l'école Tokyo Tech ne ressemble pas à un lycée normal. C'est là que vous avez découvert la spécialité des sciences de l'information, n'est-ce pas ?

Oui,Lorsque j'ai assisté à une conférence de Takafumi Horie lorsque j'étais au lycée, je lui ai demandé quelle technologie il trouvait intéressante en ce moment, et il m'a répondu : « L'apprentissage en profondeur. Pourquoi ne l'essayez-vous pas si vous avez du temps libre ? À partir de là, j’ai commencé à étudier l’IA.

Cependant, en tant que classe de lycée, j'ai appris ce que j'aurais dû apprendre dès le début,J'ai également suivi des cours en ligne à Stanford et étudié l'apprentissage automatique, l'apprentissage profond et le développement d'applications tout en lisant des articles. Je suis heureux d'avoir pu parler anglais.


―― : Eh, Stanford !? Même le prix unitaire des cours est assez cher, n'est-ce pas ? Que fais-tu de cet argent ?

Mes parents ont tout à fait accepté cela et ont payé mes frais de scolarité, et j'ai également pu gagner de l'argent moi-même.Dès ma deuxième année de lycée, j'ai travaillé à temps partiel dans une entreprise d'IA à Akihabara. Après l'école, je travaillais 3 jours par semaine, 6 heures par jour (15h-21h30). Maintenant que j'y pense, c'est un salaire horaire normal pour un travail à temps partiel, mais quand j'étais au lycée, je me disais : « Quelle merveilleuse entreprise de pouvoir me payer autant ! »C’était intéressant car j’ai pu faire des travaux pratiques sur l’IA, ce qui m’intéressait effectivement.

J'ai développé un programme qui prédit le classement des courses de bateaux en combinant des facteurs tels que l'âge des concurrents et la météo, et un programme qui repère les espaces ouverts sur Terre à l'aide de photos satellites, et je les ai étudiés pendant environ six mois avant d'arrêter.


―― : Êtes-vous libre de travailler à temps partiel au lycée ?

Oui, il l'a reconnu. Il s'agissait d'un travail parascolaire, et le contenu du travail à temps partiel lui-même était exactement conforme à l'orientation que visait le lycée.À l’école, j’installe un écran sur mon bureau et j’étudie des choses comme le prix du marché du Bitcoin tout en lisant des journaux anglais tout en assistant aux cours. Tant que cela correspond à vos objectifs, c'est un lycée qui offre beaucoup de liberté, et j'ai l'impression d'avoir été « élevé » de cette façon.


■Application de diagnostic de coiffure IA développée par un lycéen de troisième année avec l'investissement d'un grand salon de beauté
―― : En parlant de présentations d'entreprise, après avoir travaillé à temps partiel dans une entreprise d'IA, je développe une application appelée « AI Stylist ». Quelle est l’histoire derrière tout cela ?

Après tout, je souhaite créer un service pouvant être utilisé en externe. Mes camarades de lycée et moi avions créé toutes sortes de services, mais ils ne seraient perfectionnés que lorsqu'ils seraient réellement utilisés dans le monde extérieur.

J'ai eu l'idée d'un « service qui utilise l'IA pour diagnostiquer la coiffure qui vous convient à partir de photos » et j'ai commencé à travailler chez Earth Holdings, l'une des principales franchises de salons de coiffure. L'entreprise compte environ 250 magasins franchisés dans tout le pays.Lorsque j'ai présenté le projet au fondateur, Toshiharu Kokubun, il m'a immédiatement dit : « Je vais vous donner l'argent et créer une application », et le développement a immédiatement commencé.


--: Les lycéens ont augmenté l'investissement. Comment M. Kokubun trouve-t-il la voie ? De plus, même si vous pouvez faire la partie programmation, vous avez toujours besoin d'une équipe de développement pour réfléchir à l'interface utilisateur et aux parties de conception, n'est-ce pas ?

Je veux dire, il y a un vieil homme autour de moi qui me fait toujours découvrir des choses comme ça. AI Stylist a été téléchargé près d'un million de fois. Je ne suis définitivement pas doué pour le design, alors j'ai demandé diverses choses à mes amis et à mon entourage.

(NDLR : chaque fois que M. Hayakawa démarre ou développe un service, il dit toujours : « C'est un vieil homme qui m'a présenté » ou « J'ai des gens autour de moi qui peuvent m'aider. ») Les adultes et les amis de Hayakawa se sont connectés et ont coopéré de diverses manières en fonction des intérêts de Hayakawa, et « une équipe s'est spontanément formée autour d'elle ».


AI Stylist, que j'ai développé lorsque j'étais en troisième année de lycée, compte 1 300 avis.

―― : De plus, lorsque vous développiez AI Stylist, vous étiez en train de passer des examens d'entrée pour votre troisième année de lycée, n'est-ce pas ? Qu'est-ce que cela signifie pour étudier pour les examens d'entrée ?

Je suis d'accord.J'ai passé environ trois mois à le développer, de janvier à mars, ma dernière année de lycée avant l'obtention de mon diplôme. Heureusement, comme j'étais un étudiant interne à l'université, je n'avais pas besoin d'obtenir un score aussi élevé au test du Centre national, alors j'ai vraiment commencé à me préparer pour le test trois jours à l'avance.Je n'ai pas vraiment fait quelque chose comme étudier pour les examens d'entrée mdr.

(Note de l'éditeur : il a été confirmé plus tard que le nombre d'étudiants admis à Tokyo Tech depuis Tokyo Tech est limité à 10, et qu'ils doivent être dans les 5 % des meilleures notes.) (Cela ne semble pas être un cadre que vous pouvez passer sans passer.)


―― : M. Hayakawa, lorsque vous étiez en troisième année de lycée, vous avez remporté la 3ème place dans App Koshien pour votre application de navigation AR pour touristes étrangers. Je n'ai pas une très longue carrière dans ce type de développement d'IA, alors comment puis-je en arriver là en 1 à 2 ans d'études. Ne dit-on pas que le Japon ne produit pas d'ingénieurs en IA dans les universités américaines et japonaises ? universités Y a-t-il une grande différence entre les universités ?

Est-ce vrai ? Non, si vous étudiez normalement (cours à Stanford, etc., articles de recherche de pointe), vous y parviendrez assez bien. Il peut y avoir différents niveaux. Même si vous êtes un spécialiste de l'IA dans une grande entreprise, il y en a toujours qui n'ont pas de master ou n'ont lu aucun article de recherche.

(NDLR : M. Hayakawa n'a pas non plus de master)


■ J'ai réussi l'interview sans dire plus d'un mot et j'ai rejoint "Genius Factory" de Masayoshi Son
―― : M. Hayakawa, votre Mensa (indice d'intelligence des 2 % les plus riches de la population) est également inclus, donc j'estime que vous devez être très intelligent. Aviez-vous l’ambition d’aller à l’Université de Tokyo ou d’aller dans une université à l’étranger ?

Il n’y en avait pas. Si vous voulez y aller, vous pouvez y aller plus tard, et c'est facile d'aller à l'université en interne sans passer l'examen d'entrée, c'est pourquoi j'ai choisi Tokyo Tech. Les cours à Tokyo Tech sont également intéressants. Ma priorité est de créer un service le plus rapidement possible et de le proposer à la société.


―― :Après mon entrée à l'université, je suis devenu membre de la Fondation Masayoshi Son. Je connais également un étudiant de soutien, Nakayama, qui est un « artiste de génie un peu inhabituel ». C'est un système étonnant où vous pouvez recevoir gratuitement des bourses de recherche et de scolarité, et vous n'avez rien à demander en retour. Il s'agit d'un projet spécial visant à soutenir les personnes dotées de capacités extraordinaires (ciblant les jeunes non seulement au Japon mais partout dans le monde).

Ce sont vraiment des gens extraordinaires. Je suis le dernier membre de la Fondation Masayoshi Son (mdr). La fondation compte actuellement 240 membres. Il y a des enfants qui sont entrés au laboratoire de biologie de l’Université de Tokyo en cinquième année et des étudiants qui sont entrés à l’Université de Sydney à l’âge de 14 ans.

<孫正義財団応募資格>
・Ceux qui ont obtenu d'excellents résultats dans des compétitions internationales ou nationales, quel que soit le domaine.
・Personnes possédant des qualifications reconnues internationalement ou appartenant à une organisation
・Personnes ayant des notes et des réalisations clairement exceptionnelles dans les activités universitaires et de recherche
・Ceux qui se préparent à démarrer une entreprise ou qui ont déjà obtenu des résultats dans leur propre entreprise
・Ceux qui font preuve d'une excellente réflexion dans le processus de sélection des articles par le Secrétariat de la Fondation

La fondation, créée en décembre 2016 avec des fonds privés et non affiliée à SoftBank, a été fondée par Masayoshi Son, qui adore les quiz et organise des dîners avec des étudiants et des enfants de haut niveau.


--- : En regardant cette liste, il semble que les personnes qui n'ont pas Mensa soient minoritaires. Du prix du président de l'Université de Tokyo au statut de super créateur inexploré, en passant par la poursuite d'études universitaires à l'étranger. Il n’y a pas une seule personne sans récompense. . . Au fait, comment M. Hayakawa a-t-il été choisi ?

Oh, le mien était intéressant.J'avais un temps limité de 2 minutes pour mettre en valeur mes réalisations, mais dans mon cas, j'étais en train d'introduire le service de "CoeFont", une voix IA, donc je n'ai même pas émis de son, encore moins en faire la promotion. Les juges étaient Masayoshi Son, le lauréat du prix Nobel Shinya Yamanaka, le professeur à l'Université de Kyoto, le joueur de shogi Yoshiharu Hanyu et le président Gonokami de l'Université de Tokyo. Ils ont dit : « Commençons la présentation » et ont appuyé sur le bouton. là, la voix IA que j'ai créée a parlé pendant 2 minutes entières.Puis, lorsque l'IA a fini de parler, elle est revenue et a simplement dit : « Merci ».


―― :C'était une présentation percutante.


■Mise en place du service de synthèse vocale d'IA « CoeFont »
―― : Comment vous est venue l'idée de créer CoeFont ? Vous avez démarré votre entreprise juste après votre entrée à l'université, n'est-ce pas ?

J'ai démarré mon entreprise en novembre 2020, à l'automne de ma première année à l'université. J'ai toujours aimé Club Penguine et les jeux de chat, mais je n'aimais pas le son de ma voix lorsque je l'enregistrais, alors j'ai pensé qu'il serait possible d'appliquer l'apprentissage profond pour le rendre cool ou mignon.

Les polices de texte sont difficiles à lire lorsqu'elles sont écrites à la main, vous pouvez donc les séparer en types et choisir celles qui sont faciles à lire et créer une atmosphère facile à utiliser. J'ai pensé que ce serait intéressant si vous pouviez choisir votre voix préférée comme vous le feriez pour une police.


--:sûrement. La voix a une personnalité et une personnalité, mais à mesure que les conversations basées sur le métaverse et les avatars deviennent populaires, je pense que la demande de conversations avec des polices vocales augmentera considérablement.

Dans d'autres entreprises, cela coûterait environ 1 million de yens. Avec CoeFont, si vous ne payez que 500 yens et enregistrez votre voix pendant 15 minutes, elle subira un processus d'apprentissage en profondeur et deviendra votre propre « police vocale » en une demi-journée environ.Tout ce que vous avez à faire est de définir votre conversation préférée sous forme de texte, et l'IA la lira automatiquement dans votre propre police vocale de manière naturelle. Ma précision s’est améliorée au point où l’on peut se tromper en disant que je parle. D'un autre côté, si vous êtes le genre de personne comme moi qui n'aime pas le son de votre propre voix, vous pouvez utiliser la voix d'un doubleur célèbre et cool et lui demander de la lire à haute voix.


--: C'est proposé à très bas prix !

Actuellement, nous le proposons presque au prix coûtant.Tout d'abord, il est important de faire passer le message, et je pense qu'il serait bien que les entreprises puissent prendre le relais après une expansion progressive. Les utilisateurs peuvent publier leurs propres polices vocales sur le marché et gagner de l'argent grâce aux frais d'utilisation.

À l'heure actuelle, environ 4 000 types de voix ont été téléchargés et vous pouvez les utiliser en dépensant des points. Vous pouvez utiliser 5 points pour chaque personnage, comme des points T, pour que votre nom soit lu dans la voix d'un doubleur célèbre. Il s'agit d'un modèle dans lequel les 10 000 points sont pré-achetés pour 100 yens, etc., et les ventes sont restituées au vendeur de la voix utilisée.

Je pense que les comédiens très occupés pourront vendre leurs propres polices vocales sans avoir à se rendre à chaque fois au studio d'enregistrement pour enregistrer chaque police.

Les vendeurs de voix populaires de CoeFont. « Licence » de votre voix en utilisant des points sur le site

Lorsque vous vous inscrivez de cette manière, les données textuelles seront automatiquement lues à l'aide de la voix que vous avez achetée. Qualité utilisable telle quelle pour la diffusion de vidéos via des avatars, etc.


―― : Quelle est la réponse au service ?

Dès le début, la réponse a été formidable.Au total, 20 000 utilisateurs sont venus en deux jours et plus de 200 000 utilisateurs en un mois.Le moyen le plus simple de comprendre est de regarder de nombreuses émissions télévisées et de les regarder. Il couvre également la façon dont les polices vocales sont créées, les enregistrements d'annonceurs réels et les cas d'utilisation de personnes ayant perdu leurs cordes vocales.


―― :Cependant, cela pourrait être révolutionnaire si le BtoB pouvait organiser la supervision vocale et les frais de droits d'auteur. Au lieu de devoir à chaque fois contacter l'agence et monter un studio d'enregistrement, nous vendons l'œuvre en empruntant simplement la police vocale de la personne et en la supervisant.

Lorsqu'il s'agit d'agences de doublage professionnelles, le contrôle qualité est extrêmement important, nous n'avons donc pas encore atteint ce niveau d'utilisation. Il existe actuellement une forte demande de la part des petites et moyennes sociétés de production vidéo et nous avons reçu plus de demandes que prévu.

Les éditeurs sont également intéressés et nous travaillons avec Shogakukan pour créer un livre audio de synthèse vocale IA de Tomoyuki Morikawa, qui joue le rôle de Yoya Ubuyashiki dans « Demon Slayer : Kimetsu no Yaiba ». Nous travaillons également avec Tosho Printing pour créer un service de distribution de livres audio de synthèse vocale AI. Nous publions également « Bijigaku ».Il faut environ deux semaines pour enregistrer un livre audio, car il y a beaucoup de lecture à faire. Il est également nécessaire d'utiliser CoeFont lorsque la planification est inévitable.


--: Il semble y avoir également une demande de la part des étrangers.

Oh, et PokeTalk, une application d'interprétation IA pour smartphones, l'a également adoptée comme voix standard pour lire le japonais. De plus, les chaînes de télévision et les sociétés de médias sont intéressées par cela, nous travaillons donc avec TBS et TV Tokyo, et Newspicks crée également des médias qui utilisent l'IA pour lire à haute voix leur « hotpot d'actualités [AI voice] ».


―― : Lorsque vous écoutez ainsi, vous tracez une ligne claire entre votre voix et la voix vocaloïde. On a l'impression qu'un être humain le lit. D’un autre côté, comme cela a été mentionné plus tôt dans la vidéo de l’interview télévisée, cela peut également être important pour les gens ordinaires, comme les personnes qui ont perdu leurs cordes vocales.

C’était une façon dont je ne m’attendais pas à ce qu’il soit utilisé. C'est le cas de M. Sakai, qui a subi une intervention chirurgicale pour lui retirer les cordes vocales. J'ai pu avoir diverses conversations avec ma famille en utilisant ma propre voix, et cela m'a encore une fois rappelé l'importance des polices vocales.

Je crois que d’autres personnes, comme celles atteintes de sclérose latérale amyotrophique (SLA), ont des besoins similaires. Nous permettons à ces personnes d'utiliser nos services gratuitement.


―― :Cependant, lorsque vous combinez le travail de création de produits comme celui-ci, les études et les examens nécessaires en tant qu'étudiant, et le travail de location d'un bâtiment à Roppongi pour démarrer une entreprise et gérer une organisation de 30 personnes, n'est-ce pas difficile ? Comment y parvenez-vous ?

Ah, il y a des gens qui font des choses comme lever des fonds, créer une entreprise et embaucher des gens (bien sûr, j'y regarde aussi). Nous avons des dirigeants d'Accenture qui font ce genre de travail. Je ne fais pas tout moi-même. Il y a beaucoup de choses que je ne comprends pas.

De plus, lorsque vous atteignez cette taille, vous devez effectuer beaucoup de travail externe, comme des interviews avec les médias et des voyages d'affaires. Je ne peux donc pas être souvent au bureau. J'utilise donc des ingénieurs internes pour peaufiner le produit et travailler sur l'interface utilisateur que je commence à créer.


―― : Que souhaitez-vous faire en tant que CoeFont à l'avenir ? M. Hayakawa semble avoir l'ambition de créer des services encore plus différents ?

Eh bien, il y a d'autres choses que je veux faire, maisPour l'instant, je vais me concentrer sur la façon d'étendre CoeFont. Il n’existe encore que 200 à 300 entreprises, mais je pense qu’elles commenceront à l’utiliser de différentes manières.Nous aimerions augmenter le nombre de cas dans lesquels CoeFont est utilisé, notamment par les sociétés de sécurité et l'industrie du divertissement, y compris l'industrie des jeux. En juin dernier, nous avons réduit les obstacles à une utilisation en entreprise, alors essayez-le.