Tout d’abord, une question : en tant qu’apprenant, quelle sorte d’évaluation est une bonne évaluation pour moi?
Je me souviens quand j’ai appris à conduire et passé mon permis pendant l’université. Je n’ai pas peur de poser des questions, au contraire j’aime ça. J’aime comprendre les choses clairement ; seulement alors je suis à l’aise. Sinon, le doute me dérange.
Depuis longtemps, j’ai été en contact avec des contenus liés à l’IA. En fait, l’évaluation ressemble beaucoup à l’entraînement d’une IA : quand je fais quelque chose, je veux que quelqu’un me dise si je fais bien, si ma façon de penser est correcte. Mais la différence, et ce qui est plus important, c’est que je veux savoir s’il y a une meilleure méthode, une astuce. Oui, une astuce.
L’entraînement d’une IA n’a besoin que de savoir si c’est juste ou faux ; le modèle trouvera tout seul comment s’améliorer. Ce que je veux, c’est que quelqu’un me montre une meilleure voie, des détails ignorés, une façon de penser plus simple : pas seulement juger le résultat, mais m’aider à ouvrir plus de possibilités.
Parce que le modèle a beaucoup de « temps » et de « chances » pour essayer au hasard ou itérativement jusqu’à s’améliorer. Moi, je n’ai pas cette capacité. Peut-être que nous, humains en tant que « modèles », sommes bien plus complexes et profonds ; notre apprentissage se passe au plus profond de nous, même dans l’inconscient.
C’est comme apprendre à skier : une fois que je maîtrise la position des pieds et le centre de gravité, au moins je peux skier en contrôlant, au lieu de dévaler sans contrôle. Ces deux manières de « skier » sont totalement différentes, haha.
Dans Atobe Repeater , j’ai ajouté un système d’évaluateur. C’est encore une fonction expérimentale, mais je crois que ce sera un design utile, et je vais certainement l’améliorer.
Dans le passé, j’ai vu beaucoup de fonctions d’IA pratiques et utiles. Mais elles restent différentes. Ce que nous apprenons sert à communiquer avec des personnes, maintenant et dans le futur. Alors pourquoi ne pas laisser de vraies personnes évaluer directement? Ce que l’IA dit être « bon » ou « mauvais » est-il vraiment toujours bon ou mauvais?
Voici comment ça marche maintenant : les apprenants envoient l’audio modèle à imiter, plus leur propre audio enregistré (seul l’audio pour l’instant ; davantage de formats seront supportés plus tard), avec des informations comme la durée, la langue cible, le nom de la compétence, et éventuellement la langue principale de l’apprenant. Tout est envoyé sous forme de tâche.
Les évaluateurs dans le hall des tâches peuvent prendre des tâches linguistiques de niveau compétent ou natif. Important : les tâches ont une limite de temps. Les tâches non évaluées retournent au hall quand le temps est écoulé.
Alors évaluateurs, soyez décidés et audacieux : votre évaluation aidera beaucoup les apprenants.
(Bien sûr ce ne sera pas parfait à cause du temps limité. Qu’est-ce qu’on peut faire? :p)
Je pense que soumettre votre propre imitation est aussi important que recevoir de l’évaluation. Une fois que vous envoyez la tâche, vous êtes déjà à mi-chemin du succès. Parfois, même juste comparer soigneusement vous-même vous fait voir où vous pouvez améliorer.
Et avoir des évaluateurs de niveau compétent ou natif qui écoutent, imitent, signalent des problèmes ou vous encouragent si vous faites bien, c’est génial. Parfois, c’est même une expérience d’apprentissage pour les évaluateurs.
Je pense que nous vivons dans un monde du « concept de planète basse précision » [1]. Beaucoup de choses ne sont pas parfaitement précises ni rigoureuses, elles sont imparfaites, mais fonctionnent doucement, non?
Assez bon est suffisant, pour les apprenants comme pour les évaluateurs.
J’ai d’autres réflexions sur le champ d’évaluation des évaluateurs. Par exemple, l’entraide entre apprenants de la même langue devrait aussi être utile, mais le format sera forcément différent ; il faut encore concevoir ça.
Bien sûr, comme indiqué dans mes plans, j’ajouterai aussi des fonctions d’IA en tant qu’option avancée. Je veux qu’elles ne soient pas essentielles, mais utiles pour ceux qui en ont besoin.
Enfin, j’ai une petite question.
Pour une tâche où l’on juge si ce que dit quelqu’un est juste ou faux, quel terme préférez-vous?
« Evaluation Task », ou le terme plus complet « Review Task »?
J’apprécierais beaucoup les conseils des anglophones natifs (ou non natifs :p).
Je sais que les goûts diffèrent, mais je prendrai la décision finale —et j’accepte volontiers le rôle de « décideur »! 😄
[1] Suffisant est suffisant — Le principe de tolérance à l’ambiguïté dans plusieurs domaines