Filosofía de diseño del sistema de evaluación

Primero, una pregunta: como aprendiz, ¿qué tipo de evaluación es una buena evaluación para mí?

Recuerdo cuando aprendí a conducir y saqué el carnet de conducir durante la universidad. No tengo miedo de preguntar, de hecho quiero hacerlo. Me gusta aclarar las cosas; solo así puedo sentirme tranquilo. Si no, la incertidumbre me molesta.

Durante mucho tiempo, he estado en contacto con contenidos relacionados con la IA. De hecho, la evaluación es muy similar al entrenamiento de IA: cuando hago algo, quiero que alguien me diga si lo hago bien, si mi forma de pensar es correcta. Pero la diferencia, y lo más importante, es que quiero saber si hay una mejor manera, un truco. Sí, un truco.

El entrenamiento de IA solo necesita que le digan si está bien o mal; el modelo solo se arreglará solo. Lo que yo quiero, en cambio, es que alguien me muestre un camino mejor, detalles ignorados, una forma de pensar más sencilla: no solo juzgar el resultado, sino ayudarme a abrir más posibilidades.

Porque el modelo tiene mucho “tiempo” y “oportunidades” para intentar aleatoriamente o iterativamente hasta mejorar. Yo no tengo esa capacidad. Quizás los humanos, como “modelos”, somos mucho más complejos y profundos; nuestro aprendizaje ocurre en lo profundo, incluso en el subconsciente.

Es como aprender a esquiar: una vez que domino la posición de los pies y el centro de gravedad, al menos puedo esquiar con control, en lugar de caer sin control. Estos dos tipos de “esquí” son totalmente diferentes, jaja.

En Atobe Repeater, he añadido un sistema de evaluador. Sigue siendo una función experimental, pero creo que será un diseño útil, y definitivamente lo mejoraré.

En el pasado, he visto muchas funciones de IA que son cómodas y útiles. Pero siguen siendo diferentes. Lo que aprendemos es para comunicarnos con personas, ahora y en el futuro. Entonces, ¿por qué no dejar que personas reales evalúen directamente? ¿Lo que la IA dice que es “bueno” o “malo” es realmente siempre bueno o malo?

Así funciona ahora: los aprendices envían el audio modelo que quieren imitar, más su propio audio grabado (solo audio por ahora; más formatos se añadirán), junto con información como duración, idioma objetivo, nombre de la habilidad y posiblemente el idioma principal del aprendiz. Todo se envía como una tarea.

Los evaluadores en el salón de tareas pueden tomar tareas lingüísticas de nivel competente o nativo. Importante: las tareas tienen límite de tiempo. Las tareas no evaluadas vuelven al salón cuando se acaba el tiempo.

Así que evaluadores, sed decididos y valientes: vuestra evaluación ayudará mucho a los aprendices.

(Claro que no será perfecto por el límite de tiempo. ¿Qué se puede hacer? :p)

Creo que enviar tu propia imitación es tan importante como recibir evaluación. Una vez que envías la tarea, ya estás a mitad del camino. A veces incluso comparar cuidadosamente por ti mismo te hace ver dónde mejorar.

Y que evaluadores de nivel competente o nativo escuchen, imiten, señalen problemas o te animen si lo haces bien es maravilloso. A veces incluso es una experiencia de aprendizaje para los evaluadores.

Creo que vivimos en un mundo del «concepto de planeta de baja precisión» [1]. Muchas cosas no son perfectamente precisas ni rigurosas, son imperfectas, pero siguen funcionando suavemente, ¿no?

Bastante es suficiente, tanto para aprendices como para evaluadores.

Tengo más ideas sobre el alcance de lo que los evaluadores pueden valorar. Por ejemplo, la ayuda mutua entre aprendices del mismo idioma también debería ser útil, pero el formato será definitivamente diferente; todavía necesita más diseño.

Por supuesto, como indico en mis planes, también añadiré funciones de IA como opción avanzada. Quiero que no sea esencial, pero que siga siendo útil para quienes lo necesiten.

Finalmente, tengo una pregunta rápida.

Para una tarea en la que juzgamos si la afirmación de otra persona es correcta o incorrecta, ¿qué término prefieres?

«Evaluation Task», o la más completa «Review Task»?

Agradecería mucho consejos de hablantes nativos de inglés (o no nativos :p).

Sé que los gustos difieren, pero tomaré la decisión final —y aceptaré felizmente el papel de “quien decide”! 😄

[1] Basta con que sea suficiente — El principio de tolerancia a la ambigüedad en diversos campos