評価システムの設計思想

まず一つ質問があります。学習者である私にとって、どのような評価が良い評価なのでしょうか。

大学の頃、自動車免許を取りに行った時のことを思い出します。私は質問を恐れず、むしろ積極的に聞きたいタイプで、物事をはっきりさせるのが好きです。そうして初めて安心でき、曖昧なままだと落ち着かないのです。

長い間、AI関連の内容に触れてきました。実は評価というのはAIの学習によく似ています。何かをした時、「これで正しいのか」「考え方は合っているのか」を誰かに教えてほしい。でも違う点、そしてより重要なのは、もっと良い方法やコツがあるか知りたいということです。そう、コツです。

AIの学習は「正解・不正解」だけ伝えれば、モデル自身が正しくできるようになります。しかし私が求めるのは、より良い道筋、見落とされた細部、よりシンプルな考え方を教えてくれる人です。単なる結果判定ではなく、もっと多くの可能性を開いてくれることです。

モデルはより良い結果になるまで、ランダムに・反復的に試す「時間」や「機会」がたくさんありますが、私にはそんな能力がありません。人間という「モデル」はもっと複雑で深く、学習は心の奥底、潜在意識の中でさえ行われているのかもしれません。

スキーを習うのと同じで、足の位置と重心の取り方さえ分かれば、少なくともコントロールしながら滑れるようになります。制御不能で突っ走るのとは全く違う、この二つの「滑り」はまったく別物ですよね（笑）。

『語跡 Atobe repeater』の中に、評価者の仕組みを追加しました。現在はまだ実験的な機能ですが、役立つデザインになると信じていますし、必ずもっと良くしていきます。

今まで便利で役立つAI機能をたくさん見てきました。でもそれらはやはり違います。私たちが学ぶ内容は、現在も将来も「人」とコミュニケーションするためのものです。なら直接「人」に評価してもらえばいいのに。AIが良い・悪いと言うことが、本当に常に正しいのでしょうか。

現在の仕組みはこうです。学習者は模範となる音声と、自身が録音した模倣音声（現在は音声のみ、将来的には他の形式に対応予定）、そして音声の長さ・学習言語・スキル名・学習者の使用言語などの情報をまとめて、タスクとして提出します。

評価者はタスクホールで、熟練者またはネイティブレベルの言語タスクを受け取れます。注意点として、タスクには時間制限があり、時間切れになると未評価のタスクは再びホールに戻されます。

ですから評価の方は、どんどん積極的に評価してください。あなたの評価は学習者にとって本当に大きな助けになります。

（もちろん時間制限があるので完璧にはできません。仕方ないですよね？ :p）

評価を受け取るのと同じくらい、自分の模倣結果を提出することも重要だと思います。評価タスクを出すだけでも、半分は成功です。時には自分でよく比較するだけでも、どこを改善すれば良いか分かるようになります。

そして熟練者やネイティブレベルの評価者が聞いて、模倣して、問題点を指摘してくれたり、上手くできていたら励ましてくれたりするのは本当に素晴らしいことです。時には評価者にとっても学びになることさえあります。

私たちは『低精度惑星コンセプト』[1] の世界に生きていると思います。多くのことは完璧に精密・厳密ではなく、不完全ですが、それでも穏やかに回っていますよね。

「十分ならそれで良い」、それは学習者にとっても評価者にとっても同じです。

評価者が評価できる範囲について、さらに考えていることがあります。例えば同じ言語の学習者同士の助け合いも役立つはずですが、形式は明らかに違うものになるので、まだ設計が必要です。

もちろん計画書にも記載していますが、AI機能も上位機能として追加してサポートする予定です。必須の機能にはしたくないですが、必要な人には役立つようにしたいです。

最後に、ちょっとした質問があります。

他の人の発言が正しいかどうかを判断するタスクについて、次のどちらの表現が良いと思いますか。

「Evaluation Task」、それともより総合的な「Review Task」？

英語ネイティブの方（ネイティブでなくても :p）、ぜひアドバイスをいただけると嬉しいです。

好みは分かれると思いますが、最終的には私が決めます。そして、決定者役を喜んで引き受けます！😄