Trong cuốn sách gần đây của mình, Brave New Words: How AI Will Revolutionize Education (and Why That's a Good Thing), Sal Khan, nhà sáng lập Khan Academy, đã trình bày một cách sâu sắc về cách mà trí tuệ nhân tạo (AI) có thể thay đổi cơ bản hệ thống kiểm tra và đánh giá trong giáo dục, từ bậc K-12 cho đến quy trình tuyển sinh đại học. Khan không chỉ nhấn mạnh tiềm năng to lớn của AI trong việc cá nhân hóa và tạo ra các bài đánh giá liên tục, toàn diện hơn, mà còn thảo luận về cách AI có thể giúp giải quyết những thách thức tồn tại lâu dài trong hệ thống giáo dục hiện tại.
Trước hết, chúng ta sẽ xem Sal khan nói gì về tầm nhìn của ông cho tương lai của các bài kiểm tra từ mầm non tới lớp 12
TƯƠNG LAI CỦA CÁC BÀI KIỂM TRA TỪ LỚP K–12
Việc chỉ trích các bài kiểm tra tiêu chuẩn hóa ở Hoa Kỳ đã trở nên phổ biến. Mỗi bang đều có các bài kiểm tra "tổng kết" vào cuối mỗi năm học để đo lường hiệu suất của học sinh và trường học. Mọi người thường chỉ trích những bài kiểm tra này là quá hẹp—chúng chủ yếu sử dụng các câu hỏi trắc nghiệm tập trung vào một phần nhỏ những gì thực sự quan trọng trong cuộc sống. Điều này có thể tạo ra áp lực cho giáo viên phải thu hẹp sự tập trung của họ trong lớp học.
Tuy nhiên, không chỉ dừng lại ở đó. Một số người khác lập luận rằng những bài kiểm tra này lấy đi thời gian học tập và không thực sự mang lại kết quả hành động. Khi điểm số đến vào mùa hè, hoặc vào đầu năm học tiếp theo, học sinh đã chuyển sang lớp mới với giáo viên mới. Ngoài ra, học sinh hầu như không có động lực để quan tâm đến việc thể hiện tốt nhất của mình trong một bài kiểm tra không liên quan đến điểm số của họ. Hơn nữa, sự khác biệt về nhân khẩu học trong hiệu suất có thể dẫn đến những cáo buộc về thiên vị đối với một số nhóm hoặc trường học. Khi giáo dục trở nên ngày càng mang tính chính trị, sự thiếu minh bạch về những gì các bài kiểm tra này thực sự đánh giá khiến mọi người hoài nghi.
Tuy nhiên, hãy lùi lại một bước và xem xét. Khi mọi người đưa ra phản đối đối với các bài kiểm tra tiêu chuẩn hóa, tôi thường thích tìm hiểu phần nào họ không thích và liệu họ có đang ném con cùng với nước tắm hay không. Nếu họ chống lại việc đánh giá hoàn toàn, tôi hỏi họ làm thế nào chúng ta có thể cải thiện mà không đo lường. Và nếu chúng ta sẽ đo lường, việc tiêu chuẩn hóa đánh giá đó có lẽ công bằng hơn, vì nó áp dụng tiêu chuẩn giống nhau cho mọi người (so với đánh giá "không tiêu chuẩn hóa"). Nếu vấn đề nằm ở phạm vi hẹp mà các bài kiểm tra này đo lường, liệu câu trả lời không phải là mở rộng phạm vi đánh giá để làm cho chúng phong phú hơn thay vì loại bỏ hoàn toàn? Tương tự, nếu sự phê phán xoay quanh tính khả thi hoặc minh bạch, liệu chúng ta có thể làm cho các bài kiểm tra trở nên khả thi và minh bạch hơn không?
Trên hết, mặc dù các bài kiểm tra tiêu chuẩn hóa có thể không hoàn hảo, nhưng việc loại bỏ chúng có thực sự làm cho mọi thứ trở nên công bằng hơn hay ít hơn không? Nếu một trường học phục vụ các nhóm bị thiệt thòi không biết học sinh của họ đang tụt hậu ở đâu và như thế nào, làm sao họ có thể bắt đầu giải quyết vấn đề? Liệu có tốt hơn nếu giáo viên, học sinh và gia đình không biết về những lỗ hổng của họ không? Cuối cùng, những thiếu sót này sẽ xuất hiện dù sao đi nữa. Điều này có khả năng xảy ra sau nhiều năm, trong đại học hoặc trong lực lượng lao động, khi khó khăn hơn nhiều để sửa chữa sau nhiều năm tụt hậu.
Tôi thích nghĩ về cách chúng ta có thể cải thiện các bài kiểm tra tiêu chuẩn hóa hơn là cố gắng loại bỏ chúng hoàn toàn. Các giải pháp đã tồn tại ngay cả trước khi có trí tuệ nhân tạo tạo sinh. Hãy xem xét sự phê phán rằng giáo viên không có nhiều việc để làm với kết quả kiểm tra tiêu chuẩn hóa. Nếu các đánh giá có thể được đưa vào một nền tảng phần mềm để thực hành cá nhân hóa—ví dụ, yêu cầu học sinh làm việc để khắc phục các điểm yếu khác nhau dựa trên dữ liệu kiểm tra tiêu chuẩn hóa—thông tin trở nên khả thi. Theo thời gian, phần mềm thực hành cá nhân hóa sẽ hiểu được các bài đánh giá trước đó của học sinh và cung cấp cho học sinh đó các khuyến nghị mục tiêu hơn.
Khan Academy, thực tế, đã làm điều này cho một số bài kiểm tra tiêu chuẩn hóa trong nhiều năm nay. Điều đó có nghĩa là chúng tôi sử dụng thông tin kiểm tra tiêu chuẩn hóa để phân biệt việc thực hành trong lớp học tốt hơn, cải thiện kết quả của học sinh. Trong một nghiên cứu với hơn ba trăm nghìn học sinh sử dụng điểm kiểm tra tiêu chuẩn để thông báo cho việc thực hành cá nhân hóa trên nền tảng của chúng tôi, "học sinh tham gia... trong năm học 2021–2022 với liều lượng khuyến nghị là hơn 30 phút mỗi tuần đã vượt qua các dự báo tăng trưởng từ 26% đến 38%, tùy thuộc vào lớp học." Các bài đánh giá tiêu chuẩn hóa liên tục trong khi học sinh đang học cũng tránh được việc lấy đi thời gian giảng dạy quý giá. Mỗi bài tập trên nền tảng của chúng tôi đều được tiêu chuẩn hóa, và chúng tôi có hàng triệu điểm dữ liệu về cách học sinh từ các cấp độ và nhân khẩu học khác nhau thực hiện trên chúng. Thay vì chỉ cho học sinh tham gia một bài kiểm tra tổng kết truyền thống của bang một hoặc hai lần mỗi năm, họ có thể thường xuyên luyện tập kỹ năng của mình trên nền tảng của chúng tôi. Giáo viên sau đó có thể sử dụng dữ liệu được tạo ra để đo lường việc học của học sinh theo cách tiêu chuẩn hóa. Điều này cung cấp một cách đọc chính xác và thường xuyên hơn về cách học sinh đang thực hiện. Dữ liệu đó sau đó trở nên khả thi bằng cách thúc đẩy các khuyến nghị học tập cho học sinh. Loại đánh giá liên tục này cung cấp các điểm dữ liệu chất lượng cao hơn một cách thường xuyên hơn nhiều. Trong khi các bài kiểm tra tiêu chuẩn truyền thống có thể bao gồm năm mươi đến một trăm câu hỏi một hoặc hai lần mỗi năm, các bài đánh giá liên tục có thể thu thập được nhiều thông tin này mỗi tuần mà không làm cho chúng thậm chí không cảm thấy như một đánh giá riêng biệt. Phương pháp tiếp cận này cũng giải quyết vấn đề với động lực học sinh: bạn có nhiều khả năng quan tâm hơn nếu việc thực hành hàng ngày của bạn cũng đang đánh giá bạn theo cách tiêu chuẩn hóa ở hậu trường, vì công việc đó ảnh hưởng đến tiến trình lớp học và điểm số của bạn.
Nhiều sự lo lắng về chính trị xung quanh các bài kiểm tra và những gì đang diễn ra trong lớp học là do các bên liên quan bên ngoài như phụ huynh và chính trị gia không thể trực tiếp quan sát những gì học sinh đang trải qua. Thay vào đó, họ dựa vào các báo cáo gián tiếp hoặc thứ ba, mà có thể không hoàn toàn chính xác, hoặc họ không hiểu rõ cách các tiêu chuẩn cao cấp hiện hữu trong một bài kiểm tra hoặc lớp học. Sự thiếu minh bạch và linh hoạt của các bài kiểm tra tiêu chuẩn truyền thống bắt nguồn từ cả chi phí tạo ra các mục kiểm tra và thực tế là chúng phải được bảo mật; nếu bất kỳ mục nào bị rò rỉ, toàn bộ bài kiểm tra có thể trở nên vô hiệu. Mặt khác, nếu bạn có các nền tảng trực tuyến dễ truy cập đánh giá thích ứng từ một ngân hàng lớn các mục—hãy nghĩ đến hàng trăm nghìn câu hỏi—bạn có thể để nhiều bên liên quan thử nghiệm bài kiểm tra bất cứ khi nào họ muốn mà không làm suy yếu nó. Điều này là do một bài đánh giá thích ứng sẽ cung cấp cho mỗi học sinh một chuỗi câu hỏi khác nhau dựa trên cách họ thực hiện trên các câu hỏi trước đó. Không có khả năng hai học sinh sẽ thấy cùng một bộ câu hỏi. Trí tuệ nhân tạo tạo sinh có tiềm năng giúp đỡ với tất cả những điều này. Các mô hình ngôn ngữ lớn chưa đủ tốt để tạo ra các mục kiểm tra chất lượng cao hoàn toàn tự động, nhưng chúng có thể giúp người viết/xem xét câu hỏi con người trở nên hiệu quả hơn nhiều. Cuối cùng, điều này sẽ cho phép chúng tôi tạo ra nhiều mục hơn với cùng một nguồn lực, mở ra một làn sóng các bài kiểm tra thậm chí còn minh bạch và dễ tiếp cận hơn. Điều này vẫn để lại câu hỏi về cách làm sâu sắc và mở rộng các kỹ năng mà các bài kiểm tra tiêu chuẩn có thể đo lường. Trong khi các câu hỏi trắc nghiệm hoặc nhập số có thể giúp bạn tiến xa khi đánh giá một số loại kỹ năng, chúng không thể thực sự đánh giá cách bạn viết, tiếp cận một vấn đề, hoặc suy nghĩ sáng tạo. Theo truyền thống, các nhiệm vụ phức tạp này quá đắt để đánh giá rộng rãi. Để đánh giá ngay cả những câu hỏi mở đơn giản, bạn cần những người đánh giá chuyên gia làm việc với các tiêu chí phức tạp và hệ thống để đảm bảo tính nhất quán. Các bài đánh giá phong phú tương tự như một buổi bảo vệ luận án tiến sĩ hoặc phỏng vấn xin việc đã từng là điều không thể thực hiện ở quy mô lớn. Điều này sắp thay đổi. Thế hệ mô hình ngôn ngữ lớn mới nhất có tiềm năng cho phép chúng tôi tiến hành loại đánh giá phong phú này một cách kinh tế và toàn cầu. Hãy xem xét khả năng đọc hiểu: Hiện tại, học sinh đọc một đoạn văn và sau đó trả lời một số câu hỏi trắc nghiệm dựa trên đó. Những câu hỏi này có thể hỏi về, ví dụ, mục đích của tác giả, sau đó đưa ra bốn lựa chọn. Trong những năm tới, chúng ta sẽ ngày càng thấy các bài đánh giá sử dụng trí tuệ nhân tạo tạo sinh để tương tác với học sinh về quan điểm của họ hoặc mục đích của tác giả mà không cần nhiều lựa chọn. Nó sẽ yêu cầu học sinh chỉ cần viết hoặc nói ra suy nghĩ của mình, và trí tuệ nhân tạo sẽ có thể đánh giá phản hồi đó một cách nhất quán. Thậm chí tốt hơn, nó sẽ có thể tham gia vào một cuộc trò chuyện với học sinh về lý do họ cảm thấy như vậy và thảo luận về bằng chứng mà họ dựa vào. Toàn bộ bài đánh giá sẽ giống như một cuộc trò chuyện linh hoạt, rộng rãi với một người cố vấn chu đáo, đồng cảm và thú vị. Các phần của nó có thể liên quan đến việc đóng vai hoặc cố gắng vượt qua một mô phỏng. Nó thậm chí không cần phải tách biệt với việc học. Người gia sư trí tuệ nhân tạo đang ở đó để giúp bạn cũng sẽ xây dựng bằng chứng về những gì bạn biết và chưa biết. Điều này vượt ra ngoài ngôn ngữ và khả năng đọc hiểu.
Trong toán học, AI có thể yêu cầu học sinh giải thích lý do của họ hoặc phát triển một chứng minh. Trong khoa học, nó có thể đánh giá khả năng của học sinh trong việc thiết kế một thí nghiệm hoặc phê bình một bài báo nghiên cứu, hai yếu tố quan trọng trong việc trở thành một nhà khoa học. Các mô phỏng do AI điều khiển có thể đánh giá kỹ năng giải quyết vấn đề của học sinh. Khi AI phát triển khả năng trực quan ngày càng cao, nó sẽ có thể phê bình và đánh giá các tác phẩm trực quan, hình ảnh, hoặc video của một bài thuyết trình. Tất nhiên, việc sử dụng AI để đánh giá có thể khiến nhiều người lo ngại. Điều gì sẽ xảy ra nếu AI có các thiên kiến không rõ ràng ngay lập tức? Điều gì sẽ xảy ra nếu nó mắc sai lầm? Tôi cố gắng so sánh kiểu giả định này với hiện trạng. Các bài kiểm tra hiện tại được viết bởi những con người suy nghĩ thấu đáo nhưng không hoàn hảo, với những thiên kiến của riêng họ. Chúng ta đã biết rằng việc không tận dụng AI đang giới hạn chúng ta ở một loại đánh giá hẹp hơn nhiều, điều này có thể làm tăng ưu tiên cho các kỹ năng dễ đo lường hơn so với những kỹ năng khó đo lường nhưng có thể quan trọng hơn.
Trong lịch sử, khi chúng ta có thể thực hiện các bài đánh giá phong phú hơn, chẳng hạn như trong các buổi bảo vệ luận án tiến sĩ hoặc phỏng vấn xin việc, chúng thường không nhất quán và chứa nhiều thiên kiến hơn bất kỳ kỳ thi tiêu chuẩn nào hiện nay. AI tạo sinh cho phép chúng ta nắm bắt được những điều tốt nhất của cả hai thế giới: tiêu chuẩn hóa và quy mô kết hợp với sự phong phú và tinh tế. Vì tiềm năng tiếp cận của nó, các bên liên quan sẽ dễ dàng hơn rất nhiều trong việc thử nghiệm và tự kiểm tra nó. Tôi không nói rằng chúng ta nên mù quáng cho rằng bất kỳ bài đánh giá nào của AI đều sẽ tốt. Thực tế, tôi lo sợ rằng nhiều người sẽ tạo ra những bài đánh giá rất tệ, đầy thiên kiến. Tuy nhiên, tôi cũng tin rằng với sự quan tâm đúng mức, tính minh bạch và các biện pháp bảo vệ, chúng ta có thể giảm thiểu rủi ro và phát triển các bài đánh giá phong phú hơn, chính xác hơn và công bằng hơn so với những gì chúng ta có hiện nay. Điều này sẽ có những tác động tích cực đối với hệ thống giáo dục nói chung, mở rộng những gì được coi là một nền giáo dục chất lượng. Bằng cách đo lường các kỹ năng từ lâu được cho là không thể đo lường, như giao tiếp, sáng tạo và tò mò, hệ thống sẽ được thúc đẩy để quan tâm nhiều hơn đến việc phát triển con người toàn diện.
Và dưới đây là các vấn đề liên quan đến Ai và tuyển sinh đại học:
AI TRONG TUYỂN SINH ĐẠI HỌC
Các yếu tố cổ điển được xem xét trong tuyển sinh đại học là điểm số, các bài kiểm tra tiêu chuẩn, hoạt động ngoại khóa, bài luận, và thư giới thiệu. AI sẽ thay đổi cách mà hầu hết, nếu không muốn nói là tất cả, các yếu tố này được đánh giá, phát triển và xem trọng.
Tôi đã lập luận rằng AI tạo sinh sẽ biến đổi công việc học tập và cách chấm điểm trong lớp học; học sinh sẽ có thể thực hiện các bài tập phong phú hơn, và giáo viên sẽ có nhiều sự hỗ trợ hơn trong việc chấm điểm. Tôi cũng đã thảo luận về cách mà đánh giá tiêu chuẩn có thể thay đổi. Đánh giá sẽ trở nên sâu hơn, liên tục hơn, và không còn tách biệt khỏi quá trình học tập. Theo thời gian, các bài kiểm tra tiêu chuẩn như SAT và ACT sẽ đi theo hướng này, hoặc các hình thức đánh giá mới sẽ xuất hiện để tận dụng cơ hội này.
Ngoài các hoạt động ngoại khóa, các yếu tố còn lại—bài luận và thư giới thiệu—đều liên quan đến viết lách. Đây là nơi rõ ràng nhất mà các mô hình ngôn ngữ lớn đưa ra những câu hỏi đạo đức rất lớn. Giáo viên và cố vấn học sinh có thể sử dụng AI tạo sinh để viết thư giới thiệu. Học sinh có thể sử dụng các mô hình ngôn ngữ lớn để tạo ra các bài luận nghe có vẻ ấn tượng nhưng không phản ánh đúng khả năng viết hoặc sáng tạo thực sự của họ. Điều này đặt ra thách thức cho các nhân viên tuyển sinh trong việc đánh giá chính xác tính hợp lệ của công việc của ứng viên.
Tuy nhiên, các trưởng bộ phận tuyển sinh tại các trường đại học hàng đầu nói với tôi rằng sự xuất hiện của AI tạo sinh chỉ đơn giản là làm nổi bật những bất bình đẳng mà họ đã biết từ lâu trước khi các mô hình ngôn ngữ lớn xuất hiện. Lấy ví dụ về vụ bê bối "Varsity Blues". Đây là một trường hợp mà các bậc phụ huynh giàu có đã trả hàng trăm ngàn đô la để thuê một cố vấn tuyển sinh đại học không đạo đức, người không chỉ viết các bài luận ứng tuyển mà còn tạo ra các hoạt động ngoại khóa hoàn toàn giả, bao gồm cả việc dựng hình ảnh. Mặc dù đây là một ví dụ cực đoan, nhưng vẫn tồn tại một ngành công nghiệp xoay quanh các cố vấn tuyển sinh đại học mà chỉ những gia đình giàu có mới có thể chi trả. Mức giá phổ biến ở Silicon Valley, nơi tôi sống, là khoảng bốn trăm đô la một giờ cho các cố vấn hàng đầu. Con số này có thể lên đến hàng chục nghìn đô la để hỗ trợ một học sinh trải qua quá trình tuyển sinh đại học. Những cố vấn này làm gì? Những người có đạo đức hơn thì tư vấn cho học sinh cách tiếp cận các hoạt động ngoại khóa và chủ đề bài luận, giúp các gia đình suy nghĩ về các lựa chọn đại học tốt, và cung cấp cho học sinh phản hồi chi tiết về các bản thảo bài luận ban đầu. Ở phía phi đạo đức hơn, họ có thể chỉnh sửa quá nhiều bài luận của học sinh đến mức họ gần như viết chúng thay cho học sinh. Dù bằng cách nào, những học sinh giàu có này nhận được sự giúp đỡ đáng kể. Ngay cả khi họ không thuê một cố vấn, nhiều gia đình này có rất nhiều kiến thức nội bộ về quá trình tuyển sinh phức tạp và sử dụng nó để giúp con cái họ có lợi thế.
Các công cụ như ChatGPT rõ ràng là dễ tiếp cận hơn đối với một nhóm lớn những người không bao giờ có thể chi trả cho các cố vấn tuyển sinh đại học có giá cao. Và giống như các cố vấn này, AI tạo sinh có thể được sử dụng cho các mục đích đạo đức và phi đạo đức, cũng như tất cả các mục đích nằm giữa hai thái cực đó. Giờ đây, AI đã mở ra cánh cửa cho mọi người tham gia vào vùng xám đạo đức mà trước đây chỉ thuộc về những người giàu có.
Điều tương tự có khả năng xảy ra khi nói đến thư giới thiệu. Các cố vấn tuyển sinh có giá cao không thể viết thư giới thiệu, nhưng các cố vấn học đường và giáo viên phục vụ cho học sinh giàu có thường có nhiều kiến thức hơn về cách giúp học sinh của họ có cơ hội tốt nhất trong việc nhập học đại học. Các trường giàu có cũng thường có lớp học nhỏ hơn, nơi mà giáo viên và cố vấn học đường có thể hiểu rõ hơn về học sinh của họ và có nhiều thời gian hơn để dành cho mỗi học sinh. Bây giờ, một người viết thư giới thiệu có thể làm việc với các công cụ AI tạo sinh để diễn đạt tốt hơn sức mạnh của một ứng viên.
Vì vậy, mặt tích cực là AI tạo sinh có thể giúp thu hẹp khoảng cách giữa người giàu và người nghèo. Giờ đây, mọi người—không chỉ người giàu—đều cần phải quyết định xem sự giúp đỡ đến mức nào là quá nhiều. Ở khía cạnh tiêu cực, những học sinh ít đạo đức hơn có khả năng sẽ đẩy mọi thứ đến mức giới hạn, đặt những học sinh đạo đức hơn vào thế bất lợi. Trong khi đó, các giám đốc tuyển sinh cần phải xem xét liệu toàn bộ quy trình viết bài luận này còn cung cấp tín hiệu đáng tin cậy cho việc tuyển sinh nữa hay không.
Để giải quyết vấn đề đó, đáng để tự hỏi tại sao bài luận và thư giới thiệu lại là một phần của quy trình tuyển sinh ngay từ đầu. Ở hầu hết các quốc gia, việc nhập học vào các trường đại học có tính chọn lọc cao là một quá trình khá khách quan. Ở Ấn Độ, việc nhập học vào các Viện Công nghệ Ấn Độ (IIT) cực kỳ khó khăn được dựa hoàn toàn trên Kỳ thi Tuyển sinh Chung (JEE). IIT nhận sinh viên có điểm cao nhất trong kỳ thi này, cho phép một số chỉ tiêu dành cho các nhóm yếu thế. Không chỉ những người có điểm cao nhất được chọn các cơ sở IIT của mình, họ còn được chọn chuyên ngành trước tiên. Ở Ấn Độ, đây là một nỗ lực có chủ đích để tránh xa sự tham nhũng đã từng làm tổn hại đến các tổ chức khác trong nước. Không có gì mang tính chủ quan như bài luận, thư giới thiệu hoặc hoạt động ngoại khóa tham gia vào quá trình này.
Mặt khác, các giám đốc tuyển sinh tại các trường đại học có tính chọn lọc cao ở Hoa Kỳ sẽ nói về những điều mang tính chủ quan như "xây dựng một cộng đồng các nhà lãnh đạo tương lai đa dạng." Đúng là họ có chú trọng đến điểm số và kết quả học tập ở một mức độ nào đó, nhưng nhiều tổ chức này có thể lấp đầy các lớp sinh viên năm nhất của họ nhiều lần với những sinh viên có điểm số hoàn hảo và GPA cao. Nói cách khác, tại một số trường hàng đầu, một nửa số ứng viên có điểm số và GPA cho thấy rằng họ có thể thành công hơn rất nhiều về mặt học thuật nếu được nhận vào, nhưng trường đại học chỉ có thể nhận từ 3 đến 6 phần trăm trong số họ. Điều này dẫn đến một quá trình đánh giá rất chủ quan, cố gắng đánh giá tính cách và câu chuyện cá nhân của học sinh thông qua các bài luận, hoạt động ngoại khóa và thư giới thiệu. Liệu học sinh có vượt qua được những trở ngại không? Họ có vẻ là người biết hợp tác không? Liệu họ có khả năng tạo ra tác động đối với thế giới một ngày nào đó không? Đây là những câu hỏi lớn, sâu sắc để đặt ra về những người trẻ tuổi chỉ mới mười bảy hoặc mười tám tuổi. Tôi nghĩ rằng nhiều người hoài nghi về việc các nhân viên tuyển sinh có thể đánh giá tốt những phẩm chất này dựa trên một số bài luận và thư giới thiệu chịu ảnh hưởng đáng kể từ các yếu tố bên ngoài.
Hoạt động ngoại khóa có lẽ là một minh chứng rõ ràng hơn về khả năng lãnh đạo hoặc cam kết của một học sinh đối với cộng đồng, nhưng điều này cũng không dễ đánh giá. Liệu học sinh đó có thực sự tự mình giành được giải thưởng hội chợ khoa học quốc tế? Hay việc thí nghiệm của họ nghiên cứu về bệnh tim mạch chỉ là một sự trùng hợp khi mẹ của họ là một chuyên gia tim mạch học? Công việc tình nguyện đó có thực sự mang tính chất cống hiến hay chỉ là một điều gì đó nghe có vẻ ấn tượng?
Tất cả những điều này đã dẫn đến sự ngẫu nhiên trong quá trình tuyển sinh vào các trường đại học có tính cạnh tranh ở Mỹ, điều mà ai đã từng tham gia vào quá trình này đều dễ dàng nhận ra. Nhiều người sáng giá, hợp tác và tự tin nhất đã bị từ chối nhiều hơn so với những gì ta có thể mong đợi. Giả định thường là họ không được thể hiện đủ qua các thư giới thiệu hoặc bài luận độc đáo. Mặt khác, hãy đến thăm bất kỳ trường đại học nào có tính chọn lọc cao, bạn sẽ gặp nhiều thanh niên ấn tượng. Bạn cũng có thể gặp nhiều người đang gặp khó khăn trong học tập hoặc dường như không thể hiện được những phẩm chất như khiêm tốn, hợp tác, hay lãnh đạo. Hầu hết đều cho rằng những sinh viên này rất giỏi trong việc xây dựng một hình ảnh giấy tờ về bản thân mình và lách hệ thống—hoặc gia đình của họ rất giỏi trong việc thuê người để làm điều này cho họ.
Nhưng điều gì sẽ xảy ra nếu chúng ta có những cách đánh giá chuẩn hóa hơn về các "kỹ năng mềm" như lãnh đạo, hợp tác, đồng cảm và phục vụ cộng đồng? Càng tốt hơn, điều gì sẽ xảy ra nếu điều này được kết hợp với việc đảm bảo năng lực học thuật sâu sắc? Hóa ra điều này đã tồn tại trước AI, nhưng AI sẽ đưa mọi thứ lên một tầm cao mới.
Vào năm 2020, tôi đã khởi xướng Schoolhouse.world để cung cấp cho bất kỳ ai dịch vụ gia sư trực tuyến miễn phí qua Zoom. Điều này trở nên cần thiết hơn bao giờ hết, khi mà nhiều học sinh bị tụt hậu vì đại dịch COVID-19. Chúng tôi đã có thể duy trì dịch vụ này miễn phí bằng cách tuyển chọn các tình nguyện viên đã qua sàng lọc để làm gia sư. Bước đầu tiên của quá trình sàng lọc là đảm bảo các tình nguyện viên nắm vững kiến thức mà họ sẽ dạy kèm. Họ tham gia các bài kiểm tra thích hợp trong khi một công cụ khác ghi lại khuôn mặt và màn hình của họ. Các tình nguyện viên phải giải thích lý do của họ thành tiếng. Nếu họ đạt ít nhất 90% trong bài kiểm tra, video sẽ được gửi lên để đánh giá ngang hàng. Nếu mọi thứ đều ổn, họ được phép bắt đầu hành trình gia sư của mình, quá trình này vẫn bao gồm nhiều đánh giá và đào tạo hơn về kỹ năng gia sư.
Jim Nondorf, trưởng phòng tuyển sinh tại Đại học Chicago, đã liên hệ với tôi ngay sau đó, hỏi liệu họ có thể sử dụng bảng điểm gia sư của Schoolhouse.world để tuyển sinh đại học không. Lý do của ông là bất kỳ học sinh trung học nào là một gia sư được đánh giá cao về môn toán, chẳng hạn, chắc chắn phải nắm vững kiến thức, đặc biệt là với quy trình sàng lọc nghiêm ngặt của chúng tôi. Hơn nữa, nếu họ đã thực hiện nhiều buổi dạy kèm và được đánh giá cao, họ cũng có khả năng có kỹ năng lãnh đạo, giao tiếp và đồng cảm tốt, chưa kể đến cam kết của họ trong việc giúp đỡ người khác bằng cách dành hàng giờ dạy kèm miễn phí. Chúng tôi nghĩ đây là một ý tưởng tuyệt vời, và mùa thu năm đó, Đại học Chicago đã đưa bảng điểm Schoolhouse.world vào quá trình nộp hồ sơ tuyển sinh của họ. Đến chu kỳ tuyển sinh tiếp theo, MIT cũng đã tham gia. Chuyển nhanh ba năm sau, danh sách đã tăng lên mười tám trường đại học, bao gồm Yale, Brown, Caltech, Georgia Tech và Columbia, với nhiều trường khác được thêm vào mỗi năm. Tất cả đều đánh giá cao bảng điểm Schoolhouse.world vì lý do giống như Jim Nondorf: đây là một cách chuẩn hóa và năng động để đo lường cả năng lực chuyên môn và các kỹ năng giao tiếp, đồng cảm, phục vụ cộng đồng và lãnh đạo. Không giống như trước đây, khi các nhân viên tuyển sinh không có nhiều thông tin để dựa vào nếu một học sinh nói rằng họ đã làm dịch vụ cộng đồng thường xuyên, trên bảng điểm Schoolhouse, mức độ và chất lượng của dịch vụ đó được định lượng theo một cách chuẩn hóa. Gần như không thể giả mạo được việc trở thành một gia sư chất lượng cao qua hàng trăm buổi dạy. Vì lý do này, tôi đã biết trong các cuộc trò chuyện ban đầu với một số trường đại học này rằng học sinh nộp bảng điểm này thường có tỷ lệ chấp nhận cao hơn so với nhóm ứng viên chung. Một lợi ích phụ cho tất cả những điều này là nó cũng cung cấp một động lực mạnh mẽ để các học sinh trung học có tham vọng trở thành gia sư và giúp đỡ người khác.
AI có vai trò gì trong tất cả những điều này? Trước tiên, Schoolhouse.world đã sử dụng AI để cung cấp phản hồi cho các tình nguyện viên về các buổi dạy kèm của họ. AI có thể "quan sát" các buổi Zoom qua các bản ghi và đưa ra lời khuyên cho gia sư về cách họ có thể cải thiện. Trong tương lai gần, nó sẽ cung cấp các gợi ý theo thời gian thực để giúp gia sư phục vụ học sinh tốt hơn. Cuối cùng, nó sẽ có thể cung cấp các đánh giá mô tả về phong cách và khả năng của gia sư trên bảng điểm Schoolhouse.world, cung cấp thêm một yếu tố đầu vào phong phú cho các nhân viên tuyển sinh. Quan trọng nhất, ví dụ về Schoolhouse.world bắt đầu chỉ ra cách chúng ta có thể tái tưởng tượng lại toàn bộ quy trình tuyển sinh với AI.
Thay vì chỉ có bài luận hoặc thư giới thiệu, điều gì sẽ xảy ra nếu AI có thể thực hiện các cuộc phỏng vấn qua văn bản hoặc giọng nói mở rộng với học sinh, cố vấn học đường và giáo viên? Một giao thức như của chúng tôi có thể đảm bảo rằng người được phỏng vấn ở một mình và không bị ai khác cung cấp câu trả lời. Cuối cùng, AI có thể sử dụng cả video, điều mà con người rất khó để giả mạo. AI phỏng vấn sẽ biết điểm số của học sinh, điểm SAT/ACT và các hoạt động ngoại khóa của họ và sau đó sử dụng thông tin đó để cung cấp những tham chiếu chính xác. Học sinh vẫn có thể nộp bài luận và thư giới thiệu, nhưng AI có thể đi sâu vào người được phỏng vấn để đảm bảo rằng học sinh thực sự biết họ đang nói về điều gì.
Các cuộc phỏng vấn tuyển sinh, thường được thực hiện bởi các cựu sinh viên sống cùng khu vực với học sinh, không được thực hiện đồng đều giữa tất cả các ứng viên tiềm năng, và những cuộc phỏng vấn đó cực kỳ không nhất quán với nhau. Chúng có thể hữu ích cho các nhân viên tuyển sinh để loại bỏ những ứng viên có dấu hiệu đỏ rõ ràng, nhưng chúng không thực sự hữu ích để so sánh phần lớn học sinh, những người đều có vẻ xuất sắc trên giấy tờ. AI cho phép quá trình này trở nên dễ mở rộng, nhất quán và có thể kiểm tra. Trong bối cảnh này, AI có thể tóm tắt các tương tác của mình và đánh giá chúng theo nhiều khía cạnh dựa trên một bảng chấm điểm do văn phòng tuyển sinh tạo ra.
Thậm chí còn có khả năng các tác nhân AI có thể chứng thực cho học sinh, giống như một giáo viên quen biết học sinh rất rõ. Hãy nghĩ về nó theo cách này: một nền tảng AI như Khanmigo đã làm việc với bạn trong một khoảng thời gian nào đó. Cho dù bạn đã sử dụng nó trong một tháng hay nhiều năm học, nó biết những điểm mạnh và đam mê của bạn và có thể tạo ra một bức tranh động về bạn là ai. Khi đến lúc nộp đơn vào đại học, AI có thể viết thư giới thiệu cho bạn. Bức thư này được chuẩn hóa cho tất cả học sinh sử dụng nền tảng, chỉ khác nhau về những kỷ niệm dựa trên trải nghiệm của nó với từng học sinh. Hãy tưởng tượng nếu mọi người trong cả nước đều có cùng một giáo viên. Giáo viên này thực sự sẽ là một người đánh giá khá tốt. Nếu chúng ta muốn đẩy điều này đến mức cực đoan—và chưa rõ liệu chúng ta có muốn làm như vậy hay không—AI người giới thiệu có thể nói chuyện với AI phỏng vấn từ phía tuyển sinh để xem liệu có sự phù hợp hay không.
Tôi biết điều này làm dấy lên lo ngại về sự thiên vị theo cả hai hướng. Có những thiên vị mà bạn muốn. Bạn muốn quy trình này thiên về những người trẻ tuổi suy nghĩ thấu đáo, biết hợp tác và có thể trở thành những nhà lãnh đạo tương lai khiêm tốn. Bạn đương nhiên không muốn nó thiên vị dựa trên giới tính, chủng tộc, tôn giáo hoặc địa lý. Một giải pháp hoàn toàn không thiên vị có thể là không thể đạt được, nhưng đó không nên là rào cản. Thay vào đó, bất kỳ hệ thống AI nào cũng cần phải thể hiện rõ ràng rằng nó tốt hơn hiện trạng, thứ thường bao gồm đủ loại thiên vị. Điều này không phải là giả định. Trong một vụ án năm 2018 của Tòa án Tối cao, đã được xác lập rõ ràng rằng các nhân viên tuyển sinh của Harvard thường xuyên đánh giá ứng viên người Mỹ gốc Á thấp hơn về các đặc điểm tính cách, thường tùy ý bác bỏ những quan sát của người phỏng vấn trực tiếp. Quy trình tuyển sinh của Harvard chấm điểm các ứng viên trong năm hạng mục—"học tập", "ngoại khóa", "thể thao", "cá nhân" và "tổng thể"—xếp hạng sinh viên từ 1 đến 6, với 1 là tốt nhất. Các ứng viên da trắng nhận được đánh giá cá nhân cao hơn so với người Mỹ gốc Á, với 21,3% ứng viên da trắng nhận được điểm 1 hoặc 2 so với 17,6% ứng viên người Mỹ gốc Á. Các cựu sinh viên phỏng vấn đã cho người Mỹ gốc Á điểm cá nhân tương đương với các ứng viên da trắng, nhưng văn phòng tuyển sinh đã đưa cho họ điểm số thấp nhất trong bất kỳ nhóm chủng tộc nào.
Phải có một vụ kiện lớn thì dữ liệu này mới được công khai. Hầu hết thời gian, các thành kiến được nhúng vào quy trình rất mờ mịt này đều ẩn giấu rất kỹ. Sức mạnh của một AI người phỏng vấn và đánh giá là chúng có thể được kiểm tra. Bạn có thể kiểm tra chúng với các ứng viên có trình độ tương tự nhưng có các đặc điểm nhân khẩu học khác nhau và công bố kết quả để đảm bảo sự nhất quán giữa các nhóm chủng tộc, giới tính hoặc nền tảng khác nhau.
Thay vì giới thiệu những vấn đề mới trong tuyển sinh đại học, AI đang buộc chúng ta phải nhận ra những thiếu sót hiện có trong khi mang lại cơ hội cho sự thay đổi tích cực. Được sử dụng một cách thấu đáo, có lẽ với một chút dũng cảm trong giáo dục, nó có thể giúp chúng ta tiến tới một thế giới công bằng và minh bạch hơn.
Như bạn đã thấy ở phần trên, cuốn sách Brave New Words: How AI Will Revolutionize Education (and Why That's a Good Thing) của Sal Khan sẽ đưa bạn vào một cuộc hành trình đầy hấp dẫn, khám phá cách mà trí tuệ nhân tạo (AI) đã, đang và sẽ tiếp tục thay đổi phương pháp kiểm tra và đánh giá trong giáo dục, từ bậc K-12 đến quy trình tuyển sinh đại học. Khan cũng mang đến một tầm nhìn đầy hy vọng và sáng tạo về tương lai, nơi AI không chỉ cá nhân hóa, liên tục hóa và làm cho các bài đánh giá trở nên toàn diện hơn mà còn giúp giải quyết những vấn đề cố hữu trong hệ thống hiện tại. Tuy nhiên, Sal Khan cũng nêu lên những thách thức và vấn đề đạo đức cần cân nhắc trong quá trình phát triển này. Cuốn sách không chỉ mang lại tri thức mà còn kích thích tư duy về vai trò của công nghệ trong giáo dục, khơi dậy mong muốn tham gia vào cuộc cách mạng giáo dục do AI dẫn dắt ở người đọc.