بازیهای ویدئویی به خدمت سنجش هوش مصنوعی آمدند

بنیاد ARC با رونمایی از سومین نسل آزمونهای خود، اینبار هوش مصنوعی را در قالب بازیهای ویدئویی به چالش میکشد؛ آزمونی که برخلاف موفقیتهای چشمگیر مدلها، همچنان برای انسانها سادهتر از ماشینهاست.
راههای بسیاری برای سنجش هوش مصنوعی وجود دارد؛ از روانی در مکالمه و درک متون گرفته تا حل مسائل پیچیده فیزیک. با این حال، آزمونهایی که بیش از همه میتوانند هوش مصنوعی را متوقف کنند، همانهایی هستند که انسانها نسبتاً ساده و حتی سرگرمکننده مییابند. هرچند مدلهای هوش مصنوعی در انجام کارهایی که به تخصص بالای انسانی نیاز دارد روزبهروز موفقتر میشوند، این به معنای رسیدن آنها به «هوش عمومی مصنوعی» یا همان AGI نیست. دستیابی به AGI مستلزم آن است که یک سامانه بتواند با دریافت اطلاعاتی اندک، آنها را تعمیم دهد و در موقعیتهای کاملاً تازه به کار گیرد؛ قابلیتی که اساس یادگیری انسانی است و هنوز برای هوش مصنوعی دشوار محسوب میشود.
یکی از آزمونهایی که برای سنجش توانایی تعمیم طراحی شده، مجموعه «پیکره استدلال و انتزاع» یا ARC است؛ مجموعهای از جدولهای رنگی کوچک که از حلکننده میخواهد قاعده پنهانی را کشف کرده و آن را در جدولی تازه به کار گیرد. این آزمون که سال ۲۰۱۹ توسط پژوهشگر هوش مصنوعی، فرانسوا شولِه، طراحی شد، بعدها مبنای شکلگیری بنیاد ARC Prize شد؛ نهادی غیرانتفاعی که این آزمون را برگزار میکند و امروز به یکی از معیارهای اصلی سنجش مدلهای هوش مصنوعی بدل شده است. این بنیاد تاکنون نسخههای گوناگونی از آزمونها را توسعه داده و دو نمونه ARC-AGI-1 و نسخه دشوارتر آن ARC-AGI-2 بهطور مرتب استفاده شدهاند. این هفته اما، ARC-AGI-3 معرفی میشود؛ آزمونی تازه که این بار بر پایه بازیهای ویدئویی برای سنجش «عاملهای هوش مصنوعی» طراحی شده است.
مجله Scientific American در گفتوگویی با گرِگ کامرَد، رئیس بنیاد ARC Prize و پژوهشگر هوش مصنوعی، به بررسی این آزمونها، تعریف آنها از هوش و چرایی دشواری این معماها برای مدلهای عمیق پرداخته است.
تعریف هوش در ARC-AGI-1 چیست؟
ما هوش را «توانایی یادگیری چیزهای تازه» تعریف میکنیم. میدانیم هوش مصنوعی در شطرنج یا بازی Go برنده میشود، اما این مدلها قادر به تعمیم در حوزههای دیگر نیستند. شولِه آزمونی طراحی کرد که در هر سؤال، یک مهارت کوچک به مدل آموزش میدهد و سپس از او میخواهد همان مهارت را در موقعیتی تازه تکرار کند، بنابراین آزمون در اصل توانایی یادگیری در یک حوزه محدود را میسنجد؛ با این حال، ما ادعا نمیکنیم که این آزمون، خودِ AGI را میسنجد، بلکه صرفاً نشان میدهد که آیا مدل توانایی تعمیم دارد یا خیر.
AGI را چگونه تعریف میکنید؟
دو تعریف داریم. نخست، از نگاه فنی: «آیا سامانه مصنوعی میتواند با کارایی مشابه انسان یاد بگیرد؟» انسانها پس از تولد، عملاً بدون دادههای آموزشی مشخص و صرفاً با چند پیشزمینه تکاملی، مهارتهایی چون زبان، رانندگی یا دوچرخهسواری را فرا میگیرند. این همان «تعمیم» است. تعریف دوم، تعریفی مشاهدهای است: زمانی به AGI رسیدهایم که دیگر نتوانیم مسئلهای بیابیم که انسانها قادر به حل آن باشند و ماشینها نه. تا وقتی هنوز بتوان چنین مسائلی پیدا کرد، AGI محقق نشده است. جذابیت آزمون شولِه در این است که انسانهای عادی میتوانند آن را حل کنند، اما بسیاری از مدلهای پیشرفته همچنان در آن ناکام میمانند.
تفاوت آزمونهای ARC با دیگر معیارها چیست؟
ویژگی اصلی ما این است که آزمون باید برای انسانها قابل حل باشد. برخلاف برخی معیارها که مسائل بسیار پیچیدهتر از سطح دکترا مطرح میکنند، ما تأکید داریم که آزمونها را روی گروههای انسانی بیازماییم. بهعنوان نمونه، در آزمون ARC-AGI-2، ۴۰۰ نفر شرکت کردند و میانگین امتیاز آنها ۶۶ درصد بود. جالب آنکه پاسخهای ترکیبی پنج تا ده نفر، تمام پرسشها را پوشش میداد.
چرا این آزمونها برای هوش مصنوعی دشوار و برای انسان آسانترند؟
دلیل نخست، «کارایی نمونهای» انسانهاست. انسان میتواند تنها با یک یا دو مثال، قاعده پنهان را دریابد و بهکار بندد، در حالی که الگوریتمهای فعلی فاصله زیادی با این کارایی دارند.
تفاوت ARC-AGI-1 و ARC-AGI-2 چیست؟
ARC-AGI-1 سال ۲۰۱۹ با حدود هزار مسئله توسط شولِه طراحی شد و پنج سال تمام بهعنوان معیار باقی ماند، چراکه مدلهای یادگیری عمیق بهکلی از حل آن عاجز بودند. تا اینکه در ۲۰۲۴، مدلهای استدلالی پیشرفته توانستند بخشی از مسائل را حل کنند. ARC-AGI-2 در ادامه طراحی شد تا مسائل دشوارتری شامل قوانین پیچیدهتر و جدولهای بزرگتر ارائه دهد. این بار حل مسئله برای انسان بیش از چند ثانیه زمان میبرد و نیازمند برنامهریزی بیشتری بود. حالا اما ARC-AGI-3 معرفی شده که قالبی کاملاً متفاوت دارد و بهجای جدولهای ثابت، بر پایه محیطهای تعاملی ساخته شده است.
ARC-AGI-3 چگونه آزمون متفاوتی ارائه میدهد؟
زندگی واقعی به ندرت شامل پرسش و پاسخهای «بیحافظه» است. بیشتر آزمونهای امروزی چنین حالتی دارند؛ پرسش مطرح میشود و مدل تنها یک پاسخ میدهد، اما این روش نمیتواند تواناییهایی چون برنامهریزی، کاوش یا درک هدف را بسنجد. ARC-AGI-3 شامل ۱۰۰ بازی ویدئویی نو است که ابتدا روی انسانها آزمایش میشود و سپس عاملهای هوش مصنوعی در آن قرار میگیرند تا ببینیم آیا میتوانند محیطی کاملاً تازه را درک و در آن موفق شوند یا نه. تاکنون حتی یک مدل نتوانسته حتی یک مرحله از این بازیها را پشت سر بگذارد.
این بازیها چه ساختاری دارند؟
هر محیط در واقع یک بازی دوبعدی پیکسلی است که شامل مراحل مختلف میشود. هر مرحله برای آموزش یک مهارت کوچک طراحی شده و بازیکن (انسان یا AI) باید با اجرای یک سلسله اقدامات هدفمند، توانایی خود را نشان دهد.
تفاوت این روش با استفادههای پیشین از بازیها در پژوهشهای هوش مصنوعی چیست؟
پیشتر نیز از بازیهای ویدئویی، مانند مجموعه Atari، بهعنوان معیار استفاده میشد، اما این روشها محدودیتهایی داشتند؛ دادههای آموزشی فراوان و عمومی، نبود شاخصهای ارزیابی استاندارد و امکان استفاده از روشهای brute-force با میلیاردها شبیهسازی. افزون بر این، توسعهدهندگان اغلب با ساختار بازیها آشنا بودند و ناخواسته راهحلهایی را وارد مدل میکردند. ARC-AGI-3 این محدودیتها را برطرف میکند و سطحی نو از سنجش تعمیم و یادگیری را در برابر هوش مصنوعی میگذارد.