
افزایش دقت هوش مصنوعی ایرانی در آزمایشگاههای تخصصی
رییس پژوهشگاه ارتباطات لیلا محمدی گفت راهاندازی آزمایشگاه مرجع هوش مصنوعی و همکاری دانشگاهها و شرکتهای دانشبنیان، ارزیابی و استانداردسازی این حوزه را توسعه میدهد.
به گزارش روابط عمومی پژوهشگاه ارتباطات و فناوری اطلاعات ( مرکز تحقیقات مخابرات ایران) به نقل از خبرگزاری فارس، چند روز پیش در خبرها آمد که الزامات و شاخصهای ارزیابی مدلهای زبانی بزرگ فارسی تدوین خواهد شد؛ این پروژه با هدف ارزیابی مدلهای زبانی بزرگ فارسی، شناسایی نقاط ضعف، کاهش سوگیری و ارتقای امنیت و انطباق اخلاقی اجرا میشود. تدوین دستورالعمل جامع و معیارهای دقیق، سازگاری مدلها با نیازهای بومی را بهبود داده و در توسعه توانمندیهای ملی نقش کلیدی دارد.رئیس پژوهشگاه ارتباطات و فناوری اطلاعات لیلا محمدی در گفتوگو با خبرگزاری فارس، در تشریح جزئیات پروژه راهبردی «تدوین الزامات و شاخصهای ارزیابی مدلهای زبانی بزرگ فارسی» گفت: ارزیابی مدلهای زبانی بزرگ با شاخصهای متعددی انجام میشود که به بررسی عملکرد، دقت، پوشش دانش تخصصی، همسویی با ارزشهای اخلاقی و قانونی، ایمنی در برابر کارکردهای نامطلوب و سایر معیارهای کلیدی میپردازد.
شاخصهای ارزیابی مدلهای زبانی
رئیس پژوهشگاه ارتباطات و فناوری اطلاعات در ادامه به برخی از مهمترین شاخصهای این ارزیابی اشاره و اظهار کرد: یکی از این شاخصها دقت و صحت است که میزان انطباق پاسخهای مدل با دادههای واقعی و معتبر متناسب با فرهنگ بومی را میسنجد.وی یکی دیگر از این شاخصها را شاخص روایی دانسته و تاکید کرد: بررسی پیوستگی معنایی و دستوری متون فارسی تولیدشده در این ارزیابی دیده شده است؛ همچنین پوشش دانش تخصصی شاخص دیگری است که به ارزیابی میزان آشنایی مدل با اصطلاحات و مفاهیم تخصصی در حوزههایی مانند پزشکی، حقوق و مالی میپردازد.محمدی استدلال و تحلیل را شاخص بعدی عنوان کرده و در توضیح آن گفت: این شاخص توانایی مدل در انجام استدلال منطقی و تحلیل دادههای پیچیده را بررسی میکند.وی افزود: بیطرفی و کاهش سوگیری شاخص بعدی است که میزان سوگیریهای احتمالی در پاسخها و بررسی عدالت در خروجیها را ارزیابی میکند.رییس پژوهشگاه ارتباطات و فناوری اطلاعات با بیان اینکه شاخص قابلیت توضیحپذیری، توانایی مدل در ارائه پاسخهایی که منطق آنها قابل تبیین و درک باشد را بررسی میکند، گفت: کارایی و بهینهبودن شاخص دیگری است که به ارزیابی سرعت پاسخدهی مدل و میزان مصرف منابع محاسباتی میپردازد.وی پایداری و تطبیقپذیری را شاخص دیگری دانسته و اظهار کرد: این شاخص به بررسی مقاومت مدل در برابر ورودیهای مخرب و قابلیت تطبیق با دادههای جدید میپردازد.
چالشهای ارزیابی مدلهای زبانی
رییس پژوهشگاه ارتباطات و فناوری اطلاعات در خصوص چالشهای ارزیابی مدلهای زبانی گفت: با وجود اهمیت ارزیابی مدلهای زبانی، چالشهایی در این مسیر وجود دارد که از جمله آنها میتوان به کمبود دادگان باکیفیت و متنوع برای آموزش و ارزیابی مدلها، دشواری در تعریف سوگیریهای زبانی و فرهنگی در مدلهای زبانی، نیاز به هماهنگی با نهادهای مختلف علمی و صنعتی، مقیاسپذیری و بهینهسازی فرآیند ارزیابی برای مدلهای حجیم و لزوم در نظر گرفتن جنبههای اخلاقی و امنیتی در طراحی معیارهای ارزیابی اشاره کرد.
همکاری دانشگاهها و شرکتهای فناوری در ارزیابی مدلهای زبانی
محمدی ادامه داد: در این راستا، دانشگاهها، شرکتهای فناوری و استارتاپهای حوزه هوش مصنوعی بهعنوان بخشهای همکار در فرآیند ارزیابی مدلهای زبانی بزرگ مشارکت دارند. وی در خصوص اهداف ارزیابی مدلهای زبانی بومی نیز تاکید کرد: ارزیابی مدلهای زبانی بزرگ با اهداف کمک به بومیسازی و بهینهسازی مدلهای زبانی برای زبان فارسی، شناسایی نقاط ضعف مدلها و بهبود کیفیت خروجیها، کاهش سوگیریها و خطاهای ناخواسته در مدلهای زبانی، افزایش ایمنی، قابلیت اعتماد و انطباق با ارزشهای فرهنگی و فراهمسازی چارچوبی برای مقایسه عادلانه و استانداردسازی مدلهای بومی دنبال میشود.
مراحل ارزیابی مدلهای زبانی
وی در پاسخ به این سوال که ارزیابی مدلهای زبانی معمولاً در چند مرحله انجام میشود؟ گفت: مرحله اول ارزیابی کمی است که از معیارهای آماری مانند Perplexity و Rouge برای سنجش کیفیت مدل استفاده میشود.محمدی ادامه داد: مرحله دوم ارزیابی کیفی است که به بررسی خروجی مدلها توسط کارشناسان زبانی و فرهنگی میپردازد.رییس پژوهشگاه ارتباطات و فناوری اطلاعات چهارمین مرحله ارزیابی را تست در سناریوهای واقعی دانسته و گفت: ارزیابی عملکرد مدلها در کاربردهای عملی مانند چتباتها و سیستمهای ترجمه در ایبخش صورت میگیرد.وی افزود: مقایسه با مدلهای مرجع آخرین مرحله است که به سنجش عملکرد مدلهای بومی در برابر مدلهای بینالمللی مانند GPT یا Gemini میپردازد.
ایجاد آزمایشگاه ارزیابی مدلهای زبانی بزرگ
رییس پژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: این فعالیتها در چارچوب آزمایشگاه مرجع ارزیابی محصولات و خدمات پایه هوش مصنوعی انجام شده است. این آزمایشگاه که در پژوهشگاه ارتباطات و فناوری اطلاعات مستقر است، شبکهای از آزمایشگاههای ارزیابی در حوزههای مختلف را توسعه داده و از توانمندی آزمایشگاههای دانشگاهی و ظرفیت شرکتهای دانشبنیان در فرآیند ارزیابی و تدوین معیارهای سنجش استفاده میکند.
گسترش دامنه ارزیابی به سایر حوزههای هوش مصنوعی
محمدی گفت: این شبکه علاوه بر مدلهای زبانی بزرگ، ارزیابی سایر فناوریهای هوش مصنوعی مانند سامانههای بازشناسی چهره، تشخیص پلاک خودرو، سامانههای نویسهخوان نوری (OCR) و سایر خدمات پایه هوش مصنوعی را نیز پوشش خواهد داد.
چشمانداز آینده ارزیابی مدلهای هوش مصنوعی بومی
وی در پایان خاطرنشان کرد: اقدامات انجامشده در راستای افزایش اعتبار، شفافیت و کیفیت محصولات هوش مصنوعی بومی بوده و بستری برای توسعه و بهبود فناوریهای هوش مصنوعی در کشور فراهم خواهد کرد.