هوش‌مصنوعی جدید ال‌جی علاقه مند به ریاضیات!

گروه تحقیقات ال‌جی هوش‌مصنوعی EXAONE Deep را معرفی کرد. یک مدل استدلالی که در حل مسائل پیچیده ریاضیات، علوم و برنامه‌نویسی برتری دارد.

این شرکت چالش جهانی در ایجاد مدل‌های استدلال پیشرفته را برجسته کرد و خاطرنشان کرد که در حال حاضر تنها تعداد انگشت شماری از سازمان‌ها با مدل‌های بنیادی به طور فعال این حوزه پیچیده را دنبال می‌کنند.EXAONE Deep قصد دارد به طور مستقیم با این مدل های پیشرو رقابت کند و سطح رقابتی از توانایی استدلال را به نمایش بگذارد.

تحقیقات هوش‌مصنوعی ال‌جی تلاش‌های خود را بر بهبود چشمگیر قابلیت‌های استدلال EXAONE Deep در حوزه‌های اصلی متمرکز کرده است. این مدل همچنین توانایی قوی برای درک و به کارگیری دانش در طیف وسیع تری از موضوعات را نشان می‌دهد.

معیارهای عملکرد منتشر شده توسط LG AI Research در دو بخش قابل توجه است:

ریاضیات: مدل EXAONE Deep ۳۲B در یک معیار ریاضی سخت از یک مدل رقیب بهتر عمل کرد. علاوه بر این، نسخه‌های ۷.۸B و ۲.۴B رتبه اول را در تمام معیارهای اصلی ریاضیات برای اندازه‌های مدل مربوطه به دست آوردند.

علوم و برنامه‌نویسی: در این زمینه‌ها، مدل‌های EXAONE Deep ۷.۸B و ۲.۴B جایگاه برتر را در تمام معیارهای اصلی حفظ کرده‌اند.

قابلیت های مدل EXAONE Deep ۳۲B قبلا شهرت بین‌المللی را به خود اختصاص داده است. EXAONE Deep مدت کوتاهی پس از انتشار، توسط سازمان تحقیقات غیرانتفاعی Epoch AI مستقر در ایالات‌متحده در لیست «مدل های هوش‌مصنوعی قابل توجه» قرار گرفت. این فهرست، EXAONE Deep را در کنار نسخه قبلی خود، EXAONE ۳.۵ قرار می‌دهد، و ال‌جی را به تنها نهاد کره‌ای با مدل‌های موجود در این فهرست معتبر در دو سال گذشته تبدیل می‌کند.

مهارت ریاضی

EXAONE Deep مهارت های استدلال ریاضی استثنایی را در اندازه های مختلف مدل خود ۳۲B ، ۷.۸B و ۲.۴B نشان داده است. در ارزیابی‌های مبتنی بر برنامه درسی ریاضی سال تحصیلی ۲۰۲۵، هر سه مدل از مدل‌های استدلال جهانی با اندازه قابل مقایسه بهتر عمل کردند.

مدل ۳۲B در آزمون صلاحیت ریاضی عمومی به امتیاز ۹۴.۵ و در امتحان ریاضی دعوتی امریکا (AIME) ۲۰۲۴ یک آزمون واجد شرایط برای المپیاد ریاضی ایالات متحده، امتیاز ۹۰ را به دست آورد.

مدل‌های کوچکتر ۷.۸B و ۲.۴B نیز به ترتیب رتبه‌های برتر را در معیارهای اصلی برای مدل‌های سبک وزن و مدل‌های روی دستگاه کسب کردند. مدل ۷.۸B در معیار MATH-۵۰۰ امتیاز ۹۴.۸ و در AIME ۲۰۲۵ امتیاز ۵۹.۶ را کسب کرد، در حالی که مدل ۲.۴B در همین ارزیابی ها امتیازهای ۹۲.۳ و ۴۷.۹ را به دست آورد.

تعالی علم و برنامه‌نویسی

EXAONE Deep همچنین قابلیت های قابل توجهی را در استدلال علمی حرفه ای و برنامه‌نویسی نرم افزار به نمایش گذاشته است. مدل ۳۲B در آزمون GPQA Diamond امتیاز ۶۶.۱ را کسب کرد که مهارت های حل مسئله در سطح دکتری فیزیک، شیمی و زیست شناسی را ارزیابی می کند. در ارزیابی LiveCodeBench، که مهارت برنامه‌نویسی را اندازه‌گیری می‌کند، این مدل به امتیاز ۵۹.۵ دست یافت که نشان‌دهنده پتانسیل آن برای برنامه‌های کاربردی سطح بالا در این حوزه‌های تخصصی است.

مدل‌های ۷.۸B و ۲.۴B این روند عملکرد قوی را ادامه دادند و هر دو جایگاه اول را در معیارهای GPQA Diamond و LiveCodeBench در دسته‌بندی‌های سایز مربوطه خود کسب کردند. این دستاورد مبتنی بر موفقیت مدل EXAONE ۳.۵ ،۲.۴B است که قبلا در رده‌بندی LLM Readerboard Hugging Face قرار داشت.

افزایش دانش عمومی

فراتر از قابلیت های استدلال تخصصی خود، EXAONE Deep همچنین عملکرد بهبود یافته ای را در درک دانش عمومی نشان داده است. مدل ۳۲B امتیاز چشمگیر ۸۳ را در معیار MMLU به دست آورد و آن را به عنوان بهترین مدل داخلی در این ارزیابی جامع قرار داد. این نشان می دهد که پیشرفت های استدلال EXAONE Deep فراتر از حوزه های خاص است و به درک وسیع تری از موضوعات مختلف کمک می کند.

تحقیقات هوش‌مصنوعی ال‌جی معتقد است که پیشرفت‌های استدلال EXAONE Deep نشان‌دهنده جهشی به سوی آینده‌ای است که در آن هوش‌مصنوعی می‌تواند با مشکلات پیچیده‌تر مقابله کند و از طریق تحقیق و نوآوری مستمر به غنی‌سازی و ساده‌سازی زندگی انسان‌ها کمک کند.