هوشمصنوعی جدید الجی علاقه مند به ریاضیات!
گروه تحقیقات الجی هوشمصنوعی EXAONE Deep را معرفی کرد. یک مدل استدلالی که در حل مسائل پیچیده ریاضیات، علوم و برنامهنویسی برتری دارد.

این شرکت چالش جهانی در ایجاد مدلهای استدلال پیشرفته را برجسته کرد و خاطرنشان کرد که در حال حاضر تنها تعداد انگشت شماری از سازمانها با مدلهای بنیادی به طور فعال این حوزه پیچیده را دنبال میکنند.EXAONE Deep قصد دارد به طور مستقیم با این مدل های پیشرو رقابت کند و سطح رقابتی از توانایی استدلال را به نمایش بگذارد.
تحقیقات هوشمصنوعی الجی تلاشهای خود را بر بهبود چشمگیر قابلیتهای استدلال EXAONE Deep در حوزههای اصلی متمرکز کرده است. این مدل همچنین توانایی قوی برای درک و به کارگیری دانش در طیف وسیع تری از موضوعات را نشان میدهد.
معیارهای عملکرد منتشر شده توسط LG AI Research در دو بخش قابل توجه است:
ریاضیات: مدل EXAONE Deep ۳۲B در یک معیار ریاضی سخت از یک مدل رقیب بهتر عمل کرد. علاوه بر این، نسخههای ۷.۸B و ۲.۴B رتبه اول را در تمام معیارهای اصلی ریاضیات برای اندازههای مدل مربوطه به دست آوردند.
علوم و برنامهنویسی: در این زمینهها، مدلهای EXAONE Deep ۷.۸B و ۲.۴B جایگاه برتر را در تمام معیارهای اصلی حفظ کردهاند.
قابلیت های مدل EXAONE Deep ۳۲B قبلا شهرت بینالمللی را به خود اختصاص داده است. EXAONE Deep مدت کوتاهی پس از انتشار، توسط سازمان تحقیقات غیرانتفاعی Epoch AI مستقر در ایالاتمتحده در لیست «مدل های هوشمصنوعی قابل توجه» قرار گرفت. این فهرست، EXAONE Deep را در کنار نسخه قبلی خود، EXAONE ۳.۵ قرار میدهد، و الجی را به تنها نهاد کرهای با مدلهای موجود در این فهرست معتبر در دو سال گذشته تبدیل میکند.
مهارت ریاضی
EXAONE Deep مهارت های استدلال ریاضی استثنایی را در اندازه های مختلف مدل خود ۳۲B ، ۷.۸B و ۲.۴B نشان داده است. در ارزیابیهای مبتنی بر برنامه درسی ریاضی سال تحصیلی ۲۰۲۵، هر سه مدل از مدلهای استدلال جهانی با اندازه قابل مقایسه بهتر عمل کردند.
مدل ۳۲B در آزمون صلاحیت ریاضی عمومی به امتیاز ۹۴.۵ و در امتحان ریاضی دعوتی امریکا (AIME) ۲۰۲۴ یک آزمون واجد شرایط برای المپیاد ریاضی ایالات متحده، امتیاز ۹۰ را به دست آورد.
مدلهای کوچکتر ۷.۸B و ۲.۴B نیز به ترتیب رتبههای برتر را در معیارهای اصلی برای مدلهای سبک وزن و مدلهای روی دستگاه کسب کردند. مدل ۷.۸B در معیار MATH-۵۰۰ امتیاز ۹۴.۸ و در AIME ۲۰۲۵ امتیاز ۵۹.۶ را کسب کرد، در حالی که مدل ۲.۴B در همین ارزیابی ها امتیازهای ۹۲.۳ و ۴۷.۹ را به دست آورد.
تعالی علم و برنامهنویسی
EXAONE Deep همچنین قابلیت های قابل توجهی را در استدلال علمی حرفه ای و برنامهنویسی نرم افزار به نمایش گذاشته است. مدل ۳۲B در آزمون GPQA Diamond امتیاز ۶۶.۱ را کسب کرد که مهارت های حل مسئله در سطح دکتری فیزیک، شیمی و زیست شناسی را ارزیابی می کند. در ارزیابی LiveCodeBench، که مهارت برنامهنویسی را اندازهگیری میکند، این مدل به امتیاز ۵۹.۵ دست یافت که نشاندهنده پتانسیل آن برای برنامههای کاربردی سطح بالا در این حوزههای تخصصی است.
مدلهای ۷.۸B و ۲.۴B این روند عملکرد قوی را ادامه دادند و هر دو جایگاه اول را در معیارهای GPQA Diamond و LiveCodeBench در دستهبندیهای سایز مربوطه خود کسب کردند. این دستاورد مبتنی بر موفقیت مدل EXAONE ۳.۵ ،۲.۴B است که قبلا در ردهبندی LLM Readerboard Hugging Face قرار داشت.
افزایش دانش عمومی
فراتر از قابلیت های استدلال تخصصی خود، EXAONE Deep همچنین عملکرد بهبود یافته ای را در درک دانش عمومی نشان داده است. مدل ۳۲B امتیاز چشمگیر ۸۳ را در معیار MMLU به دست آورد و آن را به عنوان بهترین مدل داخلی در این ارزیابی جامع قرار داد. این نشان می دهد که پیشرفت های استدلال EXAONE Deep فراتر از حوزه های خاص است و به درک وسیع تری از موضوعات مختلف کمک می کند.
تحقیقات هوشمصنوعی الجی معتقد است که پیشرفتهای استدلال EXAONE Deep نشاندهنده جهشی به سوی آیندهای است که در آن هوشمصنوعی میتواند با مشکلات پیچیدهتر مقابله کند و از طریق تحقیق و نوآوری مستمر به غنیسازی و سادهسازی زندگی انسانها کمک کند.