C'è poco da fare, è un periodo molto particolare per l'intelligenza artificiale, e quando si pensava che i cahtbot avessero raggiunt il loro culmine, dando spazio all'evoluzione degli Agenti AI, ecco arrivare sui mercati nuove alternative in grado di far tremare i principali colossi del settore.
Deepseek è stato il protagonista dele ultime ore, ma a quanto pare non è l'unica realtà intenzionata a mostrare i muscoli. Alibaba Cloud ha recentemente presentato Qwen2.5-Max, un modello linguistico avanzato che ha superato DeepSeek-V3 in diversi test di riferimento. Qwen2.5-Max è stato valutato utilizzando una serie di benchmark riconosciuti nel settore.
- Arena-Hard: Questo test misura le preferenze umane approssimate. Qwen2.5-Max ha ottenuto un punteggio di 89,4, superando DeepSeek-V3 che ha raggiunto 85,5.
- MMLU-Pro: Valuta la conoscenza attraverso problemi a livello universitario. Claude Sonnet ha ottenuto il primo posto con un punteggio di 78,0, mentre Qwen2.5-Max si è posizionato al secondo posto con 76,1.
- GPQA-Diamond: Testa la capacità di rispondere a domande generali. Qwen2.5-Max ha raggiunto un punteggio di 60,1, posizionandosi dietro Claude Sonnet che ha ottenuto 65,0.
- LiveCodeBench: Valuta le capacità di codifica. Qwen2.5-Max ha ottenuto un punteggio di 38,7, leggermente inferiore a Claude con 38,9.
- LiveBench: Un test completo delle capacità generali. Qwen2.5-Max ha superato DeepSeek-V3 con un punteggio di 62,2 contro 60,5.
I risultati indicano che Qwen2.5-Max non solo compete con modelli di punta come GPT-4o-0806 e Claude-3.5-Sonnet-1022, ma in alcuni casi li supera. Per ora il nuovo modello è disponibile per gli sviluppatori tramite un'API offerta da Alibaba Cloud, caratteristica che ne facilita l'integrazione in diverse piattaforme. Per gli utenti finali è accessibile attraverso Qwen Chat, che offre funzionalità come la generazione di immagini e video. È presente anche un'opzione per abilitare la ricerca web, indicata come "in arrivo".
Il lancio di Qwen2.5-Max da parte di Alibaba rappresenta un ulteriore passo avanti nella competizione globale nel campo dell'intelligenza artificiale. La capacità di sviluppare modelli avanzati con risorse computazionali ottimizzate potrebbe influenzare le strategie future delle aziende tecnologiche, promuovendo un'adozione più ampia dell'IA in vari settori.