Dans ce chapitre nous allons parler du “choix du modèle”.
Lorsqu’on doit choisir un modèle IA, on essaye au début de benchmarker et trouver le meilleur modèle qui va correspondre à la fois pour votre entreprise et les clients. Voici les différents critères ci-dessous.
<aside>
Afin de faciliter votre benchmark de différents modèles, vous pouvez vous servir de ce modèle de tableau ci-dessous afin de noter pour chaque critère un score et vous rendre compte au global celui qui en ressort comme la meilleure option :
Modèle IA 🤖 | Efficacité de la solution 💯 | Temps de génération output ⏳ | Fonctionnalités 🦾 | Facilité de prise en main ⚙️ ****(doc technique, etc) | Cout 💸 | Réputation fournisseur 👨🎤 | Normes légales ⚖️ | Protection des données 💽 |
---|---|---|---|---|---|---|---|---|
Modèle IA 1 | Vos résultat de tests | Vos résultat de tests | Fonctionnalités utiles pour le projet actuel + celles pouvant être utiles à l’avenir | (Score)/3 | €/volume | (Score)/3 | Détails | Détails |
Modèle IA 2 | Vos résultat de tests | Vos résultat de tests | Fonctionnalités utiles pour le projet actuel + celles pouvant être utiles à l’avenir | (Score)/3 | €/volume | (Score)/3 | Détails | Détails |
Modèle IA 3 | Vos résultat de tests | Vos résultat de tests | Fonctionnalités utiles pour le projet actuel + celles pouvant être utiles à l’avenir | (Score)/3 | €/volume | (Score)/3 | Détails | Détails |
Conclusion du benchmark :
Selon notre analyse comparative, nous pensons que le modèle X serait un bon choix, car il performe le mieux sur ces critères qui nous intéressent […]
</aside>
<aside>
Avant de commencer votre benchmark, pour identifier les meilleurs modèles LLM actuels ou ceux qui répondent le mieux à vos besoins spécifiques, une excellente ressource est le Chatbot Arena Leaderboard → Cette plateforme classe les modèles selon leurs performances dans divers scénarios d’évaluation. Vous y trouverez des comparaisons basées sur des métriques variées, telles que la précision des réponses, la vitesse, le coût, ou encore leur capacité à gérer des cas complexes.
De plus, elle permet de visualiser les forces et faiblesses de chaque modèle, ce qui peut vous aider à orienter votre choix en fonction de vos cas d’usage spécifiques (génération de texte, calculs mathématiques, synthèse, etc.). Cette approche vous garantit de choisir un modèle adapté à vos besoins, tout en tenant compte des aspects pratiques comme le budget ou la qualité des réponses.
Voici le lien de Chatbot Arena Leaderboard ➡️ **https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard**
</aside>
<aside>
Pour tester et comparer efficacement plusieurs modèles de langage (LLMs) comme GPT-3.5, GPT-4 ou Claude d’Anthropic, utilisez l’outil AI Playground de Vercel :
➡️ https://sdk.vercel.ai/playground
Il permet de soumettre un même prompt à différents modèles et de visualiser leurs réponses en parallèle. Cela facilite l’évaluation des performances (précision, style, etc.) et de se rendre compte de la facilité de prompt engineering, permettant ainsi de choisir rapidement le modèle le mieux adapté à vos besoins lors de votre benchmark.
</aside>
Maintenant, voici des exemples ce cas concrets d’entreprises ou un critère en particulier a été important pour leur choix de modèle (toutefois ce n’est pas le seul critère sur lequel ils se sont basés bien entendu)