SlideShare une entreprise Scribd logo
10 Octobre 2024
Naviguer entre propriété commerciale
et ouverture collaborative
D’OpenAI à Opensource AI
Raphaël Semeteys
Head of DevRel
Architecte sénior, Expert Open Source
• Worldline depuis 1999
• Basé à Paris
• raphiki.github.io
@RaphaelSemeteys
dev.to/raphiki/
linkedin.com/in/raphaelsemeteys/
We design payments technology
that powers the growth of millions
of businesses around the world.
7000+ engineers
in over 40 countries
Managing 43+ billion
transactions per year
€250M spent in R&D
every year
Handling 150+
payment methods
Les premiers jours des LLMs
• Des modèles statistiques simples aux LLMs
2010’s 2020’s
2017-2018
Word embeddings
Word2Vec, GloVe
“Attention is All You Need"
Transformers
GenAI, ChatGPT
Responsabilité
Demain ?
Small Language Models
Mobile, Agents et LAMs
La GenAI traverse son moment Linux
• Tout comme l'open source (et Internet), mais beaucoup plus rapidement !
• Dynamique entre ouverture collaborative et propriété commerciale
• Besoin de clarté sur les licences
Labos &
Universités
Individus
Entreprises
Commodités
Définir l'ouverture d'un modèle
Pre-training
Dataset
Fine-tuning
Dataset
Reward
Model
Model
Data Processing Code
Définir l'ouverture d'un modèle
Score Niveau Description
Model
(poids)
Pre-
training
Dataset
Fine-
tuning
Dataset
Reward
model
Data
Processing
Code
0 Fermé
Aucun accès à des informations
publiques, données ou actifs
1
Recherche
publiée
Articles de recherche publiés mais
sans plus d'informations, de
données ou d'actifs
2
Accès
restreint
Accès possible uniquement avec
accord spécial (commercial,
recherche...)
3
Ouvert avec
limitations
Accès et réutilisation possibles
mais avec certaines limitations
d'utilisation
4
Totalement
open
Accès et réutilisation possibles
sans restriction d'utilisation (ex.
licence open source)
Leader du marché : OpenAI
• Écart par rapport à la vision originale de transparence et de recherche
Non lucratif (US)
Composant Score Niveau
Model 4
Totalement
ouvert
Dataset 1
Recherche
publiée
Code 1
Recherche
publiée
0 Fermé
→
GPT-1 & 2 GPT-3.x & 4.x/o
ChatGPT
article de recherche
uniquement
À but non lucratif (US)
Composant Score Niveau
Model 4
Totalement
ouvert
Dataset 1
Recherche
publiée
Code 1
Recherche
publiée
Leader du marché : OpenAI
• Écart par rapport à la vision originale de transparence et de recherche
0 Fermé
→
GPT-1 & 2 GPT-3.x & 4.x/o
ChatGPT
article de recherche
uniquement
Interdiction d’entrainer des LLMs commerciaux
You may not: […] Use Output to
develop models that compete with
OpenAI.
Leader du marché : Google
De la recherche ouverte à une approche pragmatique
Entreprise (US)
Composant Score Niveau
Model 4
Totalement
ouvert
Dataset 2
Accès
restreint
Code 4
Totalement
ouvert
1
Recherche
publiée
1
Recherche
publiée
0 Fermé
→
3
Ouvert avec
limitations
1
Recherche
publiée
4
Toolchain
disponible
Entreprise (US)
Composant Score Niveau
Model 4
Totalement
ouvert
Dataset 2
Accès
restreint
Code 4
Totalement
ouvert
1
Recherche
publiée
1
Recherche
publiée
0 Fermé
3
Ouvert avec
limitations
1
Recherche
publiée
4
Toolchain
disponible
Leader du marché : Google
De la recherche ouverte à une approche pragmatique
→ →
L'IA responsable contredit la définition de l'open source
You may not use nor allow others to use Gemma or
Model Derivatives to: [illegals activities, unlicensed
practices of profession, abuse, security bypass and
promotion of hatred, abuse, violence, monitoring people
without consent, misinformation/defamation, automate
decisions concerning human rights and well-being, etc.]
Autres acteurs majeurs
Rattrapent leur retard dans la ruée vers l’or de la GenAI
S'associent pour l'infrastructure (inférence et entrainement)
Créent leurs propres modèles (ouverts)
Leader du marché : Meta
Voyage vers l'ouverture
Entreprise (US)
Composant Score Niveau
Model 4
Totalement
ouvert
Dataset 3
Ouvert avec
limitations
Code 4
Totalement
ouvert
RoBERTa
3
Ouvert avec
limitations
1
Recherche
publiée
1
Recherche
publiée
→
Leader du marché : Meta
Voyage vers l'ouverture
Enterprise (US)
Component Score
Level
description
Model 4 Totally open
Dataset 3
Open with
limitations
Code 4 Totally open
RoBERTa
3
Open with
limitations
1
Published
research only
1
Published
research only
→
Restriction à l’utilisation
licence pour les plateformes de plus de 700 M d'utilisateurs
Additional Commercial Terms. If, on the Llama 2 version release date,
the monthly active users of the products or services made available by or
for Licensee, or Licensee’s affiliates, is greater than 700 million monthly
active users in the preceding calendar month, you must request a license
from Meta, which Meta may grant to you in its sole discretion, and you
are not authorized to exercise any of the rights under this Agreement
unless or until Meta otherwise expressly grants you such rights.
LLaMA 3 est désormais plus restrictif en matière de
redistribution et de réutilisation
Leader du marché : Meta
Voyage vers l'ouverture
Enterprise (US)
Component Score
Level
description
Model 4 Totally open
Dataset 3
Open with
limitations
Code 4 Totally open
RoBERTa
3
Open with
limitations
1
Published
research only
1
Published
research only
→
Redistribution and Use. If you distribute or make available the Llama Materials (or any
derivative works thereof), or a product or service that uses any of them, including
another AI model, you shall (A) provide a copy of this Agreement with any such Llama
Materials; and (B) prominently display “Built with Meta Llama 3” on a related website,
user interface, blogpost, about page, or product documentation. If you use the Llama
Materials to create, train, fine tune, or otherwise improve an AI model, which is
distributed or made available, you shall also include “Llama 3” at the beginning of any
such AI model name.
Progeniture de Llama 2 : Alpaca et Vicuna
Restrictions héritées de Llama 2 et OpenAI (ShareGPT)
Recherche (US)
Composant Score Niveau
Model 3
Ouvert avec
limitations
Pre-training
Dataset
1
Recherche
publiée
Fine-tuning
Dataset
2
Recherche
uniquement
Code 4
Licence
Apache 2
Modèles dérivés de Llama 2 par des universités
LLMs fondamentaux collaboratifs
Non lucratif (US) Recherche (UAE) Recherche (EU) Recherche (US) Entreprise (FR)
EleutherAI GPT-J Falcon BLOOM OpenLLaMa Mistral
Model 4
Accès et
dérivation
sans
restriction
3
Ouvert avec
limitations
3
Licence
Open RAIL
4
Accès et
dérivation
sans
restriction
4
Accès et
dérivation
sans
restriction
Dataset 3
Ouvert
avec
limitations
4
Accès et
dérivation
sans
restriction
3
Ouvert avec
limitations
4
Accès et
dérivation
sans
restriction
0
Pas d’accès
ou info
publiques
Code 4
Totalement
ouvert
1
Instructions
générales
4
Totalement
ouvert
1
Exemples
uniquement
4
Totalement
ouvert
Flou sur les datasets: se référer à la licence spécifique du sous-ensemble utilisé
Notion d’usage responsable
Non lucratif (US) Recherche (UAE) Recherche (EU) Recherche (US) Entreprise (FR)
EleutherAI GPT-J Falcon BLOOM OpenLLaMa Mistral
Model 4
Accès et
dérivation
sans
restriction
3
Ouvert avec
limitations
3
Licence
Open RAIL
4
Accès et
dérivation
sans
restriction
4
Accès et
dérivation
sans
restriction
Dataset 3
Ouvert
avec
limitations
4
Accès et
dérivation
sans
restriction
3
Ouvert avec
limitations
4
Accès et
dérivation
sans
restriction
0
Pas d’accès
ou info
publiques
Code 4
Totalement
ouvert
1
Instructions
générales
4
Totalement
ouvert
1
Exemples
uniquement
4
Totalement
ouvert
LLMs fondamentaux collaboratifs
Licences open source modifiées
This license is, in part, based on the Apache License Version 2.0, with a
series of modifications. The contribution of the Apache License 2.0 to
the framing of this document is acknowledged. Please read this license
carefully, as it is different to other ‘open access’ licenses you may have
encountered previously. Use of Falcon180B for hosted services may
require a separate license.
Mistral : IA cuisinée à la française
Surfe les vagues ouvertes et fermées
Community VS Enterprise (comme dans l’open source)
Mélange de modèles
• Mixture-of-Experts (SMoE) : Mixtral 8x7B, 8x22B
• Modèles fondamentaux et dérivés
Mélange de Business Models et de licences
• Modèles “Open Source”, SDK mistral-finetune
• Modèles commerciaux et optimisés: Small, Large & Embed
• Sustainable openness : licence hors-production pour codestral
Mistral : IA cuisinée à la française
Surfe les vagues ouvertes et fermées
Revisite l'ouverture à l'ère du Cloud (comme l’open source)
Mélange de modèles
• Mixture-of-Experts (SMoE) : Mixtral 8x7B, 8x22B
• Modèles fondamentaux et dérivés
Mélange de Business Models et de licences
• Modèles “Open Source”, SDK mistral-finetune
• Modèles commerciaux et optimisés: Small, Large & Embed
• Sustainable openness : licence hors-production pour codestral
MNPL - 3.2. Usage Limitation
- You shall only use the Mistral Models and Derivatives (whether or not created
by Mistral AI) for testing, research, Personal, or evaluation purposes in Non-
Production Environments;
- Subject to the foregoing, You shall not supply the Mistral Models or
Derivatives in the course of a commercial activity, whether in return for
payment or free of charge, in any medium or form, including but not limited to
through a hosted or managed service (e.g. SaaS, cloud instances, etc.), or
behind a software layer.
LLMs dérivés collaboratifs
Impact des modèles fondamentaux et des datasets
Entreprise (US) Entreprise (US) Entreprise (US) Consortium (UAE/US) Recherche (US)
Dolly BLOOMChat Zephyr LLM360 OLMo-Instruct
Model 4 Basé sur GPT-J 3
Basé sur
BLOOM
4 Basé sur Mistral 4 Open source 4 Open source
Pre-training
Dataset
3 Basé sur GPT-J 3
Basé sur
BLOOM
0 Basé sur Mistral 4
RedPajama,
Falcon,
StarCoder
3
Dolma
(ImpACT MR)
Fine-tuning
Dataset
4
Accès et
dérivation sans
restriction
4 Dolly et LAION 2
Recherche
uniquement
(OpenAI)
2
Recherche
uniquement
(OpenAI)
3
Tülu 2
(IMPACT LR)
Reward
model
0
Aucun
information
publique
0
Aucun
information
publique
3
Recherche et
exemples de
code
0
Aucun
information
publique
4
UltraFeedback
(MIT)
Code 4 Open source 3 OpenRAIL 3
Exemples de
code
4 Open source 4 Open source
Entreprise (US) Entreprise (US) Entreprise (US) Consortium (UAE/US) Recherche (US)
Dolly BLOOMChat Zephyr LLM360 OLMo-Instruct
Model 4 Basé sur GPT-J 3
Basé sur
BLOOM
4 Basé sur Mistral 4 Open source 4 Open source
Pre-training
Dataset
3 Basé sur GPT-J 3
Basé sur
BLOOM
0 Basé sur Mistral 4
RedPajama,
Falcon,
StarCoder
3
Dolma
(ImpACT MR)
Fine-tuning
Dataset
4
Accès et
dérivation sans
restriction
4 Dolly et LAION 2
Recherche
uniquement
(OpenAI)
2
Recherche
uniquement
(OpenAI)
3
Tülu 2
(IMPACT LR)
Reward
model
0
Aucun
information
publique
0
Aucun
information
publique
3
Recherche et
exemples de
code
0
Aucun
information
publique
4
UltraFeedback
(MIT)
Code 4 Open source 3 OpenRAIL 3
Exemples de
code
4 Open source 4 Open source
LLMs dérivés collaboratifs
L'IA responsable contredit la définition de l'open source
AI2 ImpACT Licenses - Restrictions
[…] a. military weapons purposes […]
b. purposes of military surveillance […]
c. purposes of generating or disseminating information or content […] without
expressly and intelligibly disclaiming that the text is machine generated;
d. purposes of ‘real time’ remote biometric processing […]
e. fully automated decision-making without a human in the loop […] as spreading
misinformation […]
f. purposes of the predictive administration of justice, law enforcement, immigration,
or asylum processes, such as predicting an individual will commit fraud/crime
Autres aspects du moment Linux de la GenAI
• Démocratiser/décentraliser l’innovation
Notebooks
Communautés
Nouveaux Business Models
Outils collaboratifs
et écosystèmes
Puces AI
Quantization
Décentralisation
Optimisation
matérielle
Ne pas réinventer la roue
Standards interopérables
Au-delà de Python
Outils et frameworks
open source
• APIs fermées → Open Weights → Free AI (comme dans freedom)
• Datasets et transitivité en amont
• Clauses de concurrence
• Restrictions liées à l’IA responsable
• Recherche ouverte → Marché concurrentiel → Écosystème coopétitif
• L'ouverture favorise la réutilisation et la collaboration
• La collaboration entraîne la commoditisation et l'innovation
Tout comme l’Open Source!
raphiki.github.io
Merci !

Contenu connexe

PDF
Normandie.ai 2024 - D'OpenAI à Opensource AI
PDF
Open Source Experience 2024 - D'OpenAI à Opensource AI
PDF
Devoxx France 2025 - D'OpenAI à Opensource AI: entre propriété commerciale et...
PDF
Les bases de la "propriété" intellectuelle : pour bien partager, il faut bien...
PDF
L'open hardware : l'ouverture au service de l'innovation
PDF
Le côté obscur des IA génératives (avec notes)
ODP
Business modèles pour l'Open Source
PPTX
CAFÉ IA DU 14/11/2024 - IA ETHIQUE OPEN SOURCE ET SOUVERAINE ?
Normandie.ai 2024 - D'OpenAI à Opensource AI
Open Source Experience 2024 - D'OpenAI à Opensource AI
Devoxx France 2025 - D'OpenAI à Opensource AI: entre propriété commerciale et...
Les bases de la "propriété" intellectuelle : pour bien partager, il faut bien...
L'open hardware : l'ouverture au service de l'innovation
Le côté obscur des IA génératives (avec notes)
Business modèles pour l'Open Source
CAFÉ IA DU 14/11/2024 - IA ETHIQUE OPEN SOURCE ET SOUVERAINE ?

Similaire à Cloud Nord 2024 - D'OpenAI à Opensource AI (8)

PDF
Utiliser la puissance des LLM avec Spring AI, présenté au Spring Meetup Paris...
PDF
Fab mob prez#3
PDF
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
PDF
DevDay 2024 - Dialoguer avec vos documents : découvrez la magie du RAG avec e...
PDF
Open APIs, OpenSource & OpenData dans le transport public
PDF
Webinar - La vérité sur les IA génératives.pdf
PDF
Open Source PRO - The future is OPEN !
PDF
Meetup IA Open Source On Premise
Utiliser la puissance des LLM avec Spring AI, présenté au Spring Meetup Paris...
Fab mob prez#3
SEO CAMP'us Paris 2024 - Déploiement de l'IA générative privée dans les organ...
DevDay 2024 - Dialoguer avec vos documents : découvrez la magie du RAG avec e...
Open APIs, OpenSource & OpenData dans le transport public
Webinar - La vérité sur les IA génératives.pdf
Open Source PRO - The future is OPEN !
Meetup IA Open Source On Premise
Publicité

Plus de Raphaël Semeteys (20)

PDF
DevBcn 2025 - The Yoga of Image Generation with Stable DIffusion and ComfyUI
PDF
Devoxx Poland 2025 - Mastering Image Generation with Stable Diffusion
PDF
COTRECS - Embellir des QR Codes avec la GenAI
PDF
DevCon n°24 IA - Génération d'images locales avec Stable Diffusion
PDF
Mastering Image Generation with Stable Diffusion
PDF
The Yoga of Image Generation with Stable Diffusion & ComfyUI
PDF
Image Generation with ComfyUI and Stable Diffusion
PDF
Devoxx Morocco 2024 - The Future Beyond LLMs: Exploring Agentic AI
PDF
AI_dev Europe 2024 - From OpenAI to Opensource AI
PDF
TechForum Iberia 2024 - Towards a Redecentralization of the Internet: Explori...
PDF
2023 - Between Philosophy and Practice: Introducing Yoga
PDF
I LOVE Tech 2024 - Unlocking AI: Navigating Open Source vs. Commercial Frontiers
PPTX
SOOCon24 - From OpenAI to Opensource AI: Navigating Between Commercial Owners...
PDF
OSX 2023 - Vers une re-decentralisation d’Internet : panorama des technos et ...
PPTX
Web2day 2023 - Internet (re)décentralisé ? Architecture du Web3
PDF
Nantes JUG 2023 - Web3
PDF
TADx 2023 - 1 plateforme à convevoir, 2 architectes : 3 possibilités ?
PPTX
SnowcampIO 2023 - 1 plateforme à concevoir + 2 architectes = 3 solutions
ODP
Solution Linux 2009 - QSOS
ODP
Solution Linux 2009 - SVG
DevBcn 2025 - The Yoga of Image Generation with Stable DIffusion and ComfyUI
Devoxx Poland 2025 - Mastering Image Generation with Stable Diffusion
COTRECS - Embellir des QR Codes avec la GenAI
DevCon n°24 IA - Génération d'images locales avec Stable Diffusion
Mastering Image Generation with Stable Diffusion
The Yoga of Image Generation with Stable Diffusion & ComfyUI
Image Generation with ComfyUI and Stable Diffusion
Devoxx Morocco 2024 - The Future Beyond LLMs: Exploring Agentic AI
AI_dev Europe 2024 - From OpenAI to Opensource AI
TechForum Iberia 2024 - Towards a Redecentralization of the Internet: Explori...
2023 - Between Philosophy and Practice: Introducing Yoga
I LOVE Tech 2024 - Unlocking AI: Navigating Open Source vs. Commercial Frontiers
SOOCon24 - From OpenAI to Opensource AI: Navigating Between Commercial Owners...
OSX 2023 - Vers une re-decentralisation d’Internet : panorama des technos et ...
Web2day 2023 - Internet (re)décentralisé ? Architecture du Web3
Nantes JUG 2023 - Web3
TADx 2023 - 1 plateforme à convevoir, 2 architectes : 3 possibilités ?
SnowcampIO 2023 - 1 plateforme à concevoir + 2 architectes = 3 solutions
Solution Linux 2009 - QSOS
Solution Linux 2009 - SVG
Publicité

Cloud Nord 2024 - D'OpenAI à Opensource AI

  • 1. 10 Octobre 2024 Naviguer entre propriété commerciale et ouverture collaborative D’OpenAI à Opensource AI
  • 2. Raphaël Semeteys Head of DevRel Architecte sénior, Expert Open Source • Worldline depuis 1999 • Basé à Paris • raphiki.github.io @RaphaelSemeteys dev.to/raphiki/ linkedin.com/in/raphaelsemeteys/
  • 3. We design payments technology that powers the growth of millions of businesses around the world. 7000+ engineers in over 40 countries Managing 43+ billion transactions per year €250M spent in R&D every year Handling 150+ payment methods
  • 4. Les premiers jours des LLMs • Des modèles statistiques simples aux LLMs 2010’s 2020’s 2017-2018 Word embeddings Word2Vec, GloVe “Attention is All You Need" Transformers GenAI, ChatGPT Responsabilité Demain ? Small Language Models Mobile, Agents et LAMs
  • 5. La GenAI traverse son moment Linux • Tout comme l'open source (et Internet), mais beaucoup plus rapidement ! • Dynamique entre ouverture collaborative et propriété commerciale • Besoin de clarté sur les licences Labos & Universités Individus Entreprises Commodités
  • 6. Définir l'ouverture d'un modèle Pre-training Dataset Fine-tuning Dataset Reward Model Model Data Processing Code
  • 7. Définir l'ouverture d'un modèle Score Niveau Description Model (poids) Pre- training Dataset Fine- tuning Dataset Reward model Data Processing Code 0 Fermé Aucun accès à des informations publiques, données ou actifs 1 Recherche publiée Articles de recherche publiés mais sans plus d'informations, de données ou d'actifs 2 Accès restreint Accès possible uniquement avec accord spécial (commercial, recherche...) 3 Ouvert avec limitations Accès et réutilisation possibles mais avec certaines limitations d'utilisation 4 Totalement open Accès et réutilisation possibles sans restriction d'utilisation (ex. licence open source)
  • 8. Leader du marché : OpenAI • Écart par rapport à la vision originale de transparence et de recherche Non lucratif (US) Composant Score Niveau Model 4 Totalement ouvert Dataset 1 Recherche publiée Code 1 Recherche publiée 0 Fermé → GPT-1 & 2 GPT-3.x & 4.x/o ChatGPT article de recherche uniquement
  • 9. À but non lucratif (US) Composant Score Niveau Model 4 Totalement ouvert Dataset 1 Recherche publiée Code 1 Recherche publiée Leader du marché : OpenAI • Écart par rapport à la vision originale de transparence et de recherche 0 Fermé → GPT-1 & 2 GPT-3.x & 4.x/o ChatGPT article de recherche uniquement Interdiction d’entrainer des LLMs commerciaux You may not: […] Use Output to develop models that compete with OpenAI.
  • 10. Leader du marché : Google De la recherche ouverte à une approche pragmatique Entreprise (US) Composant Score Niveau Model 4 Totalement ouvert Dataset 2 Accès restreint Code 4 Totalement ouvert 1 Recherche publiée 1 Recherche publiée 0 Fermé → 3 Ouvert avec limitations 1 Recherche publiée 4 Toolchain disponible
  • 11. Entreprise (US) Composant Score Niveau Model 4 Totalement ouvert Dataset 2 Accès restreint Code 4 Totalement ouvert 1 Recherche publiée 1 Recherche publiée 0 Fermé 3 Ouvert avec limitations 1 Recherche publiée 4 Toolchain disponible Leader du marché : Google De la recherche ouverte à une approche pragmatique → → L'IA responsable contredit la définition de l'open source You may not use nor allow others to use Gemma or Model Derivatives to: [illegals activities, unlicensed practices of profession, abuse, security bypass and promotion of hatred, abuse, violence, monitoring people without consent, misinformation/defamation, automate decisions concerning human rights and well-being, etc.]
  • 12. Autres acteurs majeurs Rattrapent leur retard dans la ruée vers l’or de la GenAI S'associent pour l'infrastructure (inférence et entrainement) Créent leurs propres modèles (ouverts)
  • 13. Leader du marché : Meta Voyage vers l'ouverture Entreprise (US) Composant Score Niveau Model 4 Totalement ouvert Dataset 3 Ouvert avec limitations Code 4 Totalement ouvert RoBERTa 3 Ouvert avec limitations 1 Recherche publiée 1 Recherche publiée →
  • 14. Leader du marché : Meta Voyage vers l'ouverture Enterprise (US) Component Score Level description Model 4 Totally open Dataset 3 Open with limitations Code 4 Totally open RoBERTa 3 Open with limitations 1 Published research only 1 Published research only → Restriction à l’utilisation licence pour les plateformes de plus de 700 M d'utilisateurs Additional Commercial Terms. If, on the Llama 2 version release date, the monthly active users of the products or services made available by or for Licensee, or Licensee’s affiliates, is greater than 700 million monthly active users in the preceding calendar month, you must request a license from Meta, which Meta may grant to you in its sole discretion, and you are not authorized to exercise any of the rights under this Agreement unless or until Meta otherwise expressly grants you such rights.
  • 15. LLaMA 3 est désormais plus restrictif en matière de redistribution et de réutilisation Leader du marché : Meta Voyage vers l'ouverture Enterprise (US) Component Score Level description Model 4 Totally open Dataset 3 Open with limitations Code 4 Totally open RoBERTa 3 Open with limitations 1 Published research only 1 Published research only → Redistribution and Use. If you distribute or make available the Llama Materials (or any derivative works thereof), or a product or service that uses any of them, including another AI model, you shall (A) provide a copy of this Agreement with any such Llama Materials; and (B) prominently display “Built with Meta Llama 3” on a related website, user interface, blogpost, about page, or product documentation. If you use the Llama Materials to create, train, fine tune, or otherwise improve an AI model, which is distributed or made available, you shall also include “Llama 3” at the beginning of any such AI model name.
  • 16. Progeniture de Llama 2 : Alpaca et Vicuna Restrictions héritées de Llama 2 et OpenAI (ShareGPT) Recherche (US) Composant Score Niveau Model 3 Ouvert avec limitations Pre-training Dataset 1 Recherche publiée Fine-tuning Dataset 2 Recherche uniquement Code 4 Licence Apache 2 Modèles dérivés de Llama 2 par des universités
  • 17. LLMs fondamentaux collaboratifs Non lucratif (US) Recherche (UAE) Recherche (EU) Recherche (US) Entreprise (FR) EleutherAI GPT-J Falcon BLOOM OpenLLaMa Mistral Model 4 Accès et dérivation sans restriction 3 Ouvert avec limitations 3 Licence Open RAIL 4 Accès et dérivation sans restriction 4 Accès et dérivation sans restriction Dataset 3 Ouvert avec limitations 4 Accès et dérivation sans restriction 3 Ouvert avec limitations 4 Accès et dérivation sans restriction 0 Pas d’accès ou info publiques Code 4 Totalement ouvert 1 Instructions générales 4 Totalement ouvert 1 Exemples uniquement 4 Totalement ouvert Flou sur les datasets: se référer à la licence spécifique du sous-ensemble utilisé Notion d’usage responsable
  • 18. Non lucratif (US) Recherche (UAE) Recherche (EU) Recherche (US) Entreprise (FR) EleutherAI GPT-J Falcon BLOOM OpenLLaMa Mistral Model 4 Accès et dérivation sans restriction 3 Ouvert avec limitations 3 Licence Open RAIL 4 Accès et dérivation sans restriction 4 Accès et dérivation sans restriction Dataset 3 Ouvert avec limitations 4 Accès et dérivation sans restriction 3 Ouvert avec limitations 4 Accès et dérivation sans restriction 0 Pas d’accès ou info publiques Code 4 Totalement ouvert 1 Instructions générales 4 Totalement ouvert 1 Exemples uniquement 4 Totalement ouvert LLMs fondamentaux collaboratifs Licences open source modifiées This license is, in part, based on the Apache License Version 2.0, with a series of modifications. The contribution of the Apache License 2.0 to the framing of this document is acknowledged. Please read this license carefully, as it is different to other ‘open access’ licenses you may have encountered previously. Use of Falcon180B for hosted services may require a separate license.
  • 19. Mistral : IA cuisinée à la française Surfe les vagues ouvertes et fermées Community VS Enterprise (comme dans l’open source) Mélange de modèles • Mixture-of-Experts (SMoE) : Mixtral 8x7B, 8x22B • Modèles fondamentaux et dérivés Mélange de Business Models et de licences • Modèles “Open Source”, SDK mistral-finetune • Modèles commerciaux et optimisés: Small, Large & Embed • Sustainable openness : licence hors-production pour codestral
  • 20. Mistral : IA cuisinée à la française Surfe les vagues ouvertes et fermées Revisite l'ouverture à l'ère du Cloud (comme l’open source) Mélange de modèles • Mixture-of-Experts (SMoE) : Mixtral 8x7B, 8x22B • Modèles fondamentaux et dérivés Mélange de Business Models et de licences • Modèles “Open Source”, SDK mistral-finetune • Modèles commerciaux et optimisés: Small, Large & Embed • Sustainable openness : licence hors-production pour codestral MNPL - 3.2. Usage Limitation - You shall only use the Mistral Models and Derivatives (whether or not created by Mistral AI) for testing, research, Personal, or evaluation purposes in Non- Production Environments; - Subject to the foregoing, You shall not supply the Mistral Models or Derivatives in the course of a commercial activity, whether in return for payment or free of charge, in any medium or form, including but not limited to through a hosted or managed service (e.g. SaaS, cloud instances, etc.), or behind a software layer.
  • 21. LLMs dérivés collaboratifs Impact des modèles fondamentaux et des datasets Entreprise (US) Entreprise (US) Entreprise (US) Consortium (UAE/US) Recherche (US) Dolly BLOOMChat Zephyr LLM360 OLMo-Instruct Model 4 Basé sur GPT-J 3 Basé sur BLOOM 4 Basé sur Mistral 4 Open source 4 Open source Pre-training Dataset 3 Basé sur GPT-J 3 Basé sur BLOOM 0 Basé sur Mistral 4 RedPajama, Falcon, StarCoder 3 Dolma (ImpACT MR) Fine-tuning Dataset 4 Accès et dérivation sans restriction 4 Dolly et LAION 2 Recherche uniquement (OpenAI) 2 Recherche uniquement (OpenAI) 3 Tülu 2 (IMPACT LR) Reward model 0 Aucun information publique 0 Aucun information publique 3 Recherche et exemples de code 0 Aucun information publique 4 UltraFeedback (MIT) Code 4 Open source 3 OpenRAIL 3 Exemples de code 4 Open source 4 Open source
  • 22. Entreprise (US) Entreprise (US) Entreprise (US) Consortium (UAE/US) Recherche (US) Dolly BLOOMChat Zephyr LLM360 OLMo-Instruct Model 4 Basé sur GPT-J 3 Basé sur BLOOM 4 Basé sur Mistral 4 Open source 4 Open source Pre-training Dataset 3 Basé sur GPT-J 3 Basé sur BLOOM 0 Basé sur Mistral 4 RedPajama, Falcon, StarCoder 3 Dolma (ImpACT MR) Fine-tuning Dataset 4 Accès et dérivation sans restriction 4 Dolly et LAION 2 Recherche uniquement (OpenAI) 2 Recherche uniquement (OpenAI) 3 Tülu 2 (IMPACT LR) Reward model 0 Aucun information publique 0 Aucun information publique 3 Recherche et exemples de code 0 Aucun information publique 4 UltraFeedback (MIT) Code 4 Open source 3 OpenRAIL 3 Exemples de code 4 Open source 4 Open source LLMs dérivés collaboratifs L'IA responsable contredit la définition de l'open source AI2 ImpACT Licenses - Restrictions […] a. military weapons purposes […] b. purposes of military surveillance […] c. purposes of generating or disseminating information or content […] without expressly and intelligibly disclaiming that the text is machine generated; d. purposes of ‘real time’ remote biometric processing […] e. fully automated decision-making without a human in the loop […] as spreading misinformation […] f. purposes of the predictive administration of justice, law enforcement, immigration, or asylum processes, such as predicting an individual will commit fraud/crime
  • 23. Autres aspects du moment Linux de la GenAI • Démocratiser/décentraliser l’innovation Notebooks Communautés Nouveaux Business Models Outils collaboratifs et écosystèmes Puces AI Quantization Décentralisation Optimisation matérielle Ne pas réinventer la roue Standards interopérables Au-delà de Python Outils et frameworks open source
  • 24. • APIs fermées → Open Weights → Free AI (comme dans freedom) • Datasets et transitivité en amont • Clauses de concurrence • Restrictions liées à l’IA responsable • Recherche ouverte → Marché concurrentiel → Écosystème coopétitif • L'ouverture favorise la réutilisation et la collaboration • La collaboration entraîne la commoditisation et l'innovation Tout comme l’Open Source!