Notes

Difficultés

  1. Classification
  2. Prédiction : classification continue
  3. Similarité : distance entre objets
  4. Génération

Vocabulaire

Transfert learning

Utiliser un réseau déjà entrainer pour effectuer une autre tache.

Early stopping

Pour lutter contre le sur apprentissage. Sinon augmenter le nombre de données d’apprentissage ou réduire la taille du modèle.

Règles expertes

Arbre de décision d’expert

PushButton

Réseau de neurone automatiquement généré

Random Forest

Choisir aléatoirement un batch (1%) des vecteurs d’entrés. Et ne s’intéresse qu’à un sous ensemble des coordonnées. Il crée ensuite l’arbre de décision minimal qui permet de discriminer au mieux ces vecteurs. C’est comme si il crée des arbres de décision experts en chaque coordonnées puis il prend la majorités des votes. Utilise Scikit learn. L’avantage est qu’on peut remonter à l’origine des décisions facilement. Chaque arbre prend un échantillon différent. A chaque branche de l’arbre, on ne discrimine qu’une coordonnée, genre x0 < 0.3

K-means

Hot encoding

C’est pour encoder une valeur de manière discrète. En mettant chaque possibilité comme une dimension de vecteur. Comme l’output de la reconnaissance de caractère.

SoftMax

Permet de donner une sortie en probabilité dans des catégories discrètes. Pour l’erreur sur la fin, on utilise l’entropie croisée.

Cross Validation

S’entrainer sur 90% et valider sur 10% mais faire 10 fois l’expérience en faisant varier les 10%, pour au final qu’ils aient couvert tout le set. Voir changer la graine de la sélection aléatoire et refaire tout ça. Du genre faire 30 expériences pour un test. Attentions aux papiers qui affichent le meilleur résultat. C’est la moyenne qui compte.

Matrice de confusion

M(x, y) est le nombre d’élément de catégorie x classés y par le système. A partir de cette Matrice, on peut calculer plusieurs métriques différentes. Souvent ces métriques mesures les faux positifs ou négatifs suivant telle ou telle dimension (i.e. ici des familles).

Précision

Nombre de bonne classification de chaque classe / nb d’élément classé dans cette classe (inclue les mauvais)

Rappel

Nombre de bonne classification de chaque classe / nombre d’élément dans cette classe

F1 score

Moyenne géométrique Rappel et Précision : 2.p.r / (p + r)

Statistiques

Todo

Numpy / Plt / Scikit learn