De la polysémie en milieu hybride

Sarah Diot-Girard

#MauvaiseTraductionLittérale

Web Python logos
Scientific Python logos
A picture of my cat

Logo Twitter@Iggdrapatate

De la polysémie en milieu hybride

Sarah Diot-Girard

Modèle


CREATE TABLE cat_nap(
		id serial,
		cat_ref varchar,
		duration_range tstzrange not null,
		PRIMARY KEY (id),
		FOREIGN KEY (cat_ref) REFERENCES cat_name(cat_ref)
		);
					

from django.db import models


class CatNap(models.Model):
	cat_ref = models.ForeignKey(CatName, on_delete=models.CASCADE)
	duration_range = models.DateRangeField()
					
\[ \mbox{cat_nap_length} = f_\theta(\mbox{cat_age}, \mbox{last_nap_time}, ...) \]
One complication in our work arose due to conflicting technical nomenclature:
"testing", "regression", "validation", "model"
and other relevant terms have very different meanings to machine learning experts
than they do to software engineers.

Testing and Validating Machine Learning Classifiers by Metamorphic Testing,
Xie et al.

Notebook

A computer notebook
A JuPyTer notebook

ML

Mailing List

Machine Learning

DL

Download

Deep Learning

Gradient

A color gradient
\[ a_{n+1} = a_{n} - \gamma \nabla F(a_n)\]
An illustration of gradient descent

Machine Learning : programmation non explicite utilisant les patterns présents dans les données pour entraîner le comportement souhaité

Data + hyperparameters in algorithm -> model

Modèle n.m. : truc produit par la combinaison d'un algorithme, d'hyperparamètres choisis par l'utilisateur·trice et de paramètres (ou poids) appris sur un jeu de données

An illustration of gradient descent

On a un problème de perf dans notre cluster!

Bad cluster, bad
A bad cluster of points
A good cluster of points

Apprentissage supervisé vs non-supervisé

Trouvé dans le backlog :

Boostrap des statistiques

snapshot of Google analytics

Bootstrap (statistiques) :
méthode d'inférence statistique basée sur la réplication multiple des données selon les techniques de rééchantillonnage

Population

A Gaussian distribution for a metric \( \mu = 11\)

Echantillon

A sample from the previous population

Erreur standard d'une grandeur statistique:

Echantillon

A sample from the previous population

Rééchantillonnage

A sample from the previous sample A sample from the previous sample A sample from the previous sample
A sample from the previous sample A sample from the previous sample A sample from the previous sample \[ \hat{\mu_1} = 9.25 \hspace{1.5cm} \hat{\mu_2} = 12.25 \hspace{1.5cm} \hat{\mu_3} = 8.5\] \[ \bar{\mu} = 10 \hspace{3cm} SE(\bar{\mu}) = 1.98\]

Estimation par bootstrap

Fréquentiste vs Bayésien

Variable


cat_nap_length_per_day_in_minutes = cat_nap_length_per_day / 60
average_cat_nap_length_per_day_in_minutes =
	sum(cat_nap_length_per_day_in_minutes) / len(cat_nap_length_per_day_in_minutes)
					
A dataframe with columns named x_1, x_2, ...

Feature

Feature (dev)

  • Vous auriez dû la livrer avant-hier.
  • Crée de la dette technique.

Feature (ML)

  • df['dow'] = df['created_at'].dt.dayofweek
  • Crée de la dette technique.

Classe


import datetime

class CatNap():
  def __init__(self, start_time):
    self.start_time = start_time
	self.end_time = None
	self.duration = None

  def end_nap():
	self.end_time = datetime.datetime.now()
	self.duration = (self.end_time - self.start_time).total_seconds()
					
A dataframe for classification

Label


A dataframe for classification

Test et validation

Pytest logo
An HTML form
train/val/test splits
overfitting
train/val/test splits

Régression

regression in circleCI

Classification vs régression

classification

Régression logistique

Une illustration de régression logistique

Ecrivez un glossaire

Merci pour votre attention !

Et désolée pour les blagues pas drôles...

Logo GitHub@SdgJlbl

Logo Twitter@SdgJlbl

Logo PeopleDoc

Merci à @ewjoachim pour les graphiques 😻