Outliers

outliers genera un report relativo agli outliers.

Gli outliers sono calcolati come:

  • i valori al di sotto del limite inferiore (Q1 - (1.5 * IQR)): il primo interquarle meno una volta e mezzo lo scarto interquartile
  • i valori al di sopra del limite superiore (Q3 + (1.5 * IQR)): il terzo interquarle più una volta e mezzo lo scarto interquartile

Per ciascuna variabile, la procedura produce:

  • tabella delle statistiche riassuntive della variabile
  • tabella dei valori outlier
  • tabella dei record con valori outlier

Parametri:

  • :varname|varlist: la variabile o la lista delle variabili che si si vuole includere nel report
  • :id => :varname: (opzionale) una variabile da usare come identificativo dei record
  • :niqr => #.#: il valore da utilizzare per definire gli outliers (default 1.5)
  • :flag => :varname|varlist: (opzionale) una variabile o una lista di variabili che verranno valorizzate a 1 se il valore è un outlier
  • :recode => :na|:mean|:limits|:q1q3|value|values: (opzionale) l’operazione di sostituzione degli outliers:
    • :na: valore mancante
    • :mean: la media
    • :median: la mediana
    • :limits: i limiti inferiore e superiore (estremi non outlier)
    • :q1q3: il primo e il terzo quartile
    • value|[v1, v2]: un valore o un vettore con una coppia di valori (anche un vettore di vettori per assegnare valori diversi a diverse variabili)
  • :into => :varname|varlist: (opzionale) una variabile o una lista di variabili che verranno create con i valori ricodificati. Il numero di variabile deve essere uguale al numero di variabili da analizzare. Ignorato se non specificato il parametro :recode
  • :freq => true|false|n: produce la tabella delle distribuzioni di frequenza; con n produce la tabella se il numero di valori è inferiore uguale a n (default 100)
  • :records => true|false: produce la tabella dei record di dati contenenti outliers (default true)
  • :print => true|false: stampa il report nella finestra di log (default true)
  • :xlsx => true|false|filename: produce un report in formato XLSX (default true). Può essere fornito un nome di file (senza estensione), altrimenti viene creato automaticamente

Restituisce un oggetto che dispone dei seguenti metodi:

  • has_outliers?: restituisce true o false o un vettore se ci sono più variabili
  • vars_with_outliers: restituisce la lista delle variabili con outliers
  • lab: apre ptLab con i dati che contengono outlier selezionati
1
2
3
4
5
6
7
8
9
outliers :d10, :flag => :f10

outliers :d2_1, :d2_2, :d2_3,
 :id => :ser_no,
 :flag => s(:f2_,1..3),
 :replace => :mean,
 :into => s(:new2_,1..3)

outliers(:d10, :flag => :f10).lab

Importante

Se è attivo un filtro, outliers analizza solo i casi attivi.