Ir al contenido principal

Entradas

Mostrando entradas de octubre, 2020

R: Valores Faltantes en un Data Frame (Missing Values)

Son muy pocas las ocasiones en que las variables de un conjunto de datos están libres de observaciones faltantes ( NAs o missing values ). Es usual que al abordar una data nos interese saber la cantidad de ausencias, y también su caracterización, es decir, si esa ( no respuesta ) obedece a un patrón específico o es atribuible a causas aleatorías. El conteo de valores faltantes por variable, en un data frame, puede realizarse con pocas líneas de código como en el siguiente ejemplo, hecho con una data ficticia y funciones de la familia apply : # datos ficticios set.seed(4363) datos <- replicate(100, sample(c(rchisq(5, runif(1, 1, 100)), NA), 10, replace = TRUE), simplify = FALSE) datos <- do.call(rbind, datos) Luego el total de no respuesta por variable sería: datos <- data.frame(datos) unlist(lapply(datos, function(x) sum(is.na(x)))) # V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 # 18 18 18 15 15 19 14 14 15 14 El paquete magr

Curva ROC

La curva ROC (Receiver Operating Characteristic) pasó de los campos de batalla de la Segunda Guerra Mundial, donde fue usada para analizar las señales de radar, a formar parte importante de la teoría de detección de señales, y a ser usada en campos tan diversos como psicología, epidemiología, radiología, investigaciones médicas, aprendizaje automático ( machine learning ) y otros. Básicamente sirve para ilustrar el desempeño de un modelo o sistema de clasificación a través de una secuencia de umbrales. El área bajo la curva ( AUC ) es también usada para seleccionar modelos. En R (CRAN) existen muchos paquetes con los que se pueden obtener excelentes gráficos de la curva ROC; sin embargo, con la finalidad de indagar un poco acerca del procedimiento para su obtención, conviene intentar hacer los cálculos y el gráfico prescindiendo de paquetes. Es preciso disponer de las secuencias de tasas de verdaderos positivos y falsos positivos a lo largo de los umbrales impuestos por los pronósti