Técnicas, importancia y aplicación de "Feature-Engineering" en Machine Learning - Blog de Tecnología, Datos, Machine Learning y BigData

Comparte

En el ámbito del Machine Learning (ML), la calidad y la idoneidad de los datos de entrada son tan críticas como la elección del algoritmo o la arquitectura del modelo. La ingeniería de características es un proceso fundamental que aborda directamente esta necesidad, transformando los datos crudos en una forma que los modelos de ML pueden comprender y utilizar de manera efectiva para generar predicciones precisas. Este proceso implica la selección, manipulación y transformación de datos brutos en «características» o variables de entrada medibles que son directamente utilizables por algoritmos de aprendizaje supervisado. Su objetivo principal es crear nuevas variables que no están explícitamente presentes en el conjunto de datos original, simplificando y acelerando las transformaciones de datos, y en última instancia, mejorando la precisión y el rendimiento del modelo.

La importancia de la ingeniería de características no puede subestimarse; se considera un paso muy importante en el Machine Learning. Los algoritmos de ML dependen en gran medida de la calidad de los datos utilizados durante su entrenamiento para lograr resultados óptimos. Al formular características relevantes que describen el problema subyacente con la mayor precisión posible, la ingeniería de características permite a los algoritmos comprender y aprender patrones de manera más efectiva. Esta capacidad para diseñar características más informativas conduce directamente a una mejora significativa en la precisión del modelo. La relación entre características bien diseñadas y un rendimiento superior del modelo es, por lo tanto, una conexión causal directa, estableciendo la ingeniería de características como una columna vertebral indispensable para el éxito de cualquier proyecto de ML.

A pesar de que la ingeniería de características puede desglosarse en pasos discretos como la creación, transformación, extracción, evaluación y optimización de características, es fundamental reconocer su naturaleza inherentemente iterativa. No es un proceso lineal; más bien, exige experimentación y pruebas continuas para descubrir la combinación más efectiva de características para un problema dado. Curiosamente, los avances en el aprendizaje profundo están comenzando a cambiar este paradigma. Con el aprendizaje profundo, la ingeniería de características puede automatizarse como parte del propio proceso de aprendizaje del algoritmo. Esto significa que los usuarios pueden especificar un conjunto reducido de características básicas, y la arquitectura de la red neuronal se encarga de agregarlas en representaciones de nivel superior. Esta capacidad sugiere un cambio de enfoque para los científicos de datos, pasando de la creación manual y laboriosa de características a un mayor énfasis en el diseño de arquitecturas de modelos y la curación de datos de entrada, lo que apunta a una preparación de datos más automatizada dentro del ámbito del ML avanzado.

El preprocesamiento de datos se posiciona como el paso inicial y más fundamental en el ciclo de vida de los datos para Machine Learning. Su propósito es identificar y resolver problemas dentro de un conjunto de datos para garantizar su precisión y consistencia. El principio subyacente de «basura entra, basura sale» (garbage in, garbage out) es particularmente relevante aquí: incluso los algoritmos más sofisticados no pueden compensar una mala calidad de los datos. Si los datos de entrada contienen errores, valores atípicos o valores faltantes, el modelo inevitablemente tendrá dificultades para producir predicciones fiables y conocimientos útiles. Los datos preprocesados, al estar libres de ruido irrelevante e inconsistencias, permiten a los modelos discernir y aprender de las características verdaderamente importantes, lo que se traduce directamente en una mayor precisión en las predicciones. Además, las características sin errores facilitan la interpretación de los resultados y la explicación de las decisiones del modelo a las partes interesadas. Por lo tanto, invertir en un preprocesamiento de datos riguroso no es solo una necesidad técnica, sino una inversión estratégica directa en la fiabilidad, eficiencia, robustez y explicabilidad de los modelos de inteligencia artificial.

Preprocesamiento de datos: La base para la calidad y confiabilidad

El preprocesamiento de datos es una fase indispensable en cualquier proyecto de Machine Learning, ya que sienta las bases para la calidad y la confiabilidad de los resultados del modelo. Su importancia radica en su impacto directo en la precisión de los análisis. Los datos preprocesados, al estar depurados de ruido irrelevante e inconsistencias, permiten que los modelos identifiquen y aprendan de las características más significativas, lo que mejora sustancialmente la exactitud de las predicciones. Los problemas comunes que el preprocesamiento busca abordar incluyen valores faltantes, que pueden sesgar los resultados; duplicados, que sobre-representan ciertas observaciones y distorsionan los patrones; valores atípicos, que pueden desvirtuar el proceso de entrenamiento; y formatos inconsistentes, que conducen a errores durante el análisis.

Es crucial destacar que, si bien los data lakes ofrecen una flexibilidad considerable al permitir el almacenamiento de datos en su formato original sin esquemas predefinidos, esta misma flexibilidad puede convertirse en un desafío si no se gestiona adecuadamente. Un data lake sin un marco de gobernanza de datos robusto corre el riesgo de transformarse en un «data swamp» (pantano de datos), una acumulación desorganizada de información redundante, obsoleta o irrelevante. La falta de una gobernanza de datos centralizada en los data lakes tradicionales dificulta el mantenimiento de la consistencia y la seguridad de los datos. Sin controles adecuados, el descubrimiento de datos se vuelve arduo, y pueden surgir problemas de integridad de los datos, lo que resulta en información redundante o inconsistente. Por lo tanto, un marco de gobernanza de datos, que incluya el etiquetado de metadatos, la indexación y los controles de acceso, se vuelve indispensable para evitar que un data lake se degrade y para asegurar que los datos estén en condiciones óptimas para un preprocesamiento efectivo. La ausencia de un esquema en escritura en los data lakes tradicionales hace que esta gobernanza sea aún más crítica para la calidad de los datos.

Técnicas de limpieza de datos

La limpieza de datos es el proceso de identificar y resolver problemas dentro de un conjunto de datos para asegurar su precisión y consistencia.

Manejo de valores faltantes

Los valores faltantes representan uno de los desafíos más comunes en la preparación de datos para Machine Learning. Pueden surgir por diversas razones, como errores humanos, interrupciones en el flujo de datos, preocupaciones de privacidad o fallos en los sensores. Se manifiestan de varias maneras, siendo las representaciones más comunes NaN (Not a Number), NULL o None, cadenas vacías (""), o indicadores especiales como -999. La presencia de valores faltantes puede tener un impacto significativo en el rendimiento de los modelos de Machine Learning, llevando a predicciones sesgadas y una menor precisión.

Comprender la naturaleza de la ausencia de datos es crucial para seleccionar la técnica de tratamiento más adecuada. Se distinguen tres tipos principales de «missingness»:

Missing Completely At Random (MCAR): Ocurre cuando la probabilidad de que los datos falten es uniforme en todas las observaciones y no está relacionada con ningún dato observado o no observado dentro del conjunto de datos. En estos casos, eliminar los datos MCAR es una opción segura, ya que no introduce sesgos en el análisis. Un ejemplo podría ser la pérdida de respuestas en una encuesta debido a fallos técnicos.
Missing At Random (MAR): La probabilidad de que falte un valor depende de otra variable observada en el conjunto de datos. Por ejemplo, si los científicos de datos omiten ciertas preguntas por falta de conocimiento en algoritmos avanzados, la ausencia de datos se relaciona con su frecuencia de capacitación. En este escenario, los métodos de imputación suelen ser útiles para rellenar los huecos.
Missing Not At Random (MNAR): Considerado el escenario más complejo, la razón de la ausencia de datos está relacionada con el valor en sí mismo o con una variable no observada. Ignorar o simplemente imputar estos datos puede introducir un sesgo significativo. Un ejemplo podría ser una encuesta a parejas casadas donde las razones de la falta de datos son desconocidas.

La estrategia para manejar los valores faltantes debe ser contextual y no universal. La razón de la ausencia de datos en el conjunto de datos influye directamente en el enfoque para su manejo. La eliminación de datos MCAR es segura, mientras que MNAR es el escenario más desafiante. Un estudio de caso en la predicción de la rotación de clientes de telecomunicaciones demostró cómo la aplicación de diferentes métodos de imputación (media/mediana, indicador de ausencia + predictivo, y KNN) en función del tipo de ausencia (MAR, MNAR, MCAR, respectivamente) para distintas características condujo a una mejora notable en el rendimiento del modelo. Esto subraya que aplicar ciegamente un método sin comprender la causa de la ausencia puede resultar en modelos subóptimos o sesgados. Por lo tanto, un paso de diagnóstico cuidadoso es crucial antes de decidir un tratamiento.

Las técnicas de tratamiento de valores faltantes incluyen:

Eliminación (de filas o columnas): Es el enfoque más directo y sencillo.
- Cuándo usar: Puede ser apropiado si una columna tiene un porcentaje muy alto de valores faltantes, si el conjunto de datos es extremadamente grande (de modo que la eliminación de unas pocas filas o columnas no afecta significativamente el análisis), si los resultados del modelo no dependen de los datos eliminados, o si existe una baja variabilidad o valores repetitivos en los datos. También puede ser la mejor opción para conjuntos de datos con distribuciones muy sesgadas.
- Riesgos: La principal desventaja es la posible pérdida significativa de información, lo que puede reducir el poder estadístico del análisis y llevar a resultados sesgados si se eliminan demasiadas observaciones. Por estas razones, generalmente no es el método más recomendado.
Imputación: Implica sustituir los valores faltantes por estimaciones razonables. Es particularmente útil cuando el porcentaje de datos faltantes es bajo o cuando la eliminación de filas resultaría en una pérdida significativa de información.
- Media, Mediana o Moda: Reemplaza los valores faltantes con la media, mediana o moda de los valores no faltantes en la variable correspondiente.
  - La media es sensible a los valores atípicos (outliers) y no debe usarse si estos están presentes, ya que podrían distorsionar la representación.
  - La mediana es una opción más robusta si el conjunto de datos contiene outliers, ya que no se ve afectada por ellos.
  - La moda es adecuada para reemplazar valores faltantes en variables categóricas.
- Imputación KNN (K-Nearest Neighbors): Rellena los valores faltantes utilizando el algoritmo K-Nearest Neighbors. Funciona encontrando los k vecinos más cercanos a un punto de datos con un valor faltante y luego imputa el valor faltante utilizando la media o mediana de los valores de esos vecinos.
  - Ventajas: Ofrece estimaciones más precisas en comparación con métodos más simples, preserva la distribución original de la variable y la estructura local de los datos, no asume una distribución subyacente específica para los datos, y sus parámetros (número de vecinos k, métrica de distancia) son ajustables para mejorar la precisión de la imputación.
  - Desventajas: Aumenta la complejidad del pipeline de preprocesamiento, ya que requiere entrenar un modelo adicional para la imputación, lo que conlleva mayores costos computacionales. Los algoritmos KNN no escalan bien, lo que limita su aplicación a conjuntos de datos más pequeños. Además, esta técnica solo puede aplicarse a variables numéricas; las variables categóricas o de fecha/hora deben codificarse a un formato numérico antes de la imputación KNN, o se debe considerar una técnica de imputación diferente.
- Relleno hacia adelante (Forward Fill) y Relleno hacia atrás (Backward Fill): Estas técnicas imputan los valores faltantes utilizando el último valor no faltante observado (forward fill) o el siguiente valor no faltante disponible (backward fill). Son especialmente adecuadas para datos de series temporales, donde la secuencia de los datos es importante.
- Reemplazo con Valor Arbitrario: Consiste en sustituir los valores NA (Not Available) por un número arbitrario preseleccionado, como 999, 9999 o -1. Esta técnica es útil cuando la eliminación o la imputación por media/mediana/moda podrían introducir sesgos, o cuando la ausencia de datos no es completamente aleatoria. La elección del valor arbitrario debe hacerse con cuidado para no introducir información engañosa.
- Asignar Indicador de Missingness: Se crea una característica binaria adicional (una nueva columna) que indica si el valor original estaba ausente o no. Esta bandera permite que el modelo de Machine Learning aprenda si la ausencia de datos es predictiva en sí misma, capturando patrones que de otro modo se perderían con métodos de imputación más simples.

Manejo de datos duplicados

Los datos duplicados son un problema común que puede surgir durante la recolección de datos, al combinar conjuntos de datos de múltiples fuentes o al raspar información. Su presencia conduce a una sobre-representación de ciertas observaciones, lo que distorsiona los patrones subyacentes en los datos y puede sesgar los resultados del análisis. La solución directa implica la identificación y eliminación de estas observaciones duplicadas para asegurar la integridad y la eficiencia del conjunto de datos.

Corrección de errores estructurales

Los errores estructurales se refieren a inconsistencias en los datos que surgen de convenciones de nomenclatura extrañas, errores tipográficos o capitalización incorrecta. Estas inconsistencias pueden llevar a categorías mal etiquetadas o a la percepción de que categorías idénticas son distintas (por ejemplo, «N/A» y «Not Applicable» siendo tratadas como categorías separadas cuando deberían ser la misma). Para abordar esto, es fundamental estandarizar los formatos de datos. Esto incluye asegurar que todas las fechas sigan un formato uniforme, que las columnas numéricas se almacenen como números (no como texto), y que las etiquetas categóricas (como «F» y «Female») se estandaricen a una única representación. La corrección de estos errores es vital para evitar problemas durante el análisis y garantizar la coherencia del conjunto de datos.

Ingeniería de características: creando valor predictivo a partir de datos crudos

La ingeniería de características es el arte y la ciencia de transformar los datos brutos en características que maximizan la capacidad predictiva de los modelos de Machine Learning. Este proceso no solo mejora el rendimiento del modelo, sino que también permite que los algoritmos capturen relaciones más complejas en los datos.

Creación de características

La creación de características es el proceso de generar nuevas variables a partir de datos existentes o mediante la aplicación de conocimiento del dominio, con el fin de mejorar la capacidad de predicción de un modelo. Esta técnica permite a los modelos de Machine Learning «ver» patrones que de otro modo serían invisibles en los datos brutos. Los datos brutos por sí solos a menudo no contienen toda la información necesaria en un formato que un algoritmo pueda digerir fácilmente. La creación de características transforma activamente las relaciones implícitas o el conocimiento del dominio en entradas explícitas y medibles, lo que capacita directamente al modelo para aprender de manera más efectiva y descubrir conocimientos que no podría obtener de las características originales.

Las características calculadas son un subconjunto de la creación de características, donde se generan nuevas variables mediante operaciones matemáticas o lógicas sobre características existentes. Algunos ejemplos ilustrativos incluyen:

Índice de Masa Corporal (BMI): Este es un ejemplo clásico en la ciencia de datos. El BMI se calcula a partir del peso y la altura de un individuo. Sirve como un sustituto de una característica que es inherentemente difícil de medir con precisión: la proporción de masa corporal magra. Al combinar dos características existentes, se obtiene una nueva que encapsula una información más compleja y predictiva.
Área de una Propiedad: En un conjunto de datos de predicción de precios de viviendas, si se tienen columnas separadas para la longitud y la anchura de una propiedad, se puede derivar una nueva característica, área = longitud * anchura. Esta característica de área puede estar más directamente relacionada con la variable objetivo (el precio de la casa) que sus componentes individuales, simplificando el descubrimiento de patrones ocultos por parte del modelo.
Tendencias de Ventas Semanales/Fin de Semana: Para comprender mejor las tendencias de ventas en función del día de la semana, se podría categorizar los días de la semana en una característica binaria llamada «Fin de Semana» (donde 1=Verdadero y 0=Falso). Esta característica permitiría predecir si es más óptimo reponer los estantes durante los fines de semana, proporcionando una visión accionable que no se obtendría simplemente con el día de la semana individual.

Términos de interacción (Interaction Terms)

Los términos de interacción son una técnica avanzada de ingeniería de características que se utiliza cuando el efecto de una característica en la predicción de una variable objetivo depende del valor de otra característica. En tales casos, la predicción no puede expresarse simplemente como la suma de los efectos individuales de las características, sino que requiere capturar estos complejos efectos colaborativos.

Una forma común de introducir y modelar estas interacciones es a través de las características polinomiales. Esta técnica permite introducir no linealidad en modelos que de otro modo serían lineales, como la regresión lineal.

Cómo funciona: Para una única característica x, las características polinomiales pueden incluir x² (al cuadrado), x³, x⁴, y así sucesivamente. Cuando se trabaja con múltiples características (por ejemplo, x1, x2,…, xn), se pueden crear términos de interacción que son productos de estas características, como x1 * x2, x1² * x2, x1 * x2², entre otros.
Ventajas: Las características polinomiales aumentan significativamente la flexibilidad del modelo, permitiendo que incluso los modelos lineales capturen relaciones no lineales en los datos. Esto se traduce en la capacidad de modelar curvas y superficies complejas en el espacio de características, lo que puede contribuir positivamente al rendimiento en datos intrínsecamente no lineales. A pesar de capturar relaciones no lineales, el modelo subyacente conserva una estructura lineal, lo que facilita el uso de herramientas de análisis familiares y la interpretación de los coeficientes, aunque esta simplicidad disminuye con grados polinomiales más altos. Una ventaja crucial es su capacidad para descubrir interacciones ocultas entre variables, lo cual es particularmente valioso en dominios donde las relaciones son inherentemente no lineales, como la física o la economía.
Desventajas: La principal desventaja es el rápido aumento de la dimensionalidad del conjunto de datos, ya que se crean columnas adicionales para cada característica sometida al algoritmo. Este incremento dimensional puede llevar a un mayor riesgo de sobreajuste (overfitting), donde el modelo aprende el ruido de los datos de entrenamiento en lugar de los patrones subyacentes. Además, el uso de características polinomiales requiere más recursos computacionales debido al mayor número de características a procesar.

La inclusión de términos de interacción es una técnica poderosa para modelos que necesitan capturar relaciones no lineales complejas, pero debe ser balanceada con el riesgo de sobreajuste y el aumento de la complejidad. La definición de interacción destaca que el efecto de una característica depende del valor de otra, lo que lleva a predicciones que no pueden expresarse como una suma simple. Las características polinomiales, aunque mejoran la flexibilidad del modelo para capturar relaciones no lineales , conllevan el riesgo de aumentar la dimensionalidad y el sobreajuste. Esto pone de manifiesto una compensación inherente: si bien los términos de interacción pueden potenciar significativamente el modelo al descubrir relaciones intrincadas, también introducen una complejidad que, si no se gestiona con cuidado, puede conducir al sobreajuste, especialmente en espacios de alta dimensionalidad.

Agregación (Aggregation)

La agregación es una técnica de ingeniería de características que implica calcular estadísticas resumidas sobre grupos de datos para crear nuevas características. En lugar de utilizar puntos de datos individuales, la agregación permite obtener una visión más holística y de alto nivel de la información.

Concepto: Esta técnica consiste en aplicar funciones como la media, la suma, el conteo, el mínimo, el máximo, la desviación estándar, entre otras, a un conjunto de características dentro de un grupo definido. Por ejemplo, en lugar de analizar cada transacción individual de un cliente, se podría agregar el gasto total del cliente o el número promedio de transacciones por mes.
Ejemplos:
- Gasto Promedio por Cliente: Calcular el gasto promedio de un cliente en un período determinado a partir de sus transacciones individuales.
- Número de Transacciones por Día: Contar la cantidad de transacciones que ocurren en un día específico para identificar patrones de actividad.
- Conteo de Eventos por Usuario: Sumar el número de veces que un usuario realiza una acción particular (por ejemplo, clics, inicios de sesión).

La agregación transforma datos detallados en resúmenes significativos, lo que reduce la dimensionalidad del conjunto de datos y proporciona una visión más holística que puede ser más relevante para el problema de predicción. Si bien los datos brutos y granulares son valiosos, agregarlos puede capturar patrones de nivel superior (como el gasto total del cliente en contraposición a los montos de transacciones individuales) que son más directamente predictivos o ayudan a reducir el ruido. Esta simplificación de la representación de los datos los hace más eficientes para los modelos y puede revelar tendencias a nivel macro que los puntos de datos individuales podrían oscurecer.

Transformación de características categóricas (Codificación)

La mayoría de los algoritmos de Machine Learning están diseñados para trabajar con datos numéricos, lo que hace que la transformación de variables categóricas sea un paso esencial en el preprocesamiento. La codificación de estas variables ayuda a los modelos a identificar patrones y extraer información valiosa.

Codificación One-Hot (Dummy Encoding):
- Descripción: Esta técnica convierte los datos categóricos en un formato numérico binario. Para cada categoría única en la característica original, se crea una nueva columna binaria. Si una observación pertenece a esa categoría, la nueva columna tendrá un valor de 1; de lo contrario, tendrá 0. Es ideal para características categóricas nominales, es decir, aquellas que no tienen un orden o ranking inherente (por ejemplo, colores como ‘Rojo’, ‘Azul’, ‘Verde’ o ciudades).
- Ventajas: Preserva la distinción entre las etiquetas sin implicar ninguna ordinalidad o relación de orden entre ellas. Proporciona una representación numérica compatible con muchos algoritmos de Machine Learning, como la regresión lineal, la regresión logística y las redes neuronales.
- Desventajas:
  - Maldición de la Dimensionalidad: Puede llevar a un aumento significativo en el número de columnas del conjunto de datos, especialmente si la característica tiene una alta cardinalidad (muchas categorías únicas). Esto incrementa la complejidad computacional y los requisitos de almacenamiento.
  - Multicolinealidad: Las nuevas columnas binarias pueden estar correlacionadas entre sí, lo que puede ser problemático para modelos que asumen independencia entre características.
  - Escasez de Datos (Data Sparsity): El resultado puede ser una matriz con una gran cantidad de ceros, lo que puede ser ineficiente en términos de memoria y afectar el rendimiento del modelo.
- Casos de uso: Datos nominales como el color de un coche o la ciudad de residencia.
Codificación de Etiquetas (Label Encoding):
- Descripción: Asigna un número entero único a cada categoría dentro de una característica. Por defecto, estos enteros suelen asignarse en orden alfabético o según su aparición en los datos.
- Ventajas: Es una técnica sencilla de implementar y computacionalmente eficiente.
- Desventajas: Si se aplica a datos nominales (sin un orden significativo), puede introducir una ordinalidad no intencionada, lo que podría engañar al modelo para que asuma una relación de orden entre categorías que no existe. Algunos algoritmos de Machine Learning podrían malinterpretar los valores enteros como si tuvieran una relación matemática, lo que podría llevar a resultados sesgados.
- Casos de uso: Es más adecuada para características categóricas ordinales, es decir, aquellas donde las categorías tienen un orden o ranking significativo (por ejemplo, niveles educativos como «Bachillerato», «Licenciatura», «Maestría», «Doctorado», o niveles de satisfacción como «Bajo», «Medio», «Alto»). Los algoritmos basados en árboles, como los árboles de decisión y los bosques aleatorios, pueden manejar eficazmente los datos codificados con etiquetas.
Codificación Ordinal (Ordinal Encoding):
- Descripción: Similar a la codificación de etiquetas, pero se utiliza específicamente cuando las categorías tienen un orden natural y se asignan enteros que reflejan ese orden establecido.
- Ventajas: Captura y preserva eficazmente las relaciones ordinales entre categorías, lo cual es valioso para ciertos tipos de análisis. Resulta en una menor dimensionalidad en comparación con la codificación One-Hot, lo que la hace más eficiente en memoria. Proporciona una representación numérica adecuada para muchos algoritmos de Machine Learning.
- Desventajas: Algunos algoritmos de Machine Learning podrían asumir una relación lineal entre los enteros codificados, lo cual no siempre es apropiado para todas las características ordinales. No debe aplicarse a características categóricas nominales, ya que estas categorías no poseen un orden significativo.
- Casos de uso: Ideal para datos ordinales como niveles de educación o calificaciones.
Codificación Binaria (Binary Encoding):
- Descripción: Es una técnica versátil que combina aspectos de la codificación One-Hot y de etiquetas. Primero, se asigna un entero único a cada categoría (similar a la codificación de etiquetas). Luego, este entero se convierte a su representación binaria. Finalmente, se crea un conjunto de columnas binarias, donde cada columna representa un dígito del código binario.
- Ventajas: Reduce significativamente la dimensionalidad en comparación con la codificación One-Hot, especialmente útil para características con un gran número de categorías únicas (alta cardinalidad). Es eficiente en memoria y ayuda a mitigar la maldición de la dimensionalidad.
- Desventajas: Aunque reduce la dimensionalidad, puede introducir cierta complejidad para características con cardinalidad extremadamente alta. Requiere una atención especial al manejo de valores faltantes durante el proceso de codificación.
- Casos de uso: Características de alta cardinalidad.
Codificación de Frecuencia (Count Encoding):
- Descripción: Transforma las características categóricas en valores numéricos basándose en la frecuencia (conteo) de cada categoría en el conjunto de datos. A cada categoría se le asigna un valor numérico que representa cuántas veces aparece, proporcionando una representación numérica directa y sencilla.
- Ventajas: Es un método simple e interpretable que preserva la información de conteo. Resulta particularmente útil cuando la frecuencia de las categorías es una característica relevante para el problema que se está resolviendo (por ejemplo, la frecuencia de compra de un cliente). Además, reduce la dimensionalidad en comparación con la codificación One-Hot, lo que es beneficioso en escenarios de alta cardinalidad.
- Desventajas: Puede llevar a la pérdida de información sobre la distinción de categorías si varias categorías tienen la misma frecuencia, ya que todas recibirán el mismo valor codificado. No es adecuada para características categóricas ordinales donde el orden de las categorías es importante.
- Casos de uso: Características de alta cardinalidad donde la frecuencia es una información predictiva.
Codificación por Objetivo (Target Encoding / Mean Encoding):
- Concepto: Esta técnica reemplaza cada categoría en una característica categórica con una estadística (generalmente la media) de la variable objetivo para esa categoría. Por ejemplo, en un problema de clasificación binaria, una categoría podría ser reemplazada por la proporción de resultados positivos asociados a esa categoría.
- Ventajas: Inyecta información de la variable objetivo directamente en la característica categórica, lo que puede hacerla muy informativa y mejorar significativamente el rendimiento del modelo. Es particularmente eficaz para características de alta cardinalidad, ya que no expande el espacio de características, a diferencia de la codificación One-Hot. Permite al modelo capturar la relación entre la característica categórica y la variable objetivo.
- Desafíos:
  - Fugas de Datos (Data Leakage): El riesgo principal es que la información de la variable objetivo se incorpore inadvertidamente durante el proceso de codificación, lo que puede llevar a estimaciones de rendimiento del modelo excesivamente optimistas en el conjunto de entrenamiento, pero un rendimiento deficiente en datos nuevos y no vistos.
    - Cómo mitigar: Para mitigar este riesgo, es crucial utilizar técnicas como la validación cruzada (cross-validation). Algunos algoritmos, como CatBoost, emplean una variante llamada «ordered encoding» que calcula las estadísticas del objetivo utilizando solo las observaciones precedentes en el conjunto de datos, imitando la validación de series temporales y ayudando a prevenir el sobreajuste.
  - Suavizado (Smoothing): Es una técnica esencial para abordar el sobreajuste, especialmente en el caso de categorías con pocas observaciones. El suavizado equilibra el valor codificado entre la media de la categoría y la media global de la variable objetivo. Esto es crucial para evitar que categorías con un número limitado de datos tengan una media objetivo no representativa, lo que podría introducir ruido o sesgos en el modelo.
- La Codificación por Objetivo ofrece un alto potencial predictivo al infundir información de la variable objetivo en las características, pero introduce un riesgo significativo de fuga de datos y sobreajuste si no se implementa con técnicas de suavizado y validación robustas. Si bien esta codificación tiene el poder de mejorar el rendimiento del modelo y capturar relaciones complejas entre las características categóricas y la variable objetivo , las advertencias sobre el sobreajuste y la fuga de datos son constantes en la literatura. La implementación de soluciones como el «suavizado» y la «codificación ordenada» (el enfoque de CatBoost) es fundamental para mitigar estos riesgos, demostrando que un alto potencial predictivo conlleva la necesidad de una implementación extremadamente cuidadosa para evitar métricas de rendimiento engañosas y una mala generalización.

Escalado de características: Nivelando el campo de juego para los algoritmos

El escalado de características es un paso crucial en el preprocesamiento de datos para Machine Learning, que busca transformar los valores de las características en un conjunto de datos a una escala similar. Su importancia radica en asegurar que todas las características contribuyan de manera equitativa al proceso de aprendizaje del modelo. Cuando las características tienen escalas muy diferentes (por ejemplo, una característica que va de 1 a 10 y otra de 1.000 a 10.000), los modelos pueden priorizar los valores más grandes, lo que lleva a predicciones sesgadas, un rendimiento deficiente del modelo y una convergencia más lenta durante el entrenamiento. El escalado de características aborda estos problemas ajustando el rango de los datos sin distorsionar las diferencias de valor, equilibrando el impacto de las características, reduciendo la influencia de los valores atípicos y mejorando las tasas de convergencia.

El escalado de características no es simplemente una «buena práctica», sino un requisito fundamental para la estabilidad, eficiencia y precisión de muchos algoritmos de Machine Learning, especialmente aquellos sensibles a la magnitud de las características. Múltiples fuentes enfatizan consistentemente que el escalado «asegura que ninguna característica domine» , «converge más rápido» , «mejora el rendimiento» , y es «crítico para asegurar resultados precisos». Este énfasis recurrente en la necesidad y los beneficios para tipos de algoritmos específicos (basados en distancia, descenso de gradiente) eleva el escalado de un mero paso de preprocesamiento a un requisito fundamental para la eficacia del modelo.

Normalización (Min-Max Scaling)

La normalización, a menudo referida como escalado Min-Max, ajusta los valores de las características a una escala común, típicamente entre 0 y 1. La fórmula para este proceso es:

x′=(x−xmin)/(xmax−xmin)

Donde x′ es el valor escalado, x es el valor original, xmin es el valor mínimo de la característica en el conjunto de datos, y xmax es el valor máximo. Por ejemplo, si una característica cantidad varía de 100 a 900, y un valor específico es 300, el valor normalizado sería (300−100)/(900−100)=0.25.

La normalización es particularmente útil cuando la distribución de los datos es desconocida o no sigue una distribución Gaussiana (normal). También es efectiva para algoritmos que dependen de distancias entre puntos de datos, como k-Nearest Neighbors (k-NN) y redes neuronales, ya que previene que las características con escalas más grandes dominen los cálculos de distancia. En la regresión lineal, normalizar la variable dependiente puede ayudar a distribuir los errores de manera más uniforme, y normalizar las variables de entrada asegura que las características con escalas más grandes no opaquen a las más pequeñas. En cuanto a los valores atípicos, la normalización puede ayudar a ajustarlos si se utiliza correctamente, aunque la estandarización es generalmente más consistente en este aspecto.

Estandarización (Z-score Normalization)

La estandarización, también conocida como escalado Z-score, transforma los datos para que tengan una media de 0 y una desviación estándar de 1. Este proceso ajusta los valores de las características restando la media y dividiendo por la desviación estándar. La fórmula para la estandarización es:

z=(X−μ)/σ

Donde X es el valor original, μ (mu) es la media de la característica, y σ (sigma) es la desviación estándar de la característica. Por ejemplo, si la media es 100 y la desviación estándar es 20, un valor original de 130 tendría un Z-score de (130−100)/20=+1.5. Esta transformación se conoce también como «centrado y escalado».

La estandarización es más apropiada cuando la distribución de los datos es Gaussiana o se asemeja a una distribución normal. Es fundamental para algoritmos basados en gradiente, como Support Vector Machines (SVM), que requieren datos estandarizados para un rendimiento óptimo. Si bien la regresión lineal y la regresión logística no asumen estrictamente la estandarización, pueden beneficiarse de ella, especialmente cuando las características varían ampliamente en magnitud, ya que ayuda a asegurar contribuciones equilibradas y mejora la optimización. Además, la estandarización es vital para técnicas de reducción de dimensionalidad como el Análisis de Componentes Principales (PCA), porque PCA identifica las direcciones donde la varianza se maximiza, y diferentes escalas de características distorsionarían el análisis. En general, la estandarización es un enfoque más consistente para manejar problemas de valores atípicos que la normalización, ya que se basa explícitamente tanto en la media como en la desviación estándar.

Transformaciones de potencia (Logarítmica, raíz cuadrada, recíproca, box-cox, Yeo-Johnson)

Las transformaciones de potencia son una clase de técnicas que utilizan una función de potencia (como un logaritmo o un exponente) para hacer que la distribución de probabilidad de una variable sea más Gaussiana o más parecida a una Gaussiana. Este proceso a menudo se describe como la eliminación del sesgo en la distribución o la estabilización de su varianza.

Transformación Logarítmica (Log Transform): Corresponde a un valor de lambda (λ) de 0.0 en la transformación de potencia generalizada. Implica tomar el logaritmo de los datos, típicamente el logaritmo natural (ln). Es particularmente útil cuando los datos se ajustan a una distribución de ley de potencia, donde pocos valores son muy altos y la mayoría son bajos (ej. calificaciones de películas, ventas de libros). También puede reducir el impacto de valores extremos. Sin embargo, no funciona con valores iguales o menores a cero.
Transformación de Raíz Cuadrada (Square Root Transform): Corresponde a un valor de lambda (λ) de 0.5. Implica tomar la raíz cuadrada de los datos. Puede ayudar a eliminar el sesgo de los datos.
Transformación Recíproca (Reciprocal Transform): Corresponde a un valor de lambda (λ) de -1.0. Implica tomar el recíproco de los datos (1/x). Es útil para normalizar datos o mitigar los efectos de valores extremos, especialmente en distribuciones sesgadas a la derecha, al comprimir los valores más grandes de manera más drástica. Requiere un manejo cuidadoso de los ceros (sumando un pequeño épsilon para evitar la división por cero) y los valores negativos.
Transformación Box-Cox: Requiere que los valores de entrada sean estrictamente positivos (mayores que 0). Si los datos contienen ceros o valores negativos, se puede aplicar un escalado Min-Max previo para convertirlos a valores positivos.
Transformación Yeo-Johnson: A diferencia de Box-Cox, no requiere que los valores de entrada sean estrictamente positivos; soporta ceros y valores negativos.

La elección de la transformación numérica va más allá de la normalización o estandarización simple y debe alinearse con la distribución intrínseca de los datos (por ejemplo, ley de potencia, sesgo) para optimizar la representación de la información para el modelo. Las transformaciones de potencia, como las logarítmicas, de raíz cuadrada, recíprocas, Box-Cox y Yeo-Johnson, se introducen específicamente para hacer que los datos se parezcan más a una distribución Gaussiana o para eliminar el sesgo. La transformación logarítmica se asocia con la «distribución de ley de potencia». Esto demuestra que el escalado no es una solución única para todos los casos, sino un espectro de técnicas. La elección depende de la distribución subyacente de los datos y de las suposiciones específicas del algoritmo de Machine Learning, lo que implica que se necesita una comprensión más profunda de las características de los datos para una representación óptima de las características.

¿Cuándo elegir normalización vs. estandarización?

La decisión entre normalización y estandarización no es arbitraria, sino que se basa en las propiedades estadísticas de los datos y las suposiciones subyacentes del algoritmo de Machine Learning.

Normalización: Es preferida cuando la distribución de los datos es desconocida o no Gaussiana. También es la elección adecuada cuando el algoritmo de Machine Learning que se va a utilizar no hace suposiciones sobre la distribución de los datos, como k-Nearest Neighbors (k-NN) y las redes neuronales.
Estandarización: Se prefiere cuando la distribución de los datos es Gaussiana o se asume que lo es. Es la opción más adecuada para algoritmos que asumen una distribución Gaussiana, como la regresión lineal y la regresión logística.

Esta distinción explícita en la elección de la técnica de escalado subraya que la decisión es deliberada e informada, requiriendo conocimiento tanto de las características de los datos como de la mecánica del algoritmo, en lugar de una simple preferencia.

Tratamiento de outliers (datos atípicos): Protegiendo la integridad del modelo

Los outliers, o datos atípicos, son puntos de datos que se desvían significativamente del resto del conjunto de datos. Su presencia puede deberse a errores de medición, fallos en la entrada de datos o, en algunos casos, a variaciones naturales y genuinas dentro de la población. La detección y el tratamiento de estos valores son cruciales, ya que pueden tener un impacto perjudicial en el rendimiento de los modelos de Machine Learning.

¿Qué son los outliers y su impacto en los modelos?

Los outliers no son meras «anomalías» sino amenazas directas a la validez estadística y la utilidad práctica de los modelos de Machine Learning, lo que justifica la inversión en su detección y tratamiento. Los fragmentos de investigación utilizan un lenguaje contundente para describir su impacto: «se desvían significativamente» , «interrumpen el entrenamiento del modelo» , y conducen a «modelos sesgados», «precisión reducida», «varianza aumentada» e «interpretabilidad reducida». Esto enfatiza que los outliers no son inconvenientes menores, sino amenazas fundamentales a los objetivos centrales del aprendizaje automático (predicciones precisas, fiables e interpretables). Esto eleva el manejo de outliers de un detalle técnico a un paso crítico de control de calidad en el pipeline de ML.

El impacto de los outliers en los modelos de Machine Learning se manifiesta de varias maneras:

Modelos Sesgados: Los outliers pueden distorsionar los patrones subyacentes en los datos, lo que lleva al modelo a aprender relaciones incorrectas o a dar una importancia indebida a estos puntos de datos extremos. Por ejemplo, en un modelo de regresión lineal, un solo outlier alejado de la tendencia general puede arrastrar drásticamente la línea de regresión hacia sí mismo, resultando en un modelo que representa pobremente a la mayoría de los datos.
Precisión Reducida: Los modelos de Machine Learning, especialmente aquellos sensibles a promedios o distancias (como la regresión lineal o k-Nearest Neighbors), experimentan una precisión reducida cuando los outliers están presentes. Los outliers pueden inflar o desinflar medidas estadísticas como la media y la desviación estándar, que muchos algoritmos utilizan como base para sus cálculos, lo que lleva a parámetros de modelo incorrectos y predicciones menos precisas.
Varianza Aumentada: La presencia de outliers incrementa la varianza dentro del conjunto de datos, lo que hace que el modelo sea menos estable y más susceptible al sobreajuste (overfitting). El sobreajuste ocurre cuando un modelo aprende demasiado bien el ruido y los detalles específicos de los datos de entrenamiento, incluyendo los outliers, lo que provoca un rendimiento deficiente en datos nuevos y no vistos.
Interpretabilidad Reducida: Cuando los outliers están presentes, las predicciones realizadas por el modelo se vuelven más difíciles de interpretar. Se vuelve un desafío distinguir entre patrones genuinos en los datos y el ruido introducido por estos puntos anómalos, lo que puede dificultar la comprensión de por qué un modelo hace ciertas predicciones y complicar los esfuerzos para explicar el comportamiento del modelo a las partes interesadas.

Tipos de outliers

Los outliers se pueden clasificar en diferentes categorías según su naturaleza y el contexto en el que aparecen:

Outliers Globales (Global Outliers): Son puntos de datos aislados que se encuentran muy lejos del cuerpo principal de los datos. Son los más fáciles de identificar visualmente.
Outliers Contextuales (Contextual Outliers): Son puntos de datos que son inusuales en un contexto específico, pero que podrían ser normales en un contexto diferente. Un ejemplo clásico es una temperatura alta, que es normal en verano pero anómala en invierno.
Outliers Colectivos (Collective Outliers): Se refieren a un conjunto de puntos de datos que, en conjunto, se comportan de manera diferente al resto del conjunto de datos. Individualmente, estos puntos pueden no parecer anómalos, pero cuando se consideran como un grupo, forman un patrón atípico.

Métodos de detección de outliers

La detección de outliers es vital para asegurar la calidad y precisión de los modelos de Machine Learning. Al identificar y manejar los outliers, se evita que sesguen el modelo, lo que reduce su rendimiento y dificulta su interpretabilidad.

Métodos Estadísticos: Son útiles para conjuntos de datos que siguen una distribución normal.
- Z-score: Este método calcula cuántas desviaciones estándar un punto de datos se aleja de la media. Típicamente, los puntos de datos con un Z-score que excede un umbral (generalmente ±3) se consideran outliers.
- Rango Intercuartílico (IQR): El IQR se calcula como la diferencia entre el tercer cuartil (Q3, percentil 75) y el primer cuartil (Q1, percentil 25) de los datos. Los outliers se identifican como puntos de datos que caen fuera del rango definido por Q1−k∗(Q3−Q1) y Q3+k∗(Q3−Q1), donde k es un factor, típicamente 1.5.
Métodos Basados en Distancia:
- K-Nearest Neighbors (KNN): Identifica outliers como puntos de datos cuyos K vecinos más cercanos están muy lejos de ellos. Un punto es un outlier si su distancia a su k-ésimo vecino más cercano es significativamente mayor que la de otros puntos.
- Local Outlier Factor (LOF): Este método calcula la densidad local de los puntos de datos y compara la densidad de un punto con la de sus vecinos. Identifica outliers como aquellos con una densidad significativamente menor en comparación con sus vecinos, lo que indica que están en una región de baja densidad.
Métodos Basados en Clustering:
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Agrupa los puntos de datos basándose en su densidad. Los outliers se identifican como puntos que no pertenecen a ningún clúster, es decir, están en regiones de baja densidad que no son lo suficientemente densas como para formar un clúster.
- Clustering Jerárquico: Implica construir una jerarquía de clústeres fusionando o dividiendo clústeres iterativamente basándose en su similitud. Los outliers pueden identificarse como clústeres que contienen un solo punto de datos o clústeres significativamente más pequeños que otros.
Otros Métodos:
- Isolation Forest: Este algoritmo aísla aleatoriamente puntos de datos dividiendo características. Los outliers son aquellos que se aíslan rápida y fácilmente con menos divisiones, ya que son pocos y están lejos de la mayoría de los datos.
- One-class Support Vector Machines (OCSVM): OCSVM aprende un límite alrededor de los datos «normales» en el espacio de características. Los puntos que caen fuera de este límite se identifican como outliers.

Técnicas de tratamiento de outliers

Una vez detectados, los outliers pueden ser tratados de diversas maneras para mitigar su impacto negativo en los modelos de Machine Learning.

Eliminación (Removal):
- Concepto: Implica identificar y eliminar los outliers del conjunto de datos antes de entrenar el modelo.
- Cuándo apropiado: Es el enfoque más directo y se reserva generalmente para errores claros en los datos (ej. errores de entrada) o cuando la influencia del outlier es desproporcionadamente grande y no aporta información útil.
- Riesgos: La eliminación puede llevar a una pérdida de información valiosa o a resultados sesgados si los outliers representan fenómenos genuinos o importantes.
Transformación:
- Concepto: Consiste en aplicar funciones matemáticas a los datos para reducir la influencia de los outliers sin eliminarlos.
- Métodos:
  - Logarítmica, Raíz Cuadrada, Recíproca, y Transformaciones de Potencia (Box-Cox, Yeo-Johnson): Estas transformaciones comprimen los datos, especialmente los valores extremos, reduciendo su impacto desproporcionado y ayudando a normalizar la distribución.
  - Winsorización (Capping): Reemplaza los valores de outlier que están por encima de un percentil superior (ej. percentil 95) con ese valor del percentil, y los valores por debajo de un percentil inferior (ej. percentil 5) con ese valor del percentil. Esto limita el rango de los datos sin eliminar las observaciones.
Estimación Robusta:
- Concepto: Implica el uso de algoritmos de Machine Learning que son inherentemente menos sensibles a la presencia de outliers.
- Ejemplos:
  - Regresión Robusta: Algoritmos como la regresión regularizada L1 (Lasso) o la regresión de Huber son menos influenciados por outliers que la regresión por mínimos cuadrados.
  - M-estimators: Estiman los parámetros del modelo basándose en una función objetivo robusta que pondera menos la influencia de los outliers.
  - Algoritmos de Clustering Insensibles a Outliers: DBSCAN, por ejemplo, es menos susceptible a la presencia de outliers que K-means, ya que los trata como ruido.
Modelado de Outliers:
- Concepto: En lugar de eliminar o transformar los outliers, esta técnica implica modelarlos explícitamente como un grupo separado.
- Métodos:
  - Añadir una característica indicadora: Crear una nueva característica binaria que señale si un punto de datos es un outlier o no. Esto permite que el modelo aprenda si la naturaleza de ser un outlier tiene un significado predictivo.
  - Uso de un modelo de mezcla: Entrenar un modelo que asume que los datos provienen de una mezcla de múltiples distribuciones, donde una de estas distribuciones representa específicamente los outliers.

Consideraciones éticas en el tratamiento de outliers

La decisión de tratar o no un outlier, y cómo hacerlo, no es puramente técnica, sino que tiene implicaciones éticas y de descubrimiento de conocimiento, ya que algunos outliers pueden ser información crítica y no solo «ruido». El tratamiento de outliers debe ser un proceso reflexivo y no automático, considerando el contexto y la causa subyacente del outlier. La eliminación indiscriminada de outliers puede descartar anomalías valiosas que podrían ser indicadores de fenómenos importantes, como signos de fraude, reacciones adversas inesperadas a medicamentos o cambios significativos en datos ambientales.

Por ejemplo, eliminar outliers de datos de contaminación sin investigar su causa podría enmascarar amenazas ecológicas significativas. De manera similar, las respuestas atípicas de pacientes a un tratamiento en el sector de la salud podrían revelar información crucial sobre efectos secundarios o nuevas vías terapéuticas, lo que sugiere que una eliminación apresurada podría llevar a descubrimientos perdidos. Esto pone de manifiesto que un enfoque puramente estadístico para la eliminación de outliers puede ser perjudicial, y que la experiencia en el dominio, junto con consideraciones éticas, es primordial para distinguir entre «ruido» y «señal» en puntos de datos extremos. La práctica ética exige transparencia sobre cómo se tratan los outliers y un reconocimiento de su impacto potencial en las conclusiones del análisis. El objetivo final es descubrir y comprender las verdades subyacentes dentro de los datos, en lugar de simplemente buscar datos más «limpios» o un análisis más fácil.

Conclusión

La ingeniería de características y el preprocesamiento de datos son etapas críticas y entrelazadas que transforman los datos crudos en información valiosa y predictiva, sentando las bases para la construcción de modelos de Machine Learning precisos, robustos y confiables. La calidad de las características de entrada es un determinante fundamental del rendimiento del modelo, y la inversión en estas fases iniciales es una inversión directa en la fiabilidad y explicabilidad de los resultados del Machine Learning.

Para un flujo de trabajo iterativo y efectivo en ingeniería de características, se recomiendan las siguientes mejores prácticas:

Conocer los datos: Es imperativo realizar un análisis exploratorio de datos (EDA) exhaustivo para comprender la distribución, el rango, los tipos de datos y el papel de cada variable en el conjunto de datos. Este conocimiento profundo es la base para tomar decisiones informadas sobre las técnicas de preprocesamiento y creación de características.
Proceso Iterativo: La ingeniería de características no es un proceso lineal que se realiza una sola vez, sino un ciclo iterativo que exige experimentación y pruebas continuas. Los profesionales deben estar preparados para refinar y mejorar las características basándose en el rendimiento del modelo.
Documentación Rigurosa: Es fundamental registrar todas las transformaciones y decisiones aplicadas a los datos. Una documentación clara asegura la transparencia, facilita la colaboración entre equipos y permite la reproducibilidad de los resultados en proyectos futuros.
Validación Constante: Después de cada etapa de limpieza y transformación, es crucial re-verificar las distribuciones y las estadísticas resumen de los datos. Esto confirma que los problemas identificados se han resuelto sin introducir nuevos errores o sesgos.
Conocimiento del Dominio: La aplicación efectiva de las técnicas de ingeniería de características debe guiarse por un profundo conocimiento del dominio del problema. Este conocimiento es clave para crear características significativas y evitar transformaciones inapropiadas que podrían distorsionar la información.
Evitar Errores Comunes: Se debe tener precaución para evitar errores frecuentes, como la sobre-imputación de valores faltantes, la eliminación indiscriminada de outliers sin comprender su causa, el preprocesamiento inconsistente entre los conjuntos de datos de entrenamiento, validación y prueba, y la omisión de comprobaciones lógicas en los datos.
Enfoque Holístico y Arquitecturas Modernas: Las arquitecturas modernas de datos, como el Data Lakehouse, no solo optimizan el almacenamiento y el procesamiento, sino que también crean un entorno propicio para una ingeniería de características más eficiente y robusta al consolidar datos y mejorar la gobernanza. Un Data Lakehouse, al unificar las capacidades de los data lakes y los data warehouses, simplifica la gestión de datos y reduce la duplicación. Esta consolidación y la mejora de la gobernanza de datos proporcionan una única fuente de verdad y herramientas integradas, lo que indirectamente apoya una mejor ingeniería de características al mitigar el problema del «basura entra» desde su origen. La sinergia arquitectónica que ofrece un Lakehouse facilita directamente una base de datos más limpia, accesible y mejor gobernada, lo que se traduce en una ingeniería de características más efectiva y, en última instancia, en modelos de Machine Learning más fiables.

——————————————–

Fuentes:

What is Feature Engineering?	https://h2o.ai/wiki/feature-engineering/#:~:text=Feature%20engineering%20is%20a%20machine,for%20supervised%20and%20unsupervised%20learning.
7 of the Most Used Feature Engineering Techniques	https://towardsdatascience.com/7-of-the-most-used-feature-engineering-techniques-bcc50f48474d/
Categorical Data Encoding Techniques in Machine Learning	https://www.geeksforgeeks.org/categorical-data-encoding-techniques-in-machine-learning/
When to Normalize or Standardize Data	https://www.secoda.co/learn/when-to-normalize-or-standardize-data
Exploring Outlier Detection Methods in Machine Learning Pipelines	https://www.numberanalytics.com/blog/exploring-outlier-detection-methods-in-machine-learning-pipelines
Feature Scaling	https://www.dremio.com/wiki/feature-scaling/
What is feature scaling, and why is it necessary when working with datasets?	https://milvus.io/ai-quick-reference/what-is-feature-scaling-and-why-is-it-necessary-when-working-with-datasets
Effective Strategies for Handling Missing Values in Data Analysis	https://www.analyticsvidhya.com/blog/2021/10/handling-missing-value/
What is Data Preprocessing in Machine Learning?	https://lakefs.io/blog/data-preprocessing-in-machine-learning/#:~:text=The%20major%20goal%20of%20data,useful%20for%20machine%20learning%20purposes.
¿Qué es el preprocesamiento de datos? Definición, conceptos, importancia, herramientas (2025)	https://www.astera.com/es/type/blog/data-preprocessing/
Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data	https://www.tableau.com/learn/articles/what-is-data-cleaning
Transforming Input Features for Machine Learning	https://www.quanthub.com/transforming-input-features-for-machine-learning/
How to Clean Data for Machine Learning Best Practices and Tools	https://www.udacity.com/blog/2025/01/how-to-clean-data-for-machine-learning-best-practices-and-tools.html
7 Essential Encoding Techniques for Categorical Data in Machine Learning	https://datasciencedojo.com/blog/categorical-data-encoding/
How to Detect Outliers in Machine Learning	https://www.appliedaicourse.com/blog/outliers-in-machine-learning/
Top 4 Techniques for Handling Missing Values in Machine Learning	https://blog.paperspace.com/top-4-techniques-for-handling-the-missing-values-in-machine-learning/