Imagen destacada del blog Análisis de componentes principales (ACP) 102.

Análisis de Componentes Principales (ACP) 102

Esta es nuestra segunda entrada del análisis de componentes principales (ACP) en Excel series. En este tutorial vamos a resumir nuestra discusión en la reducción de la dimensión usando un subconjunto de los componentes principales con una pérdida mínima de información.Vamos a utilizar NumXL y Excel para llevar a cabo nuestro análisis, examinando de cerca los diferentes elementos de salida en un intento de desarrollar una sólida comprensión de ACP, que preparará el camino a un tratamiento más avanzado en las ediciones futuras.

En este tutorial, seguiremos utilizando los datos socioeconómicos proporcionados por Harman (1976). Las cinco variables representan población total (“Población”), mediana de años escolares (“Escuela”), empleo total (“Empleo”), servicios profesionales diversos (“Servicios”) y valor mediano de vivienda. Cada observación representa uno de los doce tramos del censo en el área metropolitana estadística de Los Ángeles.

Proceso

Ahora estamos listos para realizar nuestro análisis de componentes principales en Excel. En primer lugar, seleccione una celda vacía en la hoja de cálculo en la que desea que se genere la salida, a continuación, busque y haga clic en el icono de componente principal (ACP) en la ficha NumXL (o barra de herramientas).

Aparecerá el Asistente de Regresión.

Seleccione el rango de celdas para los cinco valores de las variables de entrada.

Ahora, seleccione la pestaña “Opciones”.

Inicialmente, la pestaña se establece en los valores siguientes:

  • “Estandarizar entradas” está marcada. Deje esta opción marcada.
  • Se selecciona “Salida de componente principal”. Desmarque la casilla.
  • El nivel de significación (aka. $\alpha$) Se establece en 5%.
  • “Variables de entrada” está desmarcada. Marque esta opción.
  • Set “No. De PCs incluidos “a 3. Esta acción puede realizarse ahora o alterarse posteriormente en las tablas de resultados, ya que nuestras fórmulas son dinámicas.
  • En “Variables de entrada”, marque la opción “Valores”, por lo que las tablas de salida generadas incluyen un valor ajustado para las variables de entrada usando un conjunto reducido de componentes.

Ahora, haga clic en la pestaña “Valores faltantes”.

En esta pestaña o tab, puede seleccionar una aproximación para manejar valores faltantes en el conjunto de datos (X y Y). De forma predeterminada, cualquier valor perdido encontrado en cualquier observación excluiría la observación del análisis.

Este tratamiento es un buen enfoque para nuestro análisis, así que dejémoslo sin cambios.

Ahora, haga clic en “Aceptar” para generar las tablas de resultados.

Análisis

1. Estadística

En esta tabla, mostramos el porcentaje de varianza de cada variable de entrada que se contabilizó (también conocida como comunidad final) usando los primeros tres (3) factores. A diferencia de la proporción acumulada, esta estadística se relaciona a una variable de entrada a la vez.

Usando esta tabla, podemos detectar qué variables de entrada están mal presentadas (es decir, afectadas adversamente) por nuestra reducción de dimensión. En este ejemplo, la “mediana de años escolares” tiene el valor más bajo, sin embargo, la comunalidad final es todavía alrededor del 92%.

2. Cargas

En la tabla de carga, describimos las cargas del componente principal en cada variable de entrada:

Para calcular los valores de una variable de entrada usando valores de CP, usamos los pesos anteriores para transformarlos linealmente de nuevo. Por ejemplo, el factor de población se expresa de la siguiente manera:

$$\hat X_1=0.23PC_1-0.66PC_2-0.64PC_3$$

3. Valores ajustados

Usando los primeros tres (3) componentes principales, NumXL calcula el valor ajustado para cada variable de entrada:

Vamos a trazar la población (comunidad final más alta) y los años escolares medianos (comunidad final más baja) para los datos originales y para los ajustados.

Conclusión

En este tutorial, examinamos la propuesta de reducción de dimensión de 5 CPs a 3 CPs sin pérdida significativa de información.

¿Que hacemos ahora?

En los dos primeros tutoriales, nos enfocamos en entregar las ideas clave detrás del análisis de componentes principales y, hasta cierto punto, en la justificación detrás de la propuesta de reducción de dimensiones. Los datos de muestra socioeconómica de la sección transversal, aunque no una serie de tiempo, sirvieron para demostrar la teoría y para mostrar las diferentes tablas de salida de NumXL.

En la tercera entrada de esta serie, estamos listos para mirar en un conjunto de series de tiempo correlacionadas, aplicar la técnica de ACP para derivar un pequeño conjunto básico de conductores no correlacionados. A continuación, pronosticaremos los valores (media y error estándar) para los conductores no correlacionados, y utilizando las cargas del ACP, y deduciremos el pronóstico correspondiente (media y error) para cada variable de entrada.

Leave a Reply

Your email address will not be published. Required fields are marked *

We are glad you have chosen to leave a comment. Please keep in mind that comments are moderated according to our comment policy.