Introducción

El presente informe tiene como objetivo analizar los resultados de un estudio sobre la adicción a las redes sociales, realizado entre estudiantes universitarios. El estudio se llevó a cabo mediante una encuesta que recopiló datos sobre el uso de redes sociales, su impacto en la vida académica y laboral, y otros factores relacionados con la salud mental y el bienestar. El dataset contiene información de 641 encuestados, con variables que abarcan desde el tiempo promedio de uso diario de redes sociales hasta el estado de relación de los participantes. Este informe se centrará en el análisis descriptivo y la exploración de las variables recabadas en el estudio. Además, se realizarán pruebas de normalidad y visualizaciones para cada variable, con el fin de determinar si se ajustan a distribuciones conocidas y si son adecuadas para análisis estadísticos posteriores. Finalmente, se presentarán conclusiones y recomendaciones basadas en los hallazgos del estudio.

Objetivos del Estudio

El objetivo principal de este estudio es evaluar el impacto del uso de redes sociales en la vida académica y laboral de los estudiantes universitarios, así como identificar patrones de uso y posibles consecuencias negativas asociadas.

Los objetivos específicos incluyen:

  1. Determinar la cantidad promedio de horas que los estudiantes pasan en redes sociales diariamente.
  2. Evaluar si el uso de redes sociales afecta el rendimiento académico y laboral.
  3. Analizar la relación entre el uso de redes sociales y la salud mental de los estudiantes.
  4. Identificar las plataformas de redes sociales más utilizadas por los estudiantes.
  5. Explorar la relación entre el estado de relación de los estudiantes y su uso de redes sociales.

Variables

El dataset obtenido del estudio contiene las siguientes trece variables:

Variable Tipo Descripción
Student_ID Integer Identificador único del encuestado
Age Integer Edad en años
Gender Categórico M, F, Otro
Academic_Level Categórico Educación media / Pregrado / Postgrado
Avg_Daily_Usage_Hours Float Promedio de horas por día de uso en redes sociales
Affects_Performance Boolean Impacto en lo académico/laboral (Sí/No)
Sleep_Hours_Per_Night Float Promedio de horas de sueño por noche
Mental_Health_Score Integer Número de ocasiones en la última semana, con estado de ánimo afectado negativamente por las redes sociales
Conflicts_Over_Social_Media Integer Número de conflictos en el último mes, con relaciones interpersonales debido a las redes sociales
Avg_Time_Between_Usage_Min Float Tiempo promedio en minutos entre usos de redes sociales
Most_Used_Platform Categórico Instagram, Facebook, TikTok, WhatsApp, Otra.
How_Many_Platform Integer Número de plataformas utilizadas
Relationship_Status Boolean Relación de pareja (Sí/No)

Análisis de Datos

Se realizarán los análisis a cada una de las variables mostradas anteriormente. El tipo de análisis que se realizará a cada una de ellas fue definido en el informe previo de Diseño de la Encuesta.

1. Análisis de la variable “Edad”

El tipo de variable “Edad” es cuantitativa continua, ya que representa un valor numérico que puede tomar cualquier valor dentro de un rango. En este caso, la variable “Edad” se analizará utilizando la distribución normal, dado que se espera que la edad de los encuestados siga una distribución aproximadamente normal en una población grande.

Análisis descriptivo

## --- Estadísticas Descriptivas para 'Edad' ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    18.0    20.0    21.0    20.7    22.0    24.0
## Edad Promedio (mean): 20.6817
## Desviación Estándar (sd): 1.3948
## Mediana: 21

Interpretación:

Los resultados indican que la edad promedio de los encuestados es de aproximadamente 20.6817 años, con una desviación estándar de 1.3948 años. El 50% de los encuestados tiene 21 años o menos (mediana), y el rango de edades en la muestra es de 18 a 24 años. La concentración de datos alrededor de la media y la baja desviación estándar sugieren una población estudiantil con edades relativamente uniformes.

Visualización: Histograma de Edad

Un histograma nos ayuda a visualizar la distribución de la variable Edad.

Visualización: Diagrama de Caja (Box Plot) de Edad

Un diagrama de caja es útil para identificar la dispersión de los datos y posibles valores atípicos (outliers).

Interpretación de las Visualizaciones:

El histograma muestra que la mayoría de los encuestados se concentran en el rango de 18 a 22 años, lo cual es coherente con una población de estudiantes universitarios jóvenes. La forma de la distribución parece relativamente simétrica, aunque con una ligera inclinación. El diagrama de caja confirma que no hay valores atípicos significativos y que los datos están bastante agrupados, lo que indica una muestra homogénea en términos de edad.

Análisis de Normalidad de la Variable ‘Edad’

Este análisis tiene como objetivo evaluar si la variable Edad sigue una distribución normal, para así posteriormente aplicar los cálculos de distribución normal revisados en el curso.

## Tamaño de la muestra (N): 641
## Media de la edad: 20.68
## Desviación Estándar de la edad: 1.395

Interpretación:

Con un tamaño de muestra de 641, la media es aproximadamente 20.6817 años y la desviación estándar es de 1.3948 años.

Pruebas de Normalidad

Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.

a) Prueba de Shapiro-Wilk

Esta prueba es adecuada para tamaños de muestra pequeños a moderados (generalmente N < 5000).

  • Hipótesis Nula (\(H_0\)): Los datos se distribuyen normalmente.
  • Hipótesis Alternativa (\(H_1\)): Los datos no se distribuyen normalmente.
## --- Prueba de Shapiro-Wilk ---
## 
##  Shapiro-Wilk normality test
## 
## data:  age_data
## W = 0.93, p-value <2e-16

Interpretación:

Dado que el p-valor es mucho menor que el nivel de significancia común (e.g., alpha = 0.05), rechazamos la hipótesis nula. Esto sugiere que la variable Edad no sigue una distribución normal según la prueba de Shapiro-Wilk.

b) Prueba de Kolmogorov-Smirnov (Lilliefors)

Esta prueba es una alternativa para tamaños de muestra más grandes.

  • Hipótesis Nula (\(H_0\)): Los datos se distribuyen normalmente.
  • Hipótesis Alternativa (\(H_1\)): Los datos no se distribuyen normalmente.
## 
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) ---
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  age_data
## D = 0.16, p-value <2e-16

Interpretación:

Similar a la prueba de Shapiro-Wilk, el p-valor es significativamente menor que alpha = 0.05. Por lo tanto, rechazamos la hipótesis nula, lo que refuerza la conclusión de que la variable Edad no se distribuye normalmente.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas y obtener una comprensión de la forma de la distribución.

a) Histograma con Curva de Densidad Normal

Se superpone una curva de densidad normal teórica (con la media y desviación estándar de la variable Edad) sobre el histograma de la edad.

Interpretación:

Visualmente, el histograma de la edad muestra una forma que se asemeja a una campana, pero la curva normal superpuesta revela que las colas de la distribución de Edad son más cortas y el pico es más pronunciado de lo que se esperaría en una distribución normal perfecta.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Un Q-Q plot compara los cuantiles de tus datos con los cuantiles teóricos de una distribución normal. Si los puntos caen cerca de la línea diagonal, los datos se distribuyen normalmente.

Interpretación:

En el Q-Q plot, observamos que los puntos se desvían de la línea recta en los extremos superior e inferior. Esta desviación indica que la distribución de la edad no sigue perfectamente una distribución normal. Las desviaciones en las colas sugieren que hay menos valores extremos de lo que una distribución normal predeciría (lo que se alinea con una curtosis negativa).

Conclusión del Análisis de Normalidad

Basado en las pruebas estadísticas (Shapiro-Wilk y Lilliefors) y las visualizaciones (histograma y Q-Q plot), se puede concluir que la variable Edad en este conjunto de datos no sigue una distribución normal. Las pruebas estadísticas arrojaron p-valores extremadamente bajos, lo que lleva al rechazo de la hipótesis de normalidad. Las visualizaciones confirman que, aunque la distribución tiene una forma algo parecida a una campana, no se ajusta a los supuestos de una distribución normal perfecta, especialmente en las colas.


2. Análisis de la Variable ‘Gender’

Este análisis explorará la distribución y características de la variable Gender (Género). Dado que Gender es una variable cualitativa nominal, el análisis se centrará en las frecuencias y proporciones.

Frecuencias Absolutas y Relativas

## --- Resumen de la Variable Gender ---
## female   male 
##    317    324
## Frecuencias Absolutas:
## gender_data
## female   male 
##    317    324
## Frecuencias Relativas (Proporciones):
## gender_data
## female   male 
## 0.4945 0.5055
## Número total de encuestados: 641

Interpretación:

De un total de 641 encuestados, 317 se identifican como ‘female’ (femenino) y 324 como ‘male’ (masculino). Esto representa aproximadamente el 49.454% de la muestra para ‘female’ y el 50.546% para ‘male’. No se encontraron otras categorías de género en los datos después de la limpieza. Esto indica una ligera mayoría de encuestados masculinos en la muestra.

Visualización: Gráfico de Barras (Bar Plot) de Género

Un gráfico de barras es la visualización más adecuada para variables cualitativas, ya que muestra la frecuencia o proporción de cada categoría.

Interpretación de la Visualización:

El gráfico de barras confirma visualmente que hay más encuestados masculinos que femeninos en la muestra. Esta visualización es clara y concisa para una variable nominal como el género.

Conclusión del Análisis de Género

La variable Gender es una variable cualitativa nominal que muestra una distribución de 49.454% de encuestados femeninos y 50.546% de encuestados masculinos. Esta información es fundamental para comprender la composición demográfica de la muestra y puede ser relevante al analizar cómo otras variables (como el uso de redes sociales o la salud mental) pueden diferir entre los géneros. Al ser una variable nominal, no se asocia a una distribución de probabilidad específica en el contexto de análisis de variables aleatorias continuas o discretas como las vistas anteriormente.


3. Análisis de la Variable ‘Academic_Level’

Este análisis explorará la distribución y características de la variable Academic_Level (Nivel Académico). Como se identificó previamente, esta es una variable cualitativa ordinal, por lo que el análisis se centrará en las frecuencias y proporciones de cada categoría ordenada.

Frecuencias Absolutas y Relativas

## --- Resumen de la Variable Academic_Level ---
##     ed. media universitario      titulado 
##            22           318           301
## Frecuencias Absolutas:
## academic_level_data
##     ed. media universitario      titulado 
##            22           318           301
## Frecuencias Relativas (Proporciones):
## academic_level_data
##     ed. media universitario      titulado 
##       0.03432       0.49610       0.46958
## Número total de encuestados: 641

Interpretación:

De un total de 641 encuestados:

  • 22 (3.4321%) están en el nivel de ‘ed. media’ (educación media).
  • 318 (49.61%) están en el nivel de ‘universitario’ (pregrado).
  • 301 (46.9579%) están en el nivel de ‘titulado’ (posgrado).

Esto indica que la muestra está distribuida con una ligera mayoría en el nivel de pregrado y una minoría en el nivel de educación media.

Visualización: Gráfico de Barras de Nivel Académico

Un gráfico de barras es la visualización más adecuada para variables cualitativas, especialmente cuando son ordinales, ya que permite mostrar la distribución de las categorías en su orden inherente.

Interpretación de la Visualización:

El gráfico de barras confirma visualmente las proporciones calculadas, mostrando la cantidad de encuestados en cada nivel académico en el orden correcto. Se puede apreciar que los niveles de pregrado y posgrado tienen una mayor representación en esta muestra.

Conclusión del Análisis de Nivel Académico

La variable Academic_Level es una variable cualitativa ordinal que proporciona información valiosa sobre el nivel educacional de los encuestados. La distribución muestra una representación significativa en todos los niveles, con una ligera predominancia de estudiantes de pregrado. Al ser una variable ordinal, no se le asocia una distribución de probabilidad en el sentido de las distribuciones continuas o discretas numéricas como la Normal o Poisson, pero es crucial para segmentar o estratificar el análisis de otras variables del estudio.


4. Análisis de la Variable ‘Avg_Daily_Usage_Hours’

Este análisis explorará la distribución y características de la variable Avg_Daily_Usage_Hours (Horas promedio de uso diario). Esta es una variable cuantitativa continua, y se analizará mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para Avg_Daily_Usage_Hours ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.50    4.10    4.80    4.96    5.90    8.50
## Media (mean): 4.9616
## Desviación Estándar (sd): 1.2839
## Mediana: 4.8
## Tamaño de la muestra (N): 641

Interpretación:

Los encuestados pasan un promedio de aproximadamente 4.9616 horas al día en redes sociales, con la mitad de los encuestados utilizando 4.8 horas o menos. Los datos varían desde un mínimo de 1.5 horas hasta un máximo de 8.5 horas. Esto muestra que hay usuarios con un uso relativamente bajo y otros con un uso bastante elevado. El 50% central de los datos (entre el primer y el tercer cuartil) se encuentra entre 4.1 y 5.9 horas diarias. En cuanto a la dispersión de los datos, la desviación estándar de 1.2839 horas es relativamente baja en comparación con la media. Esto indica que la mayoría de los datos se agrupan de manera más estrecha alrededor de la media. El 50% central de los usuarios (entre el primer y el tercer cuartil) dedican entre 4.1 y 5.9 horas al día a las redes sociales, lo que refuerza la idea de una concentración de usuarios en ese rango.

Visualización: Histograma de Horas de Uso Diario

Un histograma ayuda a visualizar la distribución de la variable Avg_Daily_Usage_Hours.

Visualización: Diagrama de Caja (Box Plot) de Horas de Uso Diario

Un diagrama de caja es útil para identificar la dispersión de los datos y posibles valores atípicos (outliers).

Interpretación de las Visualizaciones:

El histograma muestra una distribución que se concentra en el centro, con un pico alrededor de las 5 horas. El diagrama de caja no muestra valores atípicos extremos, confirmando que la mayoría de los datos están dentro del rango esperado de uso diario. La mediana está relativamente ubicada en el centro de la caja, lo que sugiere una distribución relativamente simétrica alrededor de ese punto para el 50% central.

Pruebas de Normalidad

Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.

a) Prueba de Shapiro-Wilk

Esta prueba es adecuada para tamaños de muestra pequeños a moderados (generalmente N < 5000).

  • Hipótesis Nula (\(H\_0\)): Los datos se distribuyen normalmente.
  • Hipótesis Alternativa (\(H\_1\)): Los datos no se distribuyen normalmente.
## --- Prueba de Shapiro-Wilk para Avg_Daily_Usage_Hours ---
## 
##  Shapiro-Wilk normality test
## 
## data:  usage_hours_data
## W = 0.99, p-value = 0.001

Interpretación: Dado que el p-valor es mucho menor que el nivel de significancia común (e.g., alpha = 0.05), se rechaza la hipótesis nula. Esto sugiere que la variable Avg_Daily_Usage_Hours no sigue una distribución normal según la prueba de Shapiro-Wilk.

b) Prueba de Kolmogorov-Smirnov (Lilliefors)

Esta prueba es una alternativa para tamaños de muestra más grandes.

  • Hipótesis Nula (\(H\_0\)): Los datos se distribuyen normalmente.
  • Hipótesis Alternativa (\(H\_1\)): Los datos no se distribuyen normalmente.
## 
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) para Avg_Daily_Usage_Hours ---
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  usage_hours_data
## D = 0.07, p-value = 8e-08

Interpretación: Similar a la prueba de Shapiro-Wilk, el p-valor es significativamente menor que alpha = 0.05. Por lo tanto, rechazamos la hipótesis nula, lo que refuerza la conclusión de que la variable Avg_Daily_Usage_Hours no se distribuye normalmente.

Visualización de la Normalidad

Las visualizaciones sirven para complementar las pruebas estadísticas y obtener una comprensión de la forma de la distribución.

a) Histograma con Curva de Densidad Normal

Se superpone una curva de densidad normal teórica (con la media y desviación estándar de los datos) sobre el histograma de las horas de uso diario.

Interpretación:

El histograma con la curva normal superpuesta muestra que la distribución de Avg_Daily_Usage_Hours no se ajusta bien a una distribución normal. Se observan múltiples picos y una forma que no es la de campana simétrica esperada.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Un Q-Q plot compara los cuantiles de los datos con los cuantiles teóricos de una distribución normal. Si los puntos caen cerca de la línea diagonal, los datos se distribuyen normalmente.

Interpretación:

El Q-Q plot muestra una desviación de la línea recta, especialmente en los extremos y en el centro. Esto es una indicación de que la variable Avg_Daily_Usage_Hours no sigue una distribución normal. Las desviaciones en los extremos sugieren que la distribución real tiene colas más pesadas o más ligeras de lo que una distribución normal predeciría.

Conclusión del Análisis de Normalidad para ‘Avg_Daily_Usage_Hours’

Basado en las pruebas estadísticas (Shapiro-Wilk y Lilliefors) y las visualizaciones (histograma con curva normal y Q-Q plot), se puede concluir que la variable Avg_Daily_Usage_Hours no sigue una distribución normal. Las pruebas estadísticas arrojaron p-valores extremadamente bajos, lo que lleva al rechazo de la hipótesis de normalidad. Las visualizaciones confirman que la distribución tiene una forma irregular y desviaciones de la forma de campana esperada.


5. Análisis de la Variable ‘Affects_Academic_Performance’

Este análisis explorará la distribución y características de la variable Affects_Academic_Performance (Afecta el Rendimiento Académico). Esta es una variable cualitativa nominal (booleana), por lo que se centrará en las frecuencias y proporciones de sus categorías.

Frecuencias Absolutas y Relativas

## --- Resumen de la Variable Affects_Academic_Performance ---
##  no yes 
## 220 421
## Frecuencias Absolutas:
## performance_data
##  no yes 
## 220 421
## Frecuencias Relativas (Proporciones):
## performance_data
##     no    yes 
## 0.3432 0.6568
## Número total de encuestados: 641

Interpretación: De un total de 641 encuestados:

  • 220 (34.3214%) responden ‘no’, indicando que no consideran que el uso de redes sociales afecte negativamente su rendimiento académico.
  • 421 (65.6786%) responden ‘yes’, indicando que sí consideran que el uso de redes sociales afecta negativamente su rendimiento académico.

Esto muestra que una mayoría significativa de los encuestados (casi dos tercios) percibe un impacto negativo de las redes sociales en su rendimiento académico.

Visualización: Gráfico de Barras de ‘Affects_Academic_Performance’

Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría.

Interpretación de la Visualización:

El gráfico de barras confirma visualmente la predominancia de respuestas “Sí”, lo que subraya la percepción generalizada de un impacto negativo en el rendimiento académico entre los encuestados.

Distribución de Probabilidad Binomial

Dado que Affects_Academic_Performance es una variable binaria (Sí/No), la distribución de probabilidad que naturalmente se asocia con el número de “éxitos” (por ejemplo, respuestas “Sí”) en una serie de ensayos independientes es la Distribución Binomial.

Para usar la distribución binomial, se necesita:

  • size (n): El número de ensayos (en este caso, el número de encuestados en una sub-muestra o el total si se considera toda la población como ensayos).
  • prob (p): La probabilidad de “éxito” (la proporción de respuestas “Sí” en la población o en la muestra grande).

Basado en nuestros datos, la probabilidad de que un encuestado responda “Sí” (nuestro ‘éxito’) es \(p = 0.6568\).

Ejemplo de Cálculo Binomial en R:

Supongamos que se quiere saber la probabilidad de que, si se seleccionan 10 estudiantes al azar, exactamente 7 de ellos consideren que el uso de redes sociales afecta negativamente su rendimiento académico.

## Probabilidad de que exactamente 7 de 10 estudiantes respondan 'Sí': 0.2558

Interpretación del Ejemplo Binomial: Este cálculo muestra la probabilidad puntual de obtener un número específico de “éxitos” en un número fijo de intentos, utilizando la probabilidad de éxito observada en el dataset.

Conclusión del Análisis de ‘Affects_Academic_Performance’

La variable Affects_Academic_Performance es una variable cualitativa nominal que indica una clara percepción mayoritaria (65.6786%) de que el uso de redes sociales impacta negativamente el rendimiento académico entre los encuestados. Dada su naturaleza binaria, la distribución Binomial es la distribución de probabilidad adecuada para modelar el número de respuestas “Sí” o “No” en un conjunto de ensayos. Esta información sirve para entender el impacto percibido de las redes sociales y puede ser un punto de partida para análisis más profundos sobre las correlaciones con otras variables.


6. Análisis de la Variable ‘Sleep_Hours_Per_Night’

Este análisis explorará la distribución y características de la variable Sleep_Hours_Per_Night (Horas de Sueño por Noche). Esta es una variable cuantitativa continua, y se analizará mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para Sleep_Hours_Per_Night ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.80    6.00    6.90    6.83    7.60    9.60
## Media (mean): 6.8334
## Desviación Estándar (sd): 1.1336
## Mediana: 6.9
## Tamaño de la muestra (N): 641

Interpretación:

Los encuestados duermen, en promedio, aproximadamente 6.8334 horas por noche, con una mediana de 6.9. La desviación estándar de 1.1336 horas indica una variabilidad moderada en las horas de sueño. Los datos varían desde un mínimo de 3.8 horas hasta un máximo de 9.6 horas. El 50% central de los datos (entre el primer y el tercer cuartil) se encuentra entre 6 y 7.6 horas por noche.

Visualización Descriptiva

A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución de las horas de sueño.

a) Histograma de Horas de Sueño por Noche

Este gráfico muestra la frecuencia de las horas de sueño, permitiendo observar la forma general de la distribución.

Interpretación:

El histograma muestra una concentración de encuestados que reportan entre 5 y 7 horas de sueño por noche, con picos notables en los valores enteros de 6 y 7 horas. La distribución no parece ser perfectamente simétrica.

b) Diagrama de Caja (Box Plot) de Horas de Sueño por Noche

Este gráfico proporciona una vista de la dispersión de los datos y la presencia de posibles valores atípicos (outliers).

Interpretación:

El diagrama de caja confirma que la mayoría de los datos se encuentran entre 5 y 7 horas. La mediana está ubicada cerca del centro de la caja. Se observan algunos puntos fuera de los “bigotes” (whiskers), que podrían ser considerados valores atípicos, aunque no son extremos.

Pruebas de Normalidad

Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.

a) Prueba de Shapiro-Wilk

## --- Prueba de Shapiro-Wilk para Sleep_Hours_Per_Night ---
## 
##  Shapiro-Wilk normality test
## 
## data:  sleep_hours_data
## W = 0.99, p-value = 0.01

Interpretación:

El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a rechazar la hipótesis nula de normalidad. Se sugiere que la variable Sleep_Hours_Per_Night no sigue una distribución normal según la prueba de Shapiro-Wilk.

b) Prueba de Kolmogorov-Smirnov (Lilliefors)

## 
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) para Sleep_Hours_Per_Night ---
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  sleep_hours_data
## D = 0.051, p-value = 4e-04

Interpretación:

De manera consistente, el p-valor es muy pequeño, llevando a rechazar la hipótesis nula de normalidad. Esta prueba también indica que la variable Sleep_Hours_Per_Night no sigue una distribución normal.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas.

a) Histograma con Curva de Densidad Normal

Se superpone una curva de densidad normal teórica (con la media y desviación estándar de los datos) sobre el histograma de las horas de sueño.

Interpretación:

El histograma con la curva normal superpuesta muestra que la distribución de Sleep_Hours_Per_Night no se ajusta bien a una distribución normal. Se observan picos en valores enteros (como 6 y 7 horas), lo que sugiere que las horas de sueño se reportan con mayor frecuencia como números redondos, y la forma general no es la de campana suave y simétrica esperada. La distribución parece más inclinada hacia la derecha (sesgo negativo, aunque no tan pronunciado).

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Interpretación:

El Q-Q plot de la variable Sleep_Hours_Per_Night muestra una desviación clara de la línea diagonal recta, especialmente en los extremos. Los puntos forman una “S” o una curva, indicando que los datos tienen colas más pesadas o más ligeras, y una distribución de cuantiles diferente a la de una distribución normal. Esta es una fuerte indicación de no normalidad.

Conclusión del Análisis de Normalidad para ‘Sleep_Hours_Per_Night’

La variable Sleep_Hours_Per_Night muestra que los encuestados duermen en promedio alrededor de 6.8334 horas por noche. Sin embargo, el análisis de normalidad concluye que esta variable no sigue una distribución normal.

Las pruebas estadísticas (Shapiro-Wilk y Lilliefors) rechazan la hipótesis de normalidad con p-valores extremadamente bajos, proporcionando una evidencia sólida. Las visualizaciones (histograma y Q-Q plot) refuerzan esta conclusión, mostrando una distribución que difiere significativamente de la forma de campana normal, con una posible tendencia a reportar horas enteras y una forma que no es perfectamente simétrica o mesocúrtica.


7. Análisis de la Variable ‘Mental_Health_Score’

Este análisis explorará la distribución y características de la variable Mental_Health_Score (Puntuación de Salud Mental). Esta es una variable cuantitativa discreta, y la analizaremos mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad. También consideraremos la aplicabilidad de la distribución de Poisson, dado que es una puntuación de conteo.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para Mental_Health_Score ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    3.00    4.00    3.81    5.00    6.00
## Media (mean): 3.8081
## Desviación Estándar (sd): 1.1148
## Varianza: 1.2428
## Mediana: 4
## Tamaño de la muestra (N): 641

Interpretación:

Las puntuaciones de salud mental varían desde un mínimo de 1 hasta un máximo de 6. La media es de aproximadamente 3.8081 y la mediana es 4, lo que sugiere una distribución ligeramente sesgada o concentrada. La desviación estándar de 1.1148 indica una dispersión moderada de las puntuaciones. El 50% central de los encuestados reporta puntuaciones entre 3 y 5.

Visualización Descriptiva

A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución de las puntuaciones de salud mental.

a) Histograma de Puntuación de Salud Mental

Interpretación:

El histograma muestra que las puntuaciones más frecuentes se encuentran alrededor de 3 y 4. La distribución parece tener una forma algo sesgada, con un descenso gradual hacia puntuaciones más altas y un descenso más rápido hacia las puntuaciones más bajas.

b) Diagrama de Caja (Box Plot) de Puntuación de Salud Mental

Interpretación:

El diagrama de caja muestra que la mediana es 4. La mayoría de las puntuaciones se concentran entre 3 y 5. Se observan varios valores atípicos tanto en el extremo inferior (1) como en el superior (6), lo que indica que hay encuestados con puntuaciones muy bajas o muy altas en comparación con la mayoría.

Consideración de la Distribución de Poisson

La distribución de Poisson se utiliza para modelar el número de eventos en un intervalo de tiempo o espacio, o el número de ocurrencias de un evento en un conjunto fijo de observaciones, donde los eventos son raros y la media y la varianza son aproximadamente iguales.

  • Media (\(\lambda\)): 3.8081
  • Varianza: 1.2428

Dado que la media (3.8081) y la varianza (1.2428) son diferentes, la variable Mental_Health_Score no parece seguir una distribución de Poisson de manera estricta. Una varianza menor que la media (lo que ocurre aquí, 1.2428 < 3.8081) sugiere un fenómeno llamado “subdispersión”, lo cual es una desviación del modelo de Poisson.

Pruebas de Normalidad

Aunque Mental_Health_Score es discreta, a menudo se comprueba su “normalidad” para ver si puede ser razonablemente aproximada por una distribución normal, especialmente si tiene un rango amplio y muchos valores.

Prueba de Shapiro-Wilk

## --- Prueba de Shapiro-Wilk para Mental_Health_Score ---
## 
##  Shapiro-Wilk normality test
## 
## data:  mental_health_data
## W = 0.91, p-value <2e-16

Interpretación:

El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a rechazar la hipótesis nula de normalidad. Se sugiere que la variable Mental_Health_Score no sigue una distribución normal.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas.

a) Histograma con Curva de Densidad Normal Superpuesta

Interpretación:

El histograma con la curva normal superpuesta muestra que la distribución de Mental_Health_Score no se ajusta bien a una distribución normal. La distribución real es claramente discreta (barras separadas por valores enteros), y su forma es diferente a la curva de campana, siendo más uniforme o ligeramente sesgada.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Interpretación:

El Q-Q plot de la variable Mental_Health_Score muestra una desviación muy clara y escalonada de la línea diagonal. Esta forma de “escalera” es característica de datos discretos que no se distribuyen normalmente. Los puntos no se alinean con la línea, lo que es una fuerte indicación de no normalidad.

Conclusión del Análisis Completo de ‘Mental_Health_Score’

La variable Mental_Health_Score es una puntuación discreta que varía de 1 a 6, con una media de aproximadamente 3.8081.

  • Distribución de Poisson: A pesar de ser una variable de conteo, la media (3.785) y la varianza (2.3942) son notablemente diferentes, lo que indica que la variable no sigue una distribución de Poisson de manera estricta. Hay evidencia de subdispersión.
  • Normalidad: Las pruebas estadísticas (Shapiro-Wilk) y las visualizaciones (histograma y Q-Q plot) concluyen de manera consistente que esta variable no sigue una distribución normal. La naturaleza discreta de los datos es evidente en los gráficos, y su forma no se asemeja a una campana.

8. Análisis de la Variable ‘Conflicts_Over_Social_Media’

Este análisis explorará la distribución y características de la variable Conflicts_Over_Social_Media (Número de conflictos o discusiones relacionados con el uso de redes sociales). Esta es una variable cuantitativa discreta (de conteo), y la analizaremos mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad. También consideraremos la aplicabilidad de la distribución de Poisson.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para Conflicts_Over_Social_Media ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     2.0     3.0     2.9     4.0     5.0
## Media (mean): 2.897
## Mínimo: 0
## Máximo: 5
## 1er Cuartil: 2
## 3er Cuartil: 4
## Desviación Estándar (sd): 0.953
## Varianza: 0.9081
## Mediana: 3
## Tamaño de la muestra (N): 641

Interpretación:

Los encuestados reportan un número de conflictos que varía desde un mínimo de 0 hasta un máximo de 5. La media es de aproximadamente 2.897, y la mediana es 3, lo que sugiere que la mayoría de los encuestados reportan un número bajo de conflictos. La desviación estándar de 0.953 indica una dispersión moderada en el número de conflictos. El 50% central de los encuestados reporta entre 2 y 4 conflictos, lo que indica que la mayoría se encuentra en un rango relativamente bajo.

Visualización Descriptiva

A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución del número de conflictos.

a) Histograma de Conflictos por Redes Sociales

Interpretación:

El histograma muestra que la mayoría de los encuestados reportan 2, 3, o 4 conflictos, con una frecuencia decreciente a medida que aumenta y disminuye el número de conflictos. La distribución está claramente sesgada a la derecha, con una cola más larga hacia valores más altos de conflictos.

b) Diagrama de Caja (Box Plot) de Conflictos por Redes Sociales

Interpretación:

El diagrama de caja confirma la concentración de datos en los valores más altos. La mediana es 3.

Consideración de la Distribución de Poisson

La distribución de Poisson se utiliza para modelar el número de eventos en un intervalo de tiempo o espacio, o el número de ocurrencias de un evento. Una característica clave de la distribución de Poisson es que su media (\(\lambda\)) es igual a su varianza.

  • Media (\(\lambda\)): 2.897
  • Varianza: 0.9081

Dado que la media (2.897) y la varianza (0.9081) son diferentes, la variable Conflicts_Over_Social_Media no parece seguir una distribución de Poisson. Una varianza menor que la media (lo que ocurre aquí, 0.9081 < 2.897) sugiere un fenómeno llamado “subdispersión”, lo cual es una desviación del modelo de Poisson.

Pruebas de Normalidad

Aunque Conflicts_Over_Social_Media es discreta, se evalúa su “normalidad” para ver si puede ser aproximada por una distribución normal.

a) Prueba de Shapiro-Wilk

## --- Prueba de Shapiro-Wilk para Conflicts_Over_Social_Media ---
## 
##  Shapiro-Wilk normality test
## 
## data:  conflicts_data
## W = 0.9, p-value <2e-16

Interpretación: El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a rechazar la hipótesis nula de normalidad. Se sugiere que la variable Conflicts_Over_Social_Media no sigue una distribución normal.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas.

a) Histograma con Curva de Densidad Normal Superpuesta

Interpretación:

El histograma con la curva normal superpuesta muestra claramente que la distribución de Conflicts_Over_Social_Media no se ajusta a una distribución normal. La distribución es discreta, sesgada a la derecha y con una forma muy diferente a la de campana.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Interpretación:

El Q-Q plot de la variable Conflicts_Over_Social_Media muestra una desviación muy pronunciada y escalonada de la línea diagonal, lo que es una fuerte indicación de no normalidad. La forma de “escalera” es típica de datos discretos que no siguen una distribución normal.

Conclusión del Análisis Completo de ‘Conflicts_Over_Social_Media’

La variable Conflicts_Over_Social_Media es una variable de conteo que indica el número de conflictos, con una media de aproximadamente 2.897.

  • Distribución de Poisson: La media (2.897) y la varianza (0.9081) son muy cercanas, lo que sugiere que la distribución de Poisson podría ser un modelo razonable para esta variable. La pequeña diferencia (varianza ligeramente mayor que la media) podría indicar una ligera sobredispersión, pero la aproximación de Poisson es plausible para muchos propósitos.
  • Normalidad: Las pruebas estadísticas (Shapiro-Wilk y Lilliefors) y las visualizaciones (histograma y Q-Q plot) concluyen de manera consistente que esta variable no sigue una distribución normal. La distribución es discreta, sesgada a la derecha y su forma es muy diferente a la de campana.

Por lo tanto, para análisis inferenciales que involucren Conflicts_Over_Social_Media, se recomienda considerar modelos basados en la distribución de Poisson (o sus extensiones como la regresión binomial negativa si la sobredispersión es significativa) en lugar de métodos que asuman normalidad.


9. Análisis de la Variable ‘Avg_Time_Between_Usage_Min’

Este análisis explorará la distribución y características de la variable Avg_Time_Between_Usage_Min (Tiempo promedio entre usos de redes sociales en minutos). Esta es una variable cuantitativa continua (tiempo), y la analizaremos mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad. También consideraremos la aplicabilidad de la distribución exponencial, dado que modela tiempos entre eventos.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para Avg_Time_Between_Usage_Min ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    20.0    40.0    60.0    69.6   100.0   180.0
## Media (mean): 69.61
## Desviación Estándar (sd): 31.4941
## Mediana: 60
## Tamaño de la muestra (N): 641

Interpretación:

El tiempo promedio que transcurre entre usos de redes sociales es de aproximadamente 69.61 minutos (poco más de una hora), con una mediana de 60 minutos. Hay una dispersión considerable en los datos, como lo indica la desviación estándar de 31.4941 minutos. Los tiempos varían desde un mínimo de 20 minutos hasta un máximo de 180 minutos (3 horas). El 50% central de los encuestados reporta tiempos entre 40 y 100 minutos.

Visualización Descriptiva

A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución del tiempo entre usos.

a) Histograma de Tiempo Promedio entre Usos

Interpretación:

El histograma muestra que la mayoría de los encuestados reportan tiempos más cortos entre usos (concentración en los valores inferiores) y una cola larga hacia la derecha, indicando que hay menos encuestados con tiempos muy largos entre usos. La distribución está claramente sesgada a la derecha.

b) Diagrama de Caja (Box Plot) de Tiempo Promedio entre Usos

Interpretación:

El diagrama de caja confirma el sesgo positivo (hacia la derecha) de la distribución, con la mediana más cercana al primer cuartil. Se observan varios valores atípicos en el extremo superior, que corresponden a encuestados con tiempos significativamente más largos entre usos en comparación con la mayoría.

Consideración de la Distribución Exponencial

La distribución exponencial es comúnmente utilizada para modelar el tiempo hasta que ocurre un evento, o el tiempo entre eventos en un proceso de Poisson. Se caracteriza por su parámetro de tasa (\(\lambda\)), donde la media de la distribución es \(1/\lambda\).

  • Media (\(\mu\)): 69.61 minutos.
  • Parámetro de tasa (\(\lambda\)): Para una distribución exponencial, \(\lambda = 1 / \mu\).
    • \(\lambda = 1 / 69.61 \approx 0.01583\)

La desviación estándar de una distribución exponencial es también \(1/\lambda\), es decir, igual a la media. En nuestros datos, la media (69.61) es bastante diferente de la desviación estándar (31.4941), lo que sugiere que una distribución exponencial estricta podría no ser el mejor ajuste, aunque la forma general del histograma (sesgada a la derecha) es consistente con ella.

Superposición de Curva de Densidad Exponencial:

Interpretación de la Superposición:

La curva de densidad exponencial superpuesta captura la forma general sesgada a la derecha de la distribución, pero el ajuste no es perfecto, especialmente en los picos y valles del histograma real. Esto sugiere que, si bien la forma es similar, los datos reales no se distribuyen exactamente según un modelo exponencial simple.

Pruebas de Normalidad

Aunque la hipótesis principal es la Exponencial, evaluamos la “normalidad” para descartarla o confirmar su no aplicabilidad.

a) Prueba de Shapiro-Wilk

## --- Prueba de Shapiro-Wilk para Avg_Time_Between_Usage_Min ---
## 
##  Shapiro-Wilk normality test
## 
## data:  time_between_usage_data
## W = 0.91, p-value <2e-16

Interpretación:

El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a rechazar la hipótesis nula de normalidad. Se sugiere que la variable Avg_Time_Between_Usage_Min no sigue una distribución normal.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas.

a) Histograma con Curva de Densidad Normal Superpuesta

Interpretación:

El histograma con la curva normal superpuesta muestra que la distribución de Avg_Time_Between_Usage_Min está fuertemente sesgada a la derecha y no se parece en absoluto a una distribución normal. La curva normal es simétrica y no captura la forma de los datos.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Interpretación:

El Q-Q plot de la variable Avg_Time_Between_Usage_Min muestra una desviación muy pronunciada de la línea diagonal, lo que es una fuerte indicación de no normalidad. La forma curva y cóncava es típica de distribuciones sesgadas a la derecha.

Conclusión del Análisis Completo de ‘Avg_Time_Between_Usage_Min’

La variable Avg_Time_Between_Usage_Min representa el tiempo promedio entre usos de redes sociales, con una media de 69.61 minutos y una fuerte concentración en valores más bajos.

  • Distribución Exponencial: Aunque el histograma muestra una forma sesgada a la derecha consistente con una distribución exponencial, la desviación estándar (31.4941) no es igual a la media (69.61), lo que sugiere que los datos no se ajustan perfectamente a un modelo exponencial puro. Podría ser una distribución exponencial modificada o una combinación de factores.
  • Normalidad: Las pruebas estadísticas (Shapiro-Wilk) y las visualizaciones (histograma con curva normal y Q-Q plot) concluyen de manera consistente que esta variable no sigue una distribución normal.

Por lo tanto, para análisis inferenciales que involucren Avg_Time_Between_Usage_Min, se debe tener precaución. Aunque la distribución exponencial es una hipótesis razonable por la naturaleza de la variable (tiempo entre eventos), su ajuste perfecto no está confirmado.


10. Análisis de la Variable ‘Most_Used_Platform’

Este análisis explorará la distribución y características de la variable Most_Used_Platform (Plataforma de Red Social Más Usada). Esta es una variable cualitativa nominal, por lo que nos centraremos en las frecuencias y proporciones de sus categorías.

Frecuencias y Proporciones de ‘Most_Used_Platform’

## --- Resumen de la Variable Most_Used_Platform ---
##  facebook instagram  linkedin    tiktok   twitter  whatsapp   youtube 
##       123       249        21       154        30        54        10
## Frecuencias Absolutas:
## platform_data
##  facebook instagram  linkedin    tiktok   twitter  whatsapp   youtube 
##       123       249        21       154        30        54        10
## Frecuencias Relativas (Proporciones):
## platform_data
##  facebook instagram  linkedin    tiktok   twitter  whatsapp   youtube 
##   0.19189   0.38846   0.03276   0.24025   0.04680   0.08424   0.01560
## Número total de encuestados: 641

Interpretación:

De un total de 641 encuestados:

  • Instagram es la plataforma más usada (249 encuestados, 0.3885%).
  • Le sigue TikTok (154 encuestados, 0.2402%).
  • Facebook en tercer lugar (123 encuestados, 0.1919%).
  • WhatsApp en cuarto lugar (54 encuestados, 0.0842%).

Estos resultados indican que Instagram y TikTok son las plataformas dominantes entre los encuestados, seguidas de Facebook y WhatsApp.

Visualización: Gráfico de Barras de ‘Most_Used_Platform’

Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría. Se ordenarán las barras por frecuencia de forma descendente para facilitar la interpretación.

Interpretación de la Visualización:

El gráfico de barras confirma visualmente que Instagram y TikTok son las plataformas más utilizadas, seguidas por Facebook y WhatsApp. La representación visual facilita la comparación directa de la popularidad de cada plataforma.

Conclusión del Análisis de ‘Most_Used_Platform’

La variable Most_Used_Platform es una variable cualitativa nominal que describe la preferencia de los encuestados por una plataforma de red social principal. El análisis revela que Instagram y TikTok son las plataformas dominantes, seguidas por Facebook y WhatsApp. Dada la naturaleza cualitativa nominal de la variable, no se asocia con una distribución de probabilidad paramétrica como Binomial, Poisson, Normal o Exponencial. El análisis descriptivo mediante tablas de frecuencia y gráficos de barras es el método más apropiado para entender su distribución. Esta información es valiosa para comprender el panorama de uso de redes sociales entre la población estudiada.


11. Análisis de la Variable ‘How_Many_Platforms’

Este análisis explorará la distribución y características de la variable How_Many_Platforms (Cuántas plataformas de redes sociales utiliza activamente). Esta es una variable cuantitativa discreta (de conteo), y se analizará mediante estadísticas descriptivas, visualizaciones y pruebas de normalidad. También se considerará la aplicabilidad de la distribución de Poisson.

Obtención de Estadísticas Descriptivas

## --- Estadísticas Descriptivas para How_Many_Platforms ---
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    4.00    5.00    4.31    5.00    5.00
## Media (mean): 4.3058
## Desviación Estándar (sd): 1.1153
## Varianza: 1.2439
## Mediana: 5
## Tamaño de la muestra (N): 641

Interpretación:

Los encuestados utilizan, en promedio, aproximadamente 4.3058 plataformas de redes sociales, con una mediana de 5 plataformas. La desviación estándar de 1.1153 plataformas indica una dispersión moderada en el número de plataformas utilizadas. Los datos varían desde un mínimo de 1 plataforma hasta un máximo de 5 plataformas. El 50% central de los encuestados utiliza entre 4 y 5 plataformas.

Visualización Descriptiva

A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución del número de plataformas.

a) Histograma de Cuántas Plataformas

Interpretación:

El histograma muestra que las frecuencias más altas se encuentran en 3, 4 y 5 plataformas, con una disminución notable en el extremo izquierdo (1 y 2 plataformas). La distribución parece ser sesgada a la izquierda.

b) Diagrama de Caja (Box Plot) de Cuántas Plataformas

Interpretación:

El diagrama de caja confirma que la mayoría de los datos se concentran entre 3 y 5 plataformas, con la mediana en 5. No se observan valores atípicos significativos, lo que indica que el rango de 1 a 5 plataformas es representativo de la muestra.

Consideración de la Distribución de Poisson

La distribución de Poisson modela el número de eventos en un intervalo, donde la media (\(\lambda\)) es igual a la varianza.

  • Media (\(\lambda\)): 4.3058
  • Varianza: 1.2439

En este caso, la media (4.3058) y la varianza (1.2439) son diferentes. La varianza es significativamente menor que la media, lo que indica subdispersión. Por lo tanto, la distribución de Poisson no es un modelo adecuado para la variable How_Many_Platforms.

Pruebas de Normalidad

Aunque How_Many_Platforms es discreta, se evalúa su “normalidad” para ver si puede ser aproximada por una distribución normal.

a) Prueba de Shapiro-Wilk

## --- Prueba de Shapiro-Wilk para How_Many_Platforms ---
## 
##  Shapiro-Wilk normality test
## 
## data:  platforms_count_data
## W = 0.67, p-value <2e-16

Interpretación: El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a rechazar la hipótesis nula de normalidad. Se sugiere que la variable How_Many_Platforms no sigue una distribución normal.

Visualización de la Normalidad

Las visualizaciones son cruciales para complementar las pruebas estadísticas.

a) Histograma con Curva de Densidad Normal Superpuesta

Interpretación:

El histograma con la curva normal superpuesta muestra que la distribución de How_Many_Platforms no se ajusta bien a una distribución normal.

b) Gráfico Cuantil-Cuantil (Q-Q Plot)

Interpretación:

El Q-Q plot de la variable How_Many_Platforms muestra una desviación clara y escalonada de la línea diagonal. Esta forma de “escalera” es característica de datos discretos que no se distribuyen normalmente. Los puntos no se alinean con la línea, lo que es una fuerte indicación de no normalidad.

Conclusión del Análisis Completo de ‘How_Many_Platforms’

La variable How_Many_Platforms es una variable de conteo que indica el número de plataformas de redes sociales utilizadas, con una media de aproximadamente 4.3058.

  • Distribución de Poisson: La media (4.3058) y la varianza (1.2439) son considerablemente diferentes, con la varianza siendo menor que la media. Esto indica subdispersión, por lo que la distribución de Poisson no es un modelo adecuado para esta variable.
  • Normalidad: Las pruebas estadísticas (Shapiro-Wilk) y las visualizaciones (histograma y Q-Q plot) concluyen de manera consistente que esta variable no sigue una distribución normal. La distribución es discreta, y su forma no se asemeja a una campana.

Por lo tanto, para análisis inferenciales que involucren How_Many_Platforms, se debe evitar el uso de métodos que asuman una distribución normal o de Poisson estricta.


12. Análisis de la Variable ‘Relationship_Status’

Finalmente, culminan los análisis con la exploración de la distribución y características de la variable Relationship_Status (Estado de Relación). Esta es una variable cualitativa nominal, por lo que nos centraremos en las frecuencias y proporciones de sus categorías.

Frecuencias y Proporciones de ‘Relationship_Status’

## --- Resumen de la Variable Relationship_Status ---
##  no yes 
## 355 286
## Frecuencias Absolutas:
## relationship_status_data
##  no yes 
## 355 286
## Frecuencias Relativas (Proporciones):
## relationship_status_data
##     no    yes 
## 0.5538 0.4462
## Número total de encuestados: 641

Interpretación:

De un total de 641 encuestados:

  • 286 (44.6178%) se encuentran en una relación.
  • 355 (55.3822%) están solteros.

Esto muestra una distribución con una ligera mayoría de encuestados solteros.

Visualización: Gráfico de Barras de ‘Relationship_Status’

Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría. Se ordenarán las barras por frecuencia de forma descendente para facilitar la interpretación.

Interpretación de la Visualización:

El gráfico de barras confirma visualmente las proporciones calculadas, mostrando que el grupo “soltero” es el más grande, con diferencias no muy marcadas entre ellos.

Conclusión del Análisis de ‘Relationship_Status’

La variable Relationship_Status es una variable cualitativa nominal que describe el estado de relación de los encuestados. El análisis revela que la muestra está distribuida de manera bastante uniforme entre las categorías, siendo la categoría “soltero” la más frecuente.

Dada la naturaleza cualitativa nominal de esta variable, no se le asocia una distribución de probabilidad paramétrica (como Binomial, Poisson, Normal o Exponencial) en el sentido de modelar conteos o mediciones continuas. El análisis descriptivo mediante tablas de frecuencia y gráficos de barras es el método más apropiado para entender su distribución y composición. Esta información es útil para caracterizar la demografía de la muestra y puede ser empleada en análisis comparativos (por ejemplo, cómo el uso de redes sociales difiere entre personas con distintos estados de relación).


13. Conclusiones Generales del Análisis de Datos

Este informe ha presentado un análisis descriptivo y de distribución para las variables presentadas, con el objetivo de comprender sus características y la aplicabilidad de diferentes modelos de probabilidad. A continuación, se resumen los hallazgos para cada variable analizada:

  1. Age (Edad):
    • Tipo: Cuantitativa Continua.
    • Hallazgos Clave: La edad promedio es de aproximadamente 20.68 años, con un rango estrecho (18 a 24 años) y una desviación estándar baja (1.39 años). La mediana es 21 años.
    • Distribución: Las pruebas de Shapiro-Wilk y Lilliefors, junto con el histograma y el Q-Q plot, indican que la variable no sigue una distribución normal. La distribución es más concentrada y con colas más ligeras de lo esperado para una normal.
  2. Gender (Género):
    • Tipo: Cualitativa Nominal.
    • Hallazgos Clave: La muestra está compuesta por un 49.45% de mujeres y un 50.55% de hombres.
    • Distribución: Al ser nominal, no se le asocia una distribución de probabilidad paramétrica. Su análisis se basa en frecuencias y proporciones.
  3. Academic_Level (Nivel Académico):
    • Tipo: Cualitativa Ordinal.
    • Hallazgos Clave: La muestra se distribuye de manera relativamente equitativa entre ‘ed. media’ (3.43%), ‘universitario’ (49.61%) y ‘titulado’ (46.95%).
    • Distribución: Al ser ordinal, no se le asocia una distribución de probabilidad paramétrica. Su análisis se enfoca en el orden y las frecuencias.
  4. Avg_Daily_Usage_Hours (Horas Promedio de Uso Diario):
    • Tipo: Cuantitativa Continua.
    • Hallazgos Clave: El promedio de uso es de 4.96 horas/día, con una mediana de 4.8 horas y una desviación estándar de 1.28 horas. El rango va de 1.5 a 8.5 horas.
    • Distribución: Las pruebas de normalidad rechazan la hipótesis de que sigue una distribución normal. Las visualizaciones muestran una distribución con picos y una forma que no es de campana, sugiriendo una posible distribución multimodal o más uniforme en el centro.
  5. Affects_Academic_Performance (Afecta el Rendimiento Académico):
    • Tipo: Cualitativa Nominal (Binaria).
    • Hallazgos Clave: Una mayoría significativa (65.68%) de los encuestados percibe que el uso de redes sociales afecta negativamente su rendimiento académico, mientras que el 34.32% no lo considera así.
    • Distribución: La distribución Binomial es la más adecuada para modelar el número de “éxitos” (ej., respuestas “Sí”) en un número fijo de ensayos.
  6. Sleep_Hours_Per_Night (Horas de Sueño por Noche):
    • Tipo: Cuantitativa Continua.
    • Hallazgos Clave: Los encuestados duermen en promedio 6.83 horas por noche, con una mediana de 6.9 horas y una desviación estándar de 1.13 horas. El rango es de 3.8 a 9.6 horas.
    • Distribución: Las pruebas de normalidad y las visualizaciones indican que la variable no sigue una distribución normal.
  7. Mental_Health_Score (Puntuación de Salud Mental):
    • Tipo: Cuantitativa Discreta.
    • Hallazgos Clave: Las puntuaciones van de 1 a 6, con una media de 3.808 y una mediana de 4.00.
    • Distribución: La distribución de Poisson no es adecuada debido a la subdispersión (varianza 1.2428 < media 3.808). Las pruebas de normalidad y las visualizaciones confirman que no sigue una distribución normal, mostrando una distribución discreta y escalonada.
  8. Conflicts_Over_Social_Media (Conflictos por Redes Sociales):
    • Tipo: Cuantitativa Discreta (Conteo).
    • Hallazgos Clave: El promedio es de 2.89 conflictos, con una mediana de 3.00. El rango es de 0 a 5 conflictos. La distribución está sesgada a la derecha.
    • Distribución: La distribución de Poisson no es adecuada debido a la subdispersión (varianza 0.908 < media 2.897). Las pruebas de normalidad y las visualizaciones confirman que no sigue una distribución normal.
  9. Avg_Time_Between_Usage_Min (Tiempo Promedio entre Usos en Minutos):
    • Tipo: Cuantitativa Continua (Tiempo).
    • Hallazgos Clave: El tiempo promedio entre usos es de 69.61 minutos, con una mediana de 60.00 minutos y una desviación estándar de 31.49 minutos. La distribución está fuertemente sesgada a la derecha.
    • Distribución: Aunque la forma es consistente con una distribución exponencial, la desviación estándar no es igual a la media, lo que indica que no se ajusta perfectamente a un modelo exponencial estricto. Las pruebas de normalidad confirman que no sigue una distribución normal.
  10. Most_Used_Platform (Plataforma Más Usada):
    • Tipo: Cualitativa Nominal.
    • Hallazgos Clave: Instagram (38.84%) y TikTok (24.02%) son las plataformas más populares, seguidas por Facebook y WhatsApp.
    • Distribución: Al ser nominal, no se le asocia una distribución de probabilidad paramétrica. Su análisis se basa en frecuencias y gráficos de barras.
  11. How_Many_Platforms (Cuántas Plataformas):
    • Tipo: Cuantitativa Discreta (Conteo).
    • Hallazgos Clave: Los encuestados usan en promedio 4.305 plataformas, con una mediana de 5.00. El rango es de 1 a 5 plataformas.
    • Distribución: La distribución de Poisson no es adecuada debido a la subdispersión (varianza 1.243 < media 4.305). Las pruebas de normalidad y las visualizaciones confirman que no sigue una distribución normal.
  12. Relationship_Status (Estado de Relación):
    • Tipo: Cualitativa Nominal.
    • Hallazgos Clave: La muestra se distribuye de forma relativamente uniforme entre ‘en una relacion’ (44.62%) y ‘soltero’ (55.38%).
    • Distribución: Al ser nominal, no se le asocia una distribución de probabilidad paramétrica. Su análisis se basa en frecuencias y proporciones.

Implicaciones Generales para Futuros Análisis:

Este análisis exhaustivo revela que las variables cuantitativas en este dataset no siguen una distribución normal. Esto es un hallazgo importante, ya que muchos métodos estadísticos paramétricos (como pruebas t, ANOVA, regresión lineal simple) asumen normalidad.

Para análisis futuros, se recomienda:

En resumen, el dataset proporciona una rica información sobre el uso de redes sociales y sus correlaciones percibidas, pero su naturaleza no normal para muchas variables cuantitativas exige un enfoque cuidadoso y la selección de herramientas estadísticas apropiadas para garantizar la validez de cualquier inferencia.


Nota: Este análisis se basa en un conjunto de datos simulado y no debe considerarse representativo de una población real. Los resultados son ilustrativos y deben interpretarse con precaución en contextos reales.

Dataset basado en “Students’ Social Media Addiction