El presente informe tiene como objetivo analizar los resultados de un estudio sobre la adicción a las redes sociales, realizado entre estudiantes universitarios. El estudio se llevó a cabo mediante una encuesta que recopiló datos sobre el uso de redes sociales, su impacto en la vida académica y laboral, y otros factores relacionados con la salud mental y el bienestar. El dataset contiene información de 641 encuestados, con variables que abarcan desde el tiempo promedio de uso diario de redes sociales hasta el estado de relación de los participantes. Este informe se centrará en el análisis descriptivo y la exploración de las variables recabadas en el estudio. Además, se realizarán pruebas de normalidad y visualizaciones para cada variable, con el fin de determinar si se ajustan a distribuciones conocidas y si son adecuadas para análisis estadísticos posteriores. Finalmente, se presentarán conclusiones y recomendaciones basadas en los hallazgos del estudio.
El objetivo principal de este estudio es evaluar el impacto del uso de redes sociales en la vida académica y laboral de los estudiantes universitarios, así como identificar patrones de uso y posibles consecuencias negativas asociadas.
Los objetivos específicos incluyen:
El dataset obtenido del estudio contiene las siguientes trece variables:
Variable | Tipo | Descripción |
---|---|---|
Student_ID | Integer | Identificador único del encuestado |
Age | Integer | Edad en años |
Gender | Categórico | M, F, Otro |
Academic_Level | Categórico | Educación media / Pregrado / Postgrado |
Avg_Daily_Usage_Hours | Float | Promedio de horas por día de uso en redes sociales |
Affects_Performance | Boolean | Impacto en lo académico/laboral (Sí/No) |
Sleep_Hours_Per_Night | Float | Promedio de horas de sueño por noche |
Mental_Health_Score | Integer | Número de ocasiones en la última semana, con estado de ánimo afectado negativamente por las redes sociales |
Conflicts_Over_Social_Media | Integer | Número de conflictos en el último mes, con relaciones interpersonales debido a las redes sociales |
Avg_Time_Between_Usage_Min | Float | Tiempo promedio en minutos entre usos de redes sociales |
Most_Used_Platform | Categórico | Instagram, Facebook, TikTok, WhatsApp, Otra. |
How_Many_Platform | Integer | Número de plataformas utilizadas |
Relationship_Status | Boolean | Relación de pareja (Sí/No) |
Se realizarán los análisis a cada una de las variables mostradas anteriormente. El tipo de análisis que se realizará a cada una de ellas fue definido en el informe previo de Diseño de la Encuesta.
El tipo de variable “Edad” es cuantitativa continua, ya que representa un valor numérico que puede tomar cualquier valor dentro de un rango. En este caso, la variable “Edad” se analizará utilizando la distribución normal, dado que se espera que la edad de los encuestados siga una distribución aproximadamente normal en una población grande.
## --- Estadísticas Descriptivas para 'Edad' ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.0 20.0 21.0 20.7 22.0 24.0
## Edad Promedio (mean): 20.6817
## Desviación Estándar (sd): 1.3948
## Mediana: 21
Interpretación:
Los resultados indican que la edad promedio de los encuestados es de aproximadamente 20.6817 años, con una desviación estándar de 1.3948 años. El 50% de los encuestados tiene 21 años o menos (mediana), y el rango de edades en la muestra es de 18 a 24 años. La concentración de datos alrededor de la media y la baja desviación estándar sugieren una población estudiantil con edades relativamente uniformes.
Un histograma nos ayuda a visualizar la distribución de la variable
Edad
.
Un diagrama de caja es útil para identificar la dispersión de los datos y posibles valores atípicos (outliers).
Interpretación de las Visualizaciones:
El histograma muestra que la mayoría de los encuestados se concentran en el rango de 18 a 22 años, lo cual es coherente con una población de estudiantes universitarios jóvenes. La forma de la distribución parece relativamente simétrica, aunque con una ligera inclinación. El diagrama de caja confirma que no hay valores atípicos significativos y que los datos están bastante agrupados, lo que indica una muestra homogénea en términos de edad.
Este análisis tiene como objetivo evaluar si la variable
Edad
sigue una distribución normal, para así posteriormente
aplicar los cálculos de distribución normal revisados en el curso.
## Tamaño de la muestra (N): 641
## Media de la edad: 20.68
## Desviación Estándar de la edad: 1.395
Interpretación:
Con un tamaño de muestra de 641, la media es aproximadamente 20.6817 años y la desviación estándar es de 1.3948 años.
Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.
Esta prueba es adecuada para tamaños de muestra pequeños a moderados (generalmente N < 5000).
## --- Prueba de Shapiro-Wilk ---
##
## Shapiro-Wilk normality test
##
## data: age_data
## W = 0.93, p-value <2e-16
Interpretación:
Dado que el p-valor es mucho menor que el nivel de significancia
común (e.g., alpha = 0.05), rechazamos la hipótesis
nula. Esto sugiere que la variable Edad
no
sigue una distribución normal según la prueba de
Shapiro-Wilk.
Esta prueba es una alternativa para tamaños de muestra más grandes.
##
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) ---
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: age_data
## D = 0.16, p-value <2e-16
Interpretación:
Similar a la prueba de Shapiro-Wilk, el p-valor es significativamente
menor que alpha = 0.05. Por lo tanto, rechazamos la hipótesis
nula, lo que refuerza la conclusión de que la variable
Edad
no se distribuye normalmente.
Las visualizaciones son cruciales para complementar las pruebas estadísticas y obtener una comprensión de la forma de la distribución.
Se superpone una curva de densidad normal teórica (con la media y
desviación estándar de la variable Edad
) sobre el
histograma de la edad.
Interpretación:
Visualmente, el histograma de la edad muestra una forma que se
asemeja a una campana, pero la curva normal superpuesta revela que las
colas de la distribución de Edad
son más cortas y el pico
es más pronunciado de lo que se esperaría en una distribución normal
perfecta.
Un Q-Q plot compara los cuantiles de tus datos con los cuantiles teóricos de una distribución normal. Si los puntos caen cerca de la línea diagonal, los datos se distribuyen normalmente.
Interpretación:
En el Q-Q plot, observamos que los puntos se desvían de la línea recta en los extremos superior e inferior. Esta desviación indica que la distribución de la edad no sigue perfectamente una distribución normal. Las desviaciones en las colas sugieren que hay menos valores extremos de lo que una distribución normal predeciría (lo que se alinea con una curtosis negativa).
Basado en las pruebas estadísticas (Shapiro-Wilk y Lilliefors) y las
visualizaciones (histograma y Q-Q plot), se puede concluir que la
variable Edad
en este conjunto de datos no sigue
una distribución normal. Las pruebas estadísticas arrojaron
p-valores extremadamente bajos, lo que lleva al rechazo de la hipótesis
de normalidad. Las visualizaciones confirman que, aunque la distribución
tiene una forma algo parecida a una campana, no se ajusta a los
supuestos de una distribución normal perfecta, especialmente en las
colas.
Este análisis explorará la distribución y características de la
variable Gender
(Género). Dado que Gender
es
una variable cualitativa nominal, el análisis se centrará en las
frecuencias y proporciones.
## --- Resumen de la Variable Gender ---
## female male
## 317 324
## Frecuencias Absolutas:
## gender_data
## female male
## 317 324
## Frecuencias Relativas (Proporciones):
## gender_data
## female male
## 0.4945 0.5055
## Número total de encuestados: 641
Interpretación:
De un total de 641 encuestados, 317 se identifican como ‘female’ (femenino) y 324 como ‘male’ (masculino). Esto representa aproximadamente el 49.454% de la muestra para ‘female’ y el 50.546% para ‘male’. No se encontraron otras categorías de género en los datos después de la limpieza. Esto indica una ligera mayoría de encuestados masculinos en la muestra.
Un gráfico de barras es la visualización más adecuada para variables cualitativas, ya que muestra la frecuencia o proporción de cada categoría.
Interpretación de la Visualización:
El gráfico de barras confirma visualmente que hay más encuestados masculinos que femeninos en la muestra. Esta visualización es clara y concisa para una variable nominal como el género.
La variable Gender
es una variable cualitativa nominal
que muestra una distribución de 49.454% de encuestados femeninos y
50.546% de encuestados masculinos. Esta información es fundamental para
comprender la composición demográfica de la muestra y puede ser
relevante al analizar cómo otras variables (como el uso de redes
sociales o la salud mental) pueden diferir entre los géneros. Al ser una
variable nominal, no se asocia a una distribución de probabilidad
específica en el contexto de análisis de variables aleatorias continuas
o discretas como las vistas anteriormente.
Este análisis explorará la distribución y características de la
variable Academic_Level
(Nivel Académico). Como se
identificó previamente, esta es una variable cualitativa ordinal, por lo
que el análisis se centrará en las frecuencias y proporciones de cada
categoría ordenada.
## --- Resumen de la Variable Academic_Level ---
## ed. media universitario titulado
## 22 318 301
## Frecuencias Absolutas:
## academic_level_data
## ed. media universitario titulado
## 22 318 301
## Frecuencias Relativas (Proporciones):
## academic_level_data
## ed. media universitario titulado
## 0.03432 0.49610 0.46958
## Número total de encuestados: 641
Interpretación:
De un total de 641 encuestados:
Esto indica que la muestra está distribuida con una ligera mayoría en el nivel de pregrado y una minoría en el nivel de educación media.
Un gráfico de barras es la visualización más adecuada para variables cualitativas, especialmente cuando son ordinales, ya que permite mostrar la distribución de las categorías en su orden inherente.
Interpretación de la Visualización:
El gráfico de barras confirma visualmente las proporciones calculadas, mostrando la cantidad de encuestados en cada nivel académico en el orden correcto. Se puede apreciar que los niveles de pregrado y posgrado tienen una mayor representación en esta muestra.
La variable Academic_Level
es una variable cualitativa
ordinal que proporciona información valiosa sobre el nivel educacional
de los encuestados. La distribución muestra una representación
significativa en todos los niveles, con una ligera predominancia de
estudiantes de pregrado. Al ser una variable ordinal, no se le asocia
una distribución de probabilidad en el sentido de las distribuciones
continuas o discretas numéricas como la Normal o Poisson, pero es
crucial para segmentar o estratificar el análisis de otras variables del
estudio.
Este análisis explorará la distribución y características de la
variable Avg_Daily_Usage_Hours
(Horas promedio de uso
diario). Esta es una variable cuantitativa continua, y se analizará
mediante estadísticas descriptivas, visualizaciones y pruebas de
normalidad.
## --- Estadísticas Descriptivas para Avg_Daily_Usage_Hours ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.50 4.10 4.80 4.96 5.90 8.50
## Media (mean): 4.9616
## Desviación Estándar (sd): 1.2839
## Mediana: 4.8
## Tamaño de la muestra (N): 641
Interpretación:
Los encuestados pasan un promedio de aproximadamente 4.9616 horas al día en redes sociales, con la mitad de los encuestados utilizando 4.8 horas o menos. Los datos varían desde un mínimo de 1.5 horas hasta un máximo de 8.5 horas. Esto muestra que hay usuarios con un uso relativamente bajo y otros con un uso bastante elevado. El 50% central de los datos (entre el primer y el tercer cuartil) se encuentra entre 4.1 y 5.9 horas diarias. En cuanto a la dispersión de los datos, la desviación estándar de 1.2839 horas es relativamente baja en comparación con la media. Esto indica que la mayoría de los datos se agrupan de manera más estrecha alrededor de la media. El 50% central de los usuarios (entre el primer y el tercer cuartil) dedican entre 4.1 y 5.9 horas al día a las redes sociales, lo que refuerza la idea de una concentración de usuarios en ese rango.
Un histograma ayuda a visualizar la distribución de la variable
Avg_Daily_Usage_Hours
.
Un diagrama de caja es útil para identificar la dispersión de los datos y posibles valores atípicos (outliers).
Interpretación de las Visualizaciones:
El histograma muestra una distribución que se concentra en el centro, con un pico alrededor de las 5 horas. El diagrama de caja no muestra valores atípicos extremos, confirmando que la mayoría de los datos están dentro del rango esperado de uso diario. La mediana está relativamente ubicada en el centro de la caja, lo que sugiere una distribución relativamente simétrica alrededor de ese punto para el 50% central.
Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.
Esta prueba es adecuada para tamaños de muestra pequeños a moderados (generalmente N < 5000).
## --- Prueba de Shapiro-Wilk para Avg_Daily_Usage_Hours ---
##
## Shapiro-Wilk normality test
##
## data: usage_hours_data
## W = 0.99, p-value = 0.001
Interpretación: Dado que el p-valor es mucho menor
que el nivel de significancia común (e.g., alpha = 0.05), se
rechaza la hipótesis nula. Esto sugiere que la variable
Avg_Daily_Usage_Hours
no sigue una distribución
normal según la prueba de Shapiro-Wilk.
Esta prueba es una alternativa para tamaños de muestra más grandes.
##
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) para Avg_Daily_Usage_Hours ---
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: usage_hours_data
## D = 0.07, p-value = 8e-08
Interpretación: Similar a la prueba de Shapiro-Wilk,
el p-valor es significativamente menor que alpha = 0.05. Por lo tanto,
rechazamos la hipótesis nula, lo que refuerza la
conclusión de que la variable Avg_Daily_Usage_Hours
no se distribuye normalmente.
Las visualizaciones sirven para complementar las pruebas estadísticas y obtener una comprensión de la forma de la distribución.
Se superpone una curva de densidad normal teórica (con la media y desviación estándar de los datos) sobre el histograma de las horas de uso diario.
Interpretación:
El histograma con la curva normal superpuesta muestra que la
distribución de Avg_Daily_Usage_Hours
no se ajusta bien a
una distribución normal. Se observan múltiples picos y una forma que no
es la de campana simétrica esperada.
Un Q-Q plot compara los cuantiles de los datos con los cuantiles teóricos de una distribución normal. Si los puntos caen cerca de la línea diagonal, los datos se distribuyen normalmente.
Interpretación:
El Q-Q plot muestra una desviación de la línea recta, especialmente
en los extremos y en el centro. Esto es una indicación de que la
variable Avg_Daily_Usage_Hours
no sigue una distribución
normal. Las desviaciones en los extremos sugieren que la distribución
real tiene colas más pesadas o más ligeras de lo que una distribución
normal predeciría.
Basado en las pruebas estadísticas (Shapiro-Wilk y Lilliefors) y las
visualizaciones (histograma con curva normal y Q-Q plot), se puede
concluir que la variable Avg_Daily_Usage_Hours
no
sigue una distribución normal. Las pruebas estadísticas
arrojaron p-valores extremadamente bajos, lo que lleva al rechazo de la
hipótesis de normalidad. Las visualizaciones confirman que la
distribución tiene una forma irregular y desviaciones de la forma de
campana esperada.
Este análisis explorará la distribución y características de la
variable Affects_Academic_Performance
(Afecta el
Rendimiento Académico). Esta es una variable cualitativa nominal
(booleana), por lo que se centrará en las frecuencias y proporciones de
sus categorías.
## --- Resumen de la Variable Affects_Academic_Performance ---
## no yes
## 220 421
## Frecuencias Absolutas:
## performance_data
## no yes
## 220 421
## Frecuencias Relativas (Proporciones):
## performance_data
## no yes
## 0.3432 0.6568
## Número total de encuestados: 641
Interpretación: De un total de 641 encuestados:
Esto muestra que una mayoría significativa de los encuestados (casi dos tercios) percibe un impacto negativo de las redes sociales en su rendimiento académico.
Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría.
Interpretación de la Visualización:
El gráfico de barras confirma visualmente la predominancia de respuestas “Sí”, lo que subraya la percepción generalizada de un impacto negativo en el rendimiento académico entre los encuestados.
Dado que Affects_Academic_Performance
es una variable
binaria (Sí/No), la distribución de probabilidad que naturalmente se
asocia con el número de “éxitos” (por ejemplo, respuestas “Sí”) en una
serie de ensayos independientes es la Distribución
Binomial.
Para usar la distribución binomial, se necesita:
size
(n): El número de ensayos (en
este caso, el número de encuestados en una sub-muestra o el total si se
considera toda la población como ensayos).prob
(p): La probabilidad de “éxito”
(la proporción de respuestas “Sí” en la población o en la muestra
grande).Basado en nuestros datos, la probabilidad de que un encuestado responda “Sí” (nuestro ‘éxito’) es \(p = 0.6568\).
Ejemplo de Cálculo Binomial en R:
Supongamos que se quiere saber la probabilidad de que, si se seleccionan 10 estudiantes al azar, exactamente 7 de ellos consideren que el uso de redes sociales afecta negativamente su rendimiento académico.
## Probabilidad de que exactamente 7 de 10 estudiantes respondan 'Sí': 0.2558
Interpretación del Ejemplo Binomial: Este cálculo muestra la probabilidad puntual de obtener un número específico de “éxitos” en un número fijo de intentos, utilizando la probabilidad de éxito observada en el dataset.
La variable Affects_Academic_Performance
es una variable
cualitativa nominal que indica una clara percepción mayoritaria
(65.6786%) de que el uso de redes sociales impacta negativamente el
rendimiento académico entre los encuestados. Dada su naturaleza binaria,
la distribución Binomial es la distribución de
probabilidad adecuada para modelar el número de respuestas “Sí” o “No”
en un conjunto de ensayos. Esta información sirve para entender el
impacto percibido de las redes sociales y puede ser un punto de partida
para análisis más profundos sobre las correlaciones con otras
variables.
Este análisis explorará la distribución y características de la
variable Sleep_Hours_Per_Night
(Horas de Sueño por Noche).
Esta es una variable cuantitativa continua, y se analizará mediante
estadísticas descriptivas, visualizaciones y pruebas de normalidad.
## --- Estadísticas Descriptivas para Sleep_Hours_Per_Night ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.80 6.00 6.90 6.83 7.60 9.60
## Media (mean): 6.8334
## Desviación Estándar (sd): 1.1336
## Mediana: 6.9
## Tamaño de la muestra (N): 641
Interpretación:
Los encuestados duermen, en promedio, aproximadamente 6.8334 horas por noche, con una mediana de 6.9. La desviación estándar de 1.1336 horas indica una variabilidad moderada en las horas de sueño. Los datos varían desde un mínimo de 3.8 horas hasta un máximo de 9.6 horas. El 50% central de los datos (entre el primer y el tercer cuartil) se encuentra entre 6 y 7.6 horas por noche.
A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución de las horas de sueño.
Este gráfico muestra la frecuencia de las horas de sueño, permitiendo observar la forma general de la distribución.
Interpretación:
El histograma muestra una concentración de encuestados que reportan entre 5 y 7 horas de sueño por noche, con picos notables en los valores enteros de 6 y 7 horas. La distribución no parece ser perfectamente simétrica.
Este gráfico proporciona una vista de la dispersión de los datos y la presencia de posibles valores atípicos (outliers).
Interpretación:
El diagrama de caja confirma que la mayoría de los datos se encuentran entre 5 y 7 horas. La mediana está ubicada cerca del centro de la caja. Se observan algunos puntos fuera de los “bigotes” (whiskers), que podrían ser considerados valores atípicos, aunque no son extremos.
Se realizarán pruebas estadísticas para evaluar la hipótesis nula de que los datos provienen de una distribución normal.
## --- Prueba de Shapiro-Wilk para Sleep_Hours_Per_Night ---
##
## Shapiro-Wilk normality test
##
## data: sleep_hours_data
## W = 0.99, p-value = 0.01
Interpretación:
El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a
rechazar la hipótesis nula de normalidad. Se sugiere
que la variable Sleep_Hours_Per_Night
no sigue una
distribución normal según la prueba de Shapiro-Wilk.
##
## --- Prueba de Lilliefors (Kolmogorov-Smirnov) para Sleep_Hours_Per_Night ---
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: sleep_hours_data
## D = 0.051, p-value = 4e-04
Interpretación:
De manera consistente, el p-valor es muy pequeño, llevando a
rechazar la hipótesis nula de normalidad. Esta prueba
también indica que la variable Sleep_Hours_Per_Night
no sigue una distribución normal.
Las visualizaciones son cruciales para complementar las pruebas estadísticas.
Se superpone una curva de densidad normal teórica (con la media y desviación estándar de los datos) sobre el histograma de las horas de sueño.
Interpretación:
El histograma con la curva normal superpuesta muestra que la
distribución de Sleep_Hours_Per_Night
no se ajusta bien a
una distribución normal. Se observan picos en valores enteros (como 6 y
7 horas), lo que sugiere que las horas de sueño se reportan con mayor
frecuencia como números redondos, y la forma general no es la de campana
suave y simétrica esperada. La distribución parece más inclinada hacia
la derecha (sesgo negativo, aunque no tan pronunciado).
Interpretación:
El Q-Q plot de la variable Sleep_Hours_Per_Night
muestra
una desviación clara de la línea diagonal recta, especialmente en los
extremos. Los puntos forman una “S” o una curva, indicando que los datos
tienen colas más pesadas o más ligeras, y una distribución de cuantiles
diferente a la de una distribución normal. Esta es una fuerte indicación
de no normalidad.
La variable Sleep_Hours_Per_Night
muestra que los
encuestados duermen en promedio alrededor de 6.8334 horas por noche. Sin
embargo, el análisis de normalidad concluye que esta variable no
sigue una distribución normal.
Las pruebas estadísticas (Shapiro-Wilk y Lilliefors) rechazan la hipótesis de normalidad con p-valores extremadamente bajos, proporcionando una evidencia sólida. Las visualizaciones (histograma y Q-Q plot) refuerzan esta conclusión, mostrando una distribución que difiere significativamente de la forma de campana normal, con una posible tendencia a reportar horas enteras y una forma que no es perfectamente simétrica o mesocúrtica.
Este análisis explorará la distribución y características de la
variable Mental_Health_Score
(Puntuación de Salud Mental).
Esta es una variable cuantitativa discreta, y la analizaremos mediante
estadísticas descriptivas, visualizaciones y pruebas de normalidad.
También consideraremos la aplicabilidad de la distribución de Poisson,
dado que es una puntuación de conteo.
## --- Estadísticas Descriptivas para Mental_Health_Score ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 3.00 4.00 3.81 5.00 6.00
## Media (mean): 3.8081
## Desviación Estándar (sd): 1.1148
## Varianza: 1.2428
## Mediana: 4
## Tamaño de la muestra (N): 641
Interpretación:
Las puntuaciones de salud mental varían desde un mínimo de 1 hasta un máximo de 6. La media es de aproximadamente 3.8081 y la mediana es 4, lo que sugiere una distribución ligeramente sesgada o concentrada. La desviación estándar de 1.1148 indica una dispersión moderada de las puntuaciones. El 50% central de los encuestados reporta puntuaciones entre 3 y 5.
A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución de las puntuaciones de salud mental.
Interpretación:
El histograma muestra que las puntuaciones más frecuentes se encuentran alrededor de 3 y 4. La distribución parece tener una forma algo sesgada, con un descenso gradual hacia puntuaciones más altas y un descenso más rápido hacia las puntuaciones más bajas.
Interpretación:
El diagrama de caja muestra que la mediana es 4. La mayoría de las puntuaciones se concentran entre 3 y 5. Se observan varios valores atípicos tanto en el extremo inferior (1) como en el superior (6), lo que indica que hay encuestados con puntuaciones muy bajas o muy altas en comparación con la mayoría.
La distribución de Poisson se utiliza para modelar el número de eventos en un intervalo de tiempo o espacio, o el número de ocurrencias de un evento en un conjunto fijo de observaciones, donde los eventos son raros y la media y la varianza son aproximadamente iguales.
Dado que la media (3.8081) y la varianza (1.2428) son
diferentes, la variable Mental_Health_Score
no
parece seguir una distribución de Poisson de manera estricta. Una
varianza menor que la media (lo que ocurre aquí, 1.2428 < 3.8081)
sugiere un fenómeno llamado “subdispersión”, lo cual es una desviación
del modelo de Poisson.
Aunque Mental_Health_Score
es discreta, a menudo se
comprueba su “normalidad” para ver si puede ser razonablemente
aproximada por una distribución normal, especialmente si tiene un rango
amplio y muchos valores.
## --- Prueba de Shapiro-Wilk para Mental_Health_Score ---
##
## Shapiro-Wilk normality test
##
## data: mental_health_data
## W = 0.91, p-value <2e-16
Interpretación:
El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a
rechazar la hipótesis nula de normalidad. Se sugiere
que la variable Mental_Health_Score
no sigue una
distribución normal.
Las visualizaciones son cruciales para complementar las pruebas estadísticas.
Interpretación:
El histograma con la curva normal superpuesta muestra que la
distribución de Mental_Health_Score
no se ajusta bien a una
distribución normal. La distribución real es claramente discreta (barras
separadas por valores enteros), y su forma es diferente a la curva de
campana, siendo más uniforme o ligeramente sesgada.
Interpretación:
El Q-Q plot de la variable Mental_Health_Score
muestra
una desviación muy clara y escalonada de la línea diagonal. Esta forma
de “escalera” es característica de datos discretos que no se distribuyen
normalmente. Los puntos no se alinean con la línea, lo que es una fuerte
indicación de no normalidad.
La variable Mental_Health_Score
es una puntuación
discreta que varía de 1 a 6, con una media de aproximadamente
3.8081.
Este análisis explorará la distribución y características de la
variable Avg_Time_Between_Usage_Min
(Tiempo promedio entre
usos de redes sociales en minutos). Esta es una variable cuantitativa
continua (tiempo), y la analizaremos mediante estadísticas descriptivas,
visualizaciones y pruebas de normalidad. También consideraremos la
aplicabilidad de la distribución exponencial, dado que modela tiempos
entre eventos.
## --- Estadísticas Descriptivas para Avg_Time_Between_Usage_Min ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 20.0 40.0 60.0 69.6 100.0 180.0
## Media (mean): 69.61
## Desviación Estándar (sd): 31.4941
## Mediana: 60
## Tamaño de la muestra (N): 641
Interpretación:
El tiempo promedio que transcurre entre usos de redes sociales es de aproximadamente 69.61 minutos (poco más de una hora), con una mediana de 60 minutos. Hay una dispersión considerable en los datos, como lo indica la desviación estándar de 31.4941 minutos. Los tiempos varían desde un mínimo de 20 minutos hasta un máximo de 180 minutos (3 horas). El 50% central de los encuestados reporta tiempos entre 40 y 100 minutos.
A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución del tiempo entre usos.
Interpretación:
El histograma muestra que la mayoría de los encuestados reportan tiempos más cortos entre usos (concentración en los valores inferiores) y una cola larga hacia la derecha, indicando que hay menos encuestados con tiempos muy largos entre usos. La distribución está claramente sesgada a la derecha.
Interpretación:
El diagrama de caja confirma el sesgo positivo (hacia la derecha) de la distribución, con la mediana más cercana al primer cuartil. Se observan varios valores atípicos en el extremo superior, que corresponden a encuestados con tiempos significativamente más largos entre usos en comparación con la mayoría.
La distribución exponencial es comúnmente utilizada para modelar el tiempo hasta que ocurre un evento, o el tiempo entre eventos en un proceso de Poisson. Se caracteriza por su parámetro de tasa (\(\lambda\)), donde la media de la distribución es \(1/\lambda\).
La desviación estándar de una distribución exponencial es también \(1/\lambda\), es decir, igual a la media. En nuestros datos, la media (69.61) es bastante diferente de la desviación estándar (31.4941), lo que sugiere que una distribución exponencial estricta podría no ser el mejor ajuste, aunque la forma general del histograma (sesgada a la derecha) es consistente con ella.
Interpretación de la Superposición:
La curva de densidad exponencial superpuesta captura la forma general sesgada a la derecha de la distribución, pero el ajuste no es perfecto, especialmente en los picos y valles del histograma real. Esto sugiere que, si bien la forma es similar, los datos reales no se distribuyen exactamente según un modelo exponencial simple.
Aunque la hipótesis principal es la Exponencial, evaluamos la “normalidad” para descartarla o confirmar su no aplicabilidad.
## --- Prueba de Shapiro-Wilk para Avg_Time_Between_Usage_Min ---
##
## Shapiro-Wilk normality test
##
## data: time_between_usage_data
## W = 0.91, p-value <2e-16
Interpretación:
El p-valor es extremadamente bajo (mucho menor que \(\alpha = 0.05\)). Esto nos lleva a
rechazar la hipótesis nula de normalidad. Se sugiere
que la variable Avg_Time_Between_Usage_Min
no sigue
una distribución normal.
Las visualizaciones son cruciales para complementar las pruebas estadísticas.
Interpretación:
El histograma con la curva normal superpuesta muestra que la
distribución de Avg_Time_Between_Usage_Min
está fuertemente
sesgada a la derecha y no se parece en absoluto a una distribución
normal. La curva normal es simétrica y no captura la forma de los
datos.
Interpretación:
El Q-Q plot de la variable Avg_Time_Between_Usage_Min
muestra una desviación muy pronunciada de la línea diagonal, lo que es
una fuerte indicación de no normalidad. La forma curva y cóncava es
típica de distribuciones sesgadas a la derecha.
La variable Avg_Time_Between_Usage_Min
representa el
tiempo promedio entre usos de redes sociales, con una media de 69.61
minutos y una fuerte concentración en valores más bajos.
Por lo tanto, para análisis inferenciales que involucren
Avg_Time_Between_Usage_Min
, se debe tener precaución.
Aunque la distribución exponencial es una hipótesis razonable por la
naturaleza de la variable (tiempo entre eventos), su ajuste perfecto no
está confirmado.
Este análisis explorará la distribución y características de la
variable Most_Used_Platform
(Plataforma de Red Social Más
Usada). Esta es una variable cualitativa nominal, por lo que nos
centraremos en las frecuencias y proporciones de sus categorías.
## --- Resumen de la Variable Most_Used_Platform ---
## facebook instagram linkedin tiktok twitter whatsapp youtube
## 123 249 21 154 30 54 10
## Frecuencias Absolutas:
## platform_data
## facebook instagram linkedin tiktok twitter whatsapp youtube
## 123 249 21 154 30 54 10
## Frecuencias Relativas (Proporciones):
## platform_data
## facebook instagram linkedin tiktok twitter whatsapp youtube
## 0.19189 0.38846 0.03276 0.24025 0.04680 0.08424 0.01560
## Número total de encuestados: 641
Interpretación:
De un total de 641 encuestados:
Estos resultados indican que Instagram y TikTok son las plataformas dominantes entre los encuestados, seguidas de Facebook y WhatsApp.
Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría. Se ordenarán las barras por frecuencia de forma descendente para facilitar la interpretación.
Interpretación de la Visualización:
El gráfico de barras confirma visualmente que Instagram y TikTok son las plataformas más utilizadas, seguidas por Facebook y WhatsApp. La representación visual facilita la comparación directa de la popularidad de cada plataforma.
La variable Most_Used_Platform
es una variable
cualitativa nominal que describe la preferencia de los encuestados por
una plataforma de red social principal. El análisis revela que
Instagram y TikTok son las plataformas dominantes,
seguidas por Facebook y WhatsApp. Dada la naturaleza cualitativa nominal
de la variable, no se asocia con una distribución de probabilidad
paramétrica como Binomial, Poisson, Normal o Exponencial. El análisis
descriptivo mediante tablas de frecuencia y gráficos de barras es el
método más apropiado para entender su distribución. Esta información es
valiosa para comprender el panorama de uso de redes sociales entre la
población estudiada.
Este análisis explorará la distribución y características de la
variable How_Many_Platforms
(Cuántas plataformas de redes
sociales utiliza activamente). Esta es una variable cuantitativa
discreta (de conteo), y se analizará mediante estadísticas descriptivas,
visualizaciones y pruebas de normalidad. También se considerará la
aplicabilidad de la distribución de Poisson.
## --- Estadísticas Descriptivas para How_Many_Platforms ---
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 4.00 5.00 4.31 5.00 5.00
## Media (mean): 4.3058
## Desviación Estándar (sd): 1.1153
## Varianza: 1.2439
## Mediana: 5
## Tamaño de la muestra (N): 641
Interpretación:
Los encuestados utilizan, en promedio, aproximadamente 4.3058 plataformas de redes sociales, con una mediana de 5 plataformas. La desviación estándar de 1.1153 plataformas indica una dispersión moderada en el número de plataformas utilizadas. Los datos varían desde un mínimo de 1 plataforma hasta un máximo de 5 plataformas. El 50% central de los encuestados utiliza entre 4 y 5 plataformas.
A continuación, se presentan un histograma y un diagrama de caja (box plot) para visualizar la distribución del número de plataformas.
Interpretación:
El histograma muestra que las frecuencias más altas se encuentran en 3, 4 y 5 plataformas, con una disminución notable en el extremo izquierdo (1 y 2 plataformas). La distribución parece ser sesgada a la izquierda.
Interpretación:
El diagrama de caja confirma que la mayoría de los datos se concentran entre 3 y 5 plataformas, con la mediana en 5. No se observan valores atípicos significativos, lo que indica que el rango de 1 a 5 plataformas es representativo de la muestra.
La distribución de Poisson modela el número de eventos en un intervalo, donde la media (\(\lambda\)) es igual a la varianza.
En este caso, la media (4.3058) y la varianza (1.2439) son
diferentes. La varianza es significativamente menor que la
media, lo que indica subdispersión. Por lo tanto, la
distribución de Poisson no es un modelo adecuado para
la variable How_Many_Platforms
.
Aunque How_Many_Platforms
es discreta, se evalúa su
“normalidad” para ver si puede ser aproximada por una distribución
normal.
## --- Prueba de Shapiro-Wilk para How_Many_Platforms ---
##
## Shapiro-Wilk normality test
##
## data: platforms_count_data
## W = 0.67, p-value <2e-16
Interpretación: El p-valor es extremadamente bajo
(mucho menor que \(\alpha = 0.05\)).
Esto nos lleva a rechazar la hipótesis nula de
normalidad. Se sugiere que la variable How_Many_Platforms
no sigue una distribución normal.
Las visualizaciones son cruciales para complementar las pruebas estadísticas.
Interpretación:
El histograma con la curva normal superpuesta muestra que la
distribución de How_Many_Platforms
no se ajusta bien a una
distribución normal.
Interpretación:
El Q-Q plot de la variable How_Many_Platforms
muestra
una desviación clara y escalonada de la línea diagonal. Esta forma de
“escalera” es característica de datos discretos que no se distribuyen
normalmente. Los puntos no se alinean con la línea, lo que es una fuerte
indicación de no normalidad.
La variable How_Many_Platforms
es una variable de conteo
que indica el número de plataformas de redes sociales utilizadas, con
una media de aproximadamente 4.3058.
Por lo tanto, para análisis inferenciales que involucren
How_Many_Platforms
, se debe evitar el uso de métodos que
asuman una distribución normal o de Poisson estricta.
Finalmente, culminan los análisis con la exploración de la
distribución y características de la variable
Relationship_Status
(Estado de Relación). Esta es una
variable cualitativa nominal, por lo que nos centraremos en las
frecuencias y proporciones de sus categorías.
## --- Resumen de la Variable Relationship_Status ---
## no yes
## 355 286
## Frecuencias Absolutas:
## relationship_status_data
## no yes
## 355 286
## Frecuencias Relativas (Proporciones):
## relationship_status_data
## no yes
## 0.5538 0.4462
## Número total de encuestados: 641
Interpretación:
De un total de 641 encuestados:
Esto muestra una distribución con una ligera mayoría de encuestados solteros.
Un gráfico de barras es la visualización más adecuada para variables cualitativas, mostrando la frecuencia o proporción de cada categoría. Se ordenarán las barras por frecuencia de forma descendente para facilitar la interpretación.
Interpretación de la Visualización:
El gráfico de barras confirma visualmente las proporciones calculadas, mostrando que el grupo “soltero” es el más grande, con diferencias no muy marcadas entre ellos.
La variable Relationship_Status
es una variable
cualitativa nominal que describe el estado de relación de los
encuestados. El análisis revela que la muestra está distribuida de
manera bastante uniforme entre las categorías, siendo la categoría
“soltero” la más frecuente.
Dada la naturaleza cualitativa nominal de esta variable, no se le asocia una distribución de probabilidad paramétrica (como Binomial, Poisson, Normal o Exponencial) en el sentido de modelar conteos o mediciones continuas. El análisis descriptivo mediante tablas de frecuencia y gráficos de barras es el método más apropiado para entender su distribución y composición. Esta información es útil para caracterizar la demografía de la muestra y puede ser empleada en análisis comparativos (por ejemplo, cómo el uso de redes sociales difiere entre personas con distintos estados de relación).
Este informe ha presentado un análisis descriptivo y de distribución para las variables presentadas, con el objetivo de comprender sus características y la aplicabilidad de diferentes modelos de probabilidad. A continuación, se resumen los hallazgos para cada variable analizada:
Implicaciones Generales para Futuros Análisis:
Este análisis exhaustivo revela que las variables cuantitativas en este dataset no siguen una distribución normal. Esto es un hallazgo importante, ya que muchos métodos estadísticos paramétricos (como pruebas t, ANOVA, regresión lineal simple) asumen normalidad.
Para análisis futuros, se recomienda:
Age
, Avg_Daily_Usage_Hours
,
Sleep_Hours_Per_Night
, Mental_Health_Score
,
How_Many_Platforms
y
Avg_Time_Between_Usage_Min
.Conflicts_Over_Social_Media
(y potencialmente
Mental_Health_Score
o How_Many_Platforms
con
modelos más complejos), explorar modelos de regresión
específicos para conteos (ej., regresión de Poisson o binomial
negativa) que no asumen normalidad y pueden manejar la sobredispersión o
subdispersión.Gender
,
Academic_Level
, Affects_Academic_Performance
,
Most_Used_Platform
, Relationship_Status
) se
analizarán mejor mediante tablas de contingencia, pruebas de
chi-cuadrado o modelos logísticos, dependiendo de las preguntas
de investigación.En resumen, el dataset proporciona una rica información sobre el uso de redes sociales y sus correlaciones percibidas, pero su naturaleza no normal para muchas variables cuantitativas exige un enfoque cuidadoso y la selección de herramientas estadísticas apropiadas para garantizar la validez de cualquier inferencia.
Nota: Este análisis se basa en un conjunto de datos simulado y no debe considerarse representativo de una población real. Los resultados son ilustrativos y deben interpretarse con precaución en contextos reales.
Dataset basado en “Students’ Social Media Addiction”