IV Curso online AEC:
Introducción al análisis de datos con R
El entorno R es un proyecto de software libre para análisis estadístico que se ha convertido en la herramienta de referencia para desarrolladores y usuarios. R ofrece una gran variedad de análisis estadísticos y de avanzadas técnicas gráficas, permitiendo a los usuarios añadir funcionalidades adicionales mediante la programación de nuevas funciones, y puede trabajar en un amplio rango de sistemas operativos como UNIX, Windows o MacOS.
El curso consta de 30 horas, se realizará a través de la plataforma de aprendizaje Moodle y bajo la tutoría del profesor Santiago Beguería (Consejo Superior de Investigaciones Científicas (EEAD-CSIC), Zaragoza).
Programa del curso
Semana 1: Introducción a R: instalación, entorno de trabajo, objetos, clases y operadores, funciones, lectura y escritura de datos
Introducción: Origen y características de R, ventajas (y desventajas) con relación a otros sistemas.
Instalando R. Descarga e instalación de R en distintos sistemas operativos. Utilización de entornos de trabajo.
La ayuda de R. Conociendo los diferentes sistemas de ayuda de R.
Objetos y tipos. Conociendo los objetos y tipos básicos.
Operadores. Conociendo los principales operadores en R.
Vectores y matrices. Profundizando en el manejo de vectores y matrices.
Data frames y listas. Profundizando en el manejo de data frames y listas.
Librerías y paquetes. Manejo de funciones y colecciones de funciones (librerías).
Lectura y escritura de ficheros. Aprendiendo a leer y escribir datos, scripts y objetos de R.
Semana 2: Estadísticos descriptivos, gráficos básicos, recursión, reestructuración de datos Estadísticos descriptivos. Obtener estadísticos descriptivos univariados básicos a partir de un conjunto de datos. Aplicar funciones sobre las dimensiones de un objeto. Recursión: aplicar una función sobre los elementos de vectores, matrices y data frames, agregación de datos. Gráficos básicos. Introducción a los gráficos con R. Funciones. Miscelánea de funciones útiles. Reestructuración de datos. Conociendo la librería reshape: reestructuración de conjuntos de datos. Ejercicio práctico: ejercicio completo de lectura y reestructuración de un conjunto de datos, y obtención de estadísticos descriptivos a distintos niveles de agregación.
Semana 3: Distribuciones de probabilidad, introducción al análisis univariado
Distribuciones de probabilidad. Trabajando con funciones de distribución de probabilidad. Pruebas univariadas. Utilización de algunas pruebas estadísticas univariadas de amplio uso. Ejercicio práctico: ejercicio completo de lectura y reestructuración de datos, y aplicación de pruebas univariadas. Correlación y regresión simple. Pruebas de correlación e introducción al análisis de regresión lineal. Ejercicio práctico: ejercicio completo de lectura de datos, análisis exploratorio y regresión lineal.Semana 4: Introducción al análisis multivariante
Gráficos avanzados. Cómo crear gráficos complejos con las funciones básicas de R, y utilización de sistemas gráficos alternativos (librerías lattice y ggplot). Regresión múltiple. Introducción a la regresión múltiple. Diagnósticos de regresión. Regresión múltiple II. Modelos con covariables y factores (ANVOVA). Ejercicio práctico: ejercicio completo de lectura de datos, análisis exploratorio y regresión múltipleForma de trabajo
Plataforma de enseñanza a distancia. Plataforma de enseñanza a distancia Moodle del Grupo de Evaluación de la Erosión, Suelo y Agua de la Estación Experimental de Aula Dei (EEAD-CSIC), con una duración estimada de 40 h.
En la fecha de comienzo del curso se abrirá el acceso a todos los inscritos. Cada semana (durante cuatro semanas) se liberará un bloque de contenidos. Los alumnos deberán completar cada módulo semanal para poder continuar.
Cada bloque consistirá en un número variable de lecciones, y cada lección incluirá un vídeo-presentación teórica con ejemplos guiados y un ejercicio práctico de auto-evaluación. Será preciso completar el ejercicio de auto-evaluación para poder continuar con el temario. Además, cada cierto número de lecciones se intercalará un ejercicio completo de análisis de datos en el que los alumnos deberán emplear los conocimientos adquiridos en las lecciones previas.
Se proporcionará material adicional para quienes quieran ampliar. Habrá un foro online para poder hacer preguntas y debatir temas con el profesor y los demás alumnos, siendo éste el canal de comunicación principal.
Para obtener el diploma acreditativo será necesario superar la evaluación de cada tema, obteniendo una puntuación media de como mínimo 75 puntos sobre 100. Existirá la posibilidad de repetir los ejercicios para mejorar la puntuación.
Descarga el tríptico para ampliar detalles del curso.