Tcnicas para el anlisis de datos digitales Anlisis

  • Slides: 11
Download presentation
Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería

Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo. cristancho@uab. cat

Día 2 2. Obtención de datos estructurados 1. Consideraciones teóricas 2. Fuentes e Interfaces

Día 2 2. Obtención de datos estructurados 1. Consideraciones teóricas 2. Fuentes e Interfaces de programación de aplicaciones (APIs) 3. Node. XL - Excel add-ons (interfaces desde MS Office) y Google Docs TAGS 4. Paquetes de R para Twitter 5. Scraping 6. Redes de hipervínculos 3. Procesamiento y estructuración de datos 1. JSON parser 2. Extracción de texto

Paquetes de R – Twitte. R https: //github. com/geoffjentry/twitte. R • register. Twitter. OAuth

Paquetes de R – Twitte. R https: //github. com/geoffjentry/twitte. R • register. Twitter. OAuth - Registro OAuth para comenzar la sesión de Twitter en R • search. Twitter - búsqueda de Twitter basado en una cadena de búsqueda • tw. List. To. DF - convierte listas de twitte. R en data. frames • get. User y lookup. Users - información sobre un usuario de Twitter (información básica, lista de amigos, lista de seguidores, y línea de tiempo) • get. Trends – Tendencias en Twitter

Paquetes de R – Ro. Auth • Conexión segura con Twitter • email verificado

Paquetes de R – Ro. Auth • Conexión segura con Twitter • email verificado usuario de Twitter • Obtener una cuenta de Twitter desarrollador • https: //dev. twitter. com/ • Nueva aplicación • • • Nombre Descripción Url del sitio web Acces token secret

library(ROAuth) request. URL <- "https: //api. twitter. com/oauth/request_token" access. URL <- "http: //api. twitter.

library(ROAuth) request. URL <- "https: //api. twitter. com/oauth/request_token" access. URL <- "http: //api. twitter. com/oauth/access_token" auth. URL <- "http: //api. twitter. com/oauth/authorize" consumer. Key <- "#########" consumer. Secret <- "########" my_oauth <- OAuth. Factory$new(consumer. Key = consumer. Key, consumer. Secret = consumer. Secret, request. URL = request. URL, access. URL = access. URL, auth. URL = auth. URL) my_oauth$handshake(cainfo = system. file("Curl. SSL", "cacert. pem", package = "RCurl")) save(my_oauth, file = "my_oauth. Rdata")

Paquetes de R – Twitte. R • Sintaxis de búsqueda • Búsqueda avanzada en

Paquetes de R – Twitte. R • Sintaxis de búsqueda • Búsqueda avanzada en Twitterhttps: //twitter. com/search-advanced • search. Twitter(”query”, n= #tweets, lang=“language”, since=NULL, until=NULL, locale=NULL, geocode=NULL, since. ID=NULL, block. On. Rate. Limit=TRUE, . . . ) Rtweets(n=25, lang=NULL, since=NULL, . . . )

Paquetes de R – Rfacebook https: //github. com/pablobarbera/Rfacebook • fb. OAuth – Crea un

Paquetes de R – Rfacebook https: //github. com/pablobarbera/Rfacebook • fb. OAuth – Crea un token de OAuth para sesión de Facebook R • get. Users – Datos de Facebook del usuario • get. Friends – permite al usuario capturar información de sus amigos de Facebook

Paquetes de R – Stream. R https: //github. com/pablobarbera/stream. R • filter. Stream –

Paquetes de R – Stream. R https: //github. com/pablobarbera/stream. R • filter. Stream – status públicos que coincidan con uno o más predicados de filtro (palabras clave, usuarios, idioma, y ubicación) • parse. Tweets – organiza los resultados en un data. frame filter. Stream(file. name, track = ”query”, follow = ”user”, locations = “ longitude, latitude pairs” timeout = # seconds, oauth = oauth, verbose = TRUE)

Parse – Estructura de las listas de datos • Search API – de vectores

Parse – Estructura de las listas de datos • Search API – de vectores de texto a data. frame do. call("rbind", lapply(tweets, as. data. frame)) tweetsdf <- tw. List. To. DF(tweets) • Stream API – de format JSON a data. frame parse. Tweets(tweets. json, simplify = FALSE, verbose = TRUE)

Scraping para datos de Twitter • Extensiones Chrome • Scraper • Klout • Xpaths

Scraping para datos de Twitter • Extensiones Chrome • Scraper • Klout • Xpaths • • Klout - //li/ol/li/div/div/a/strong/span User - //li/ol/li/div/div/a/strong Username - //li/ol/li/div/div/a/span/b Date - //div[2]/ol[1]/li/div/div/small/a/span • No excluir resultados vacios

Estadísticas descriptivas básicas • • • Frecuencia Menciones Líneas de tiempo Tendencias Términos comparados

Estadísticas descriptivas básicas • • • Frecuencia Menciones Líneas de tiempo Tendencias Términos comparados Picos Benchmarks Usuarios únicos Menciones vs. palabras clave Retweets