Tcnicas para el anlisis de datos digitales Anlisis

  • Slides: 36
Download presentation
Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería

Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo. cristancho@uab. cat

Día 1 • Obtención de datos estructurados • Consideraciones teóricas • Fuentes e Interfaces

Día 1 • Obtención de datos estructurados • Consideraciones teóricas • Fuentes e Interfaces de programación de aplicaciones (Apis) • Node. XL - Excel add-ons (interfaces desde MS Office) y Google Docs TAGS

2. 1. Consideraciones teóricas

2. 1. Consideraciones teóricas

Obtención de datos de medios sociales • En tiempo real - Sólo se pueden

Obtención de datos de medios sociales • En tiempo real - Sólo se pueden recoger en el momento en que se producen • Captura diferida - datos archivados en el sitio nativo o en otro sitio (revendedores de datos) • El investigador amigable • Términos de servicio (límites de velocidad y ataque de denegación de servicio) • Acceso libre a algunos datos vs. privacidad (anonimato) • Replicabilidad de la investigación académica y uso compartido de los datos

Obtención de datos de medios sociales 2 • Soluciones comerciales vs. Artesanales (DIY) •

Obtención de datos de medios sociales 2 • Soluciones comerciales vs. Artesanales (DIY) • Repetida vs. muestreo individual • Interfaces de programación de aplicaciones (API) vs. scraping

Fuentes de datos Desestructurada Resultados de motores de búsqueda Registros electorales Twitter streams Estructura

Fuentes de datos Desestructurada Resultados de motores de búsqueda Registros electorales Twitter streams Estructura univariada Data. gov Change. org API Estructura Multivariada Huff. Post Pollster API Muestra pequeña Muestra grande Accesibilidad Precio Twitter firehose archive Facebook Logs de Alexa Censo

Twitter • Creado en 2006 • 400 millones de visitantes mensuales a twitter. com

Twitter • Creado en 2006 • 400 millones de visitantes mensuales a twitter. com • Mil millones de tweets cada 2, 5 días • 517 millones de cuentas a partir de 01 de julio 2012 • Geolocalización sólo se utiliza 0, 77% del tiempo • 27% de la base de usuarios de Twitter está activo • Clientes móviles representan alrededor del 61% de todos los tweets http: //techcrunch. com/2012/07/30/analyst-twitter-passed-500 m-users-in-june-2012140 m-of-them-in-us-jakarta-biggest-tweeting-city/

Twitter 2 • 25% de los usuarios de Twitter nunca ha twitteado • En

Twitter 2 • 25% de los usuarios de Twitter nunca ha twitteado • En promedio, un usuario de Twitter sigue a 102 personas • 10% de los usuarios sigue a nadie • Un usuario medio de Twitter tiene 208 seguidores • 6% de las cuentas de Twitter no tiene seguidores • División de género en general - 53% mujeres; 47% hombres http: //www. beevolve. com/twitter-statistics/#f 3

Extracción de datos y análisis en Twitter • Conexión permanente con el servidor de

Extracción de datos y análisis en Twitter • Conexión permanente con el servidor de Twitter • • Puede romperse en ambos extremos Límites a la conexión y almacenamiento • • Flujo de datos de Twitter - 700 TPS (tweets por segundo) 50 TPS (200 bytes) = 10 K por segundo, 600 K por minuto, 36 Megas por hora, 864 megas por día • Anticipando trending topics • ¿Qué términos / hashtags serán populares? Posibilidad de capturar pocos tweets con la API de búsqueda y los tweets de post-trending con la API de streaming www. barriblog. com

Extracción de datos y análisis en Twitter 2 • Determinación de los límites temáticos

Extracción de datos y análisis en Twitter 2 • Determinación de los límites temáticos • Especificidad vs. Relevancia • Hashtags vs. Palabras clave • Dimensiones de los issues • Procesamiento de datos • • • Evitar los spammers y los robots Refinar las consultas Hashtags y palabras clave relacionadas Filtrado de datos no relevantes Uso óptimo de recursos (eliminar la duplicidad) www. barriblog. com

Tipos de huellas digitales – Internet 1. 0 • Hipervínculos • "Carreteras, líneas telefónicas

Tipos de huellas digitales – Internet 1. 0 • Hipervínculos • "Carreteras, líneas telefónicas o citas" (Halavais, 2000) • referencias o citas (Tsagkias, de Rijke, y Weerkamp, 2011) • Diversidad de las relaciones sociales - mediadores de una amplia gama de relaciones asociativas entre los productores de materiales Web (Foot et al 2003) • Necesidad de conectarse a otros para compartir información (Trammell et al. 2006) • Credibilidad, información adicional y autoexpresión (identidades sociales) • Influencia (Bross et al 2010; . Mathioudakis et al. 2010; Ulicny et al. 2010) • Relevancia (Bhattarai et al 2009; . Jamali y Abolhassani 2006)

Tipos de huellas digitales – social media You. Tube • Interacciones entre la audiencia

Tipos de huellas digitales – social media You. Tube • Interacciones entre la audiencia • • • Exposiciones - ¿Cuántas veces ha sido visto un video o un canal? Interacciones sociales Número y tipo de comentarios publicados por los usuarios registrados Likes recibidos por el vídeo Suscripciones al canal • Interacciones de la plataforma - metadatos • • Título Fecha Identificación Etiquetas Autor (cuenta) Descripción Categoría de licencia de derechos de autor

Tipos de huellas digitales – social media – Twitter • Retweets • Difundir contenidos

Tipos de huellas digitales – social media – Twitter • Retweets • Difundir contenidos a nuevos públicos - reenviar contenido previamente publicado, (Small 2011) • Iniciar conversaciones, amplificar las voces de otros usuarios, y una señal de que uno está escuchando (Meraz y Papacharissi 2013) • Interés (Mustafaraj et al 2011; . Vieweg et al 2010). • Confianza (Adali et al 2010; Castillo et al 2011) • Influencia (Bakshy et al 2011; Kwak et al. 2010) • Diferencias entre 'botón RT' y RT manual - retweets "informativos“ vs. "conversacionales“? • retweets sin editar: retweets que comienzan con RT @ usuario. . . • retweets editados: retweets no empiezan con RT @ usuario. . .

Tipos de huellas digitales – social media – Twitter 2 • Seguidores de Twitter

Tipos de huellas digitales – social media – Twitter 2 • Seguidores de Twitter • Popularidad o influencia • Comunidades o audiencias • Tweets originales: los tweets que no son ni respuesta ni Retweet • @ respuestas: los tweets dirigidos a un usuario, pero que no son retweets • Hashtags • metadatos – generados por los usuarios • Enfoque temático – Issue publics / atención e interés compartido • Compartir URLs

Investigación en Twitter para las ciencias sociales • ¿Quiénes son los principales actores que

Investigación en Twitter para las ciencias sociales • ¿Quiénes son los principales actores que participan en torno a un tema o evento? • ¿Cómo podemos pensar en las relaciones comunicativas y / o de poder entre los actores? • ¿Cuáles son los temas principales o marcos asociados a la comunicación de los medios de comunicación social en torno a un tema o evento?

Preguntas - características generales de la red social Twitter • Red de Twitter y

Preguntas - características generales de la red social Twitter • Red de Twitter y estructura de la comunidad • propiedades topológicas • distribución geográfica • Dinámica - patrones de crecimiento, y comportamientos de los usuarios (Krishnamurthy, Gill, y Arlitt, 2008)

Preguntas - contenido textual de los mensajes en Twitter • Convenciones específicas de Twitter

Preguntas - contenido textual de los mensajes en Twitter • Convenciones específicas de Twitter • Mencion a usuarios (Honeycutt y Herring, 2009) • Re-tweets, o republicar el mensaje de otro (Boyd, Golder, y Lotán, 2010 • Caracterización de contenido en Twitter • Actividades del usuario (Java et al. 2007) • búsqueda de información • intercambio de información • actividad social • Tipo de streams (Naamán, Boase, y Lai, 2010) • Conciencia Social • Intercambio de Información • Autopromoción

 • “reasons to follow” - 4 S analysis: events, ideas, things, or people

• “reasons to follow” - 4 S analysis: events, ideas, things, or people (subjects substance), those related to some socially communicative end (social value), those related to personal updates (status), and those indicative of the tone or style of the posts (style). (LDA - Ramage, Dubais & Liebling 2010)

Información en los medios sociales • Data Representation of Message Content

Información en los medios sociales • Data Representation of Message Content

 • Data Representation of social relations

• Data Representation of social relations

Identificación de patrones • Frecuencia • Correlación • Proximidad

Identificación de patrones • Frecuencia • Correlación • Proximidad

URLs in tweets versus retweets Size of data points shows combined contribution of lead

URLs in tweets versus retweets Size of data points shows combined contribution of lead users and highly active users Bruns & Stieglitz (2012)

2. 2. Fuentes e Interfaces de programación de aplicaciones (Apis)

2. 2. Fuentes e Interfaces de programación de aplicaciones (Apis)

Extracción de datos y análisis en Twitter • Datos de Twitter altamente dimensionales +

Extracción de datos y análisis en Twitter • Datos de Twitter altamente dimensionales + 30 atributos • nombre de usuario • datos del perfil • texto tuit • • • Marca de tiempo Geolocalización Número de seguidores Número de retweets Condición de usuario verificado Tipo de cliente

Mapa de un tweet Formato JSON • Datos • • • Tweet Usuario Geográficos

Mapa de un tweet Formato JSON • Datos • • • Tweet Usuario Geográficos http: //readwrite. com/2011/11/16/what_a_tweet_can_tell_you

Problemas de aguja en el pajar • Más de 100 millones de usuarios activos

Problemas de aguja en el pajar • Más de 100 millones de usuarios activos en Twitter • 250 millones de tweets por día

Minería de Twitter • Output • Firehose: alimentación en tiempo real de todos los

Minería de Twitter • Output • Firehose: alimentación en tiempo real de todos los tweets públicos (400 M tuits / día = 1 TB / día) • Spritzer: al azar del 1% de todos los tweets públicos (4. 5 K los tweets / minuto = 8 GB / día) • Los tweets viejos no están disponibles • Input • Autenticación • Parámetros • Usuarios, términos de búsqueda, períodos de tiempo, destino de los datos, …

APIs • Application Programming Interface • conjunto de subrutinas, funciones y procedimientos para la

APIs • Application Programming Interface • conjunto de subrutinas, funciones y procedimientos para la comunicación entre componentes de software • Autenticación de usuario • Limitar el número de accesos • Protocolo - OAuth

Minería de Twitter • RESTful API - https: //dev. twitter. com/rest/public - un contacto

Minería de Twitter • RESTful API - https: //dev. twitter. com/rest/public - un contacto • Consultas para obtener información específica acerca de los usuarios y tweets • Perfiles de usuario, lista de seguidores y amigos, mensajes de twitter de un usuario, listas de usuarios. . • No todos los tweets son indexados o puestos a disposición a través de la búsqueda • No contiene metadatos de usuario • Se limita a unos pocos miles de Tweets más recientes

Minería de Twitter • Streaming API - https: //dev. twitter. com/streaming/overview conexión permanente •

Minería de Twitter • Streaming API - https: //dev. twitter. com/streaming/overview conexión permanente • Tweets públicos filtrados por palabras clave, regiones geográficas o usuarios • Filtrar streams tienen el mismo límite de velocidad que spritzer (1% de todos los tweets) • Conexiones Stream tienden a morir de forma espontánea • Gran cantidad de contenido no válido en el stream

Minería de Twitter • 4 objetos API • Tweets, Users, Entities (see also Entities

Minería de Twitter • 4 objetos API • Tweets, Users, Entities (see also Entities in Objects), and Places

R • Opensource + P 2 P spirit • Do it yourself – with

R • Opensource + P 2 P spirit • Do it yourself – with a little help from my friends at the R community ; ) • http: //stackoverflow. com/questions/tagged/r • https: //stat. ethz. ch/pipermail/r-help/

Paquetes Stream. R y twitte. R para R • Barberá, Pablo (2013). “stream. R:

Paquetes Stream. R y twitte. R para R • Barberá, Pablo (2013). “stream. R: Access to Twitter Streaming API via R, ” R package available on CRAN: http: //cran. rproject. org/web/packages/stream. R/ • Gentry, Jeff (2012). “Twitter client for R. ” R package available on CRAN: http: //cran. r-project. org/web/packages/twitte. R/

Node. XL • Importar datos • Limpieza de datos • Contar y combinar archivos

Node. XL • Importar datos • Limpieza de datos • Contar y combinar archivos duplicados - Combinar bordes duplicados • Identificar outliers • Descriptivos • Métricas de gráfico • Visualización • Ordenar y filtrar • Columnas de Autocompletar - propiedades de los vértices

TAGS - Twitter Archiving Google Sheet https: //tags. hawksey. info/

TAGS - Twitter Archiving Google Sheet https: //tags. hawksey. info/