1 Les futurs de la toile Serge Abiteboul
1 Les futurs de la toile Serge Abiteboul INRIA - Ile de France Sud et Univ. Paris 11 S. Abiteboul, INRIA Saclay 1
2 Organisation Le Web aujourd’hui Tendances Deux zooms sur la technologie La place de la recherche S. Abiteboul, INRIA Saclay 2
3 3
4 Le Web aujourd’hui
5 L’accélération de l’histoire 1990 – Le Web – 3600 Écriture 1966 Arpanet 1945 1440 Livre Ordinateur 5 S. Abiteboul, INRIA Saclay
6 Le Web aujourd’hui & très forte croissance Des milliards de pages sur des millions de serveurs Des milliards d’objets connectés Des documents textuels, de la musique, des vidéos Des bases de données avec des interfaces spécifiques L’épine dorsale • Des documents hypertextes (HTML) Comment on cherche de l’information? • On tape des mots clés sur un moteur de recherche ; on lit des pages de résultats; on surfe ; on remplit des formulaires S. Abiteboul, INRIA Saclay 6
7 Et sans cesse de nouvelles fonctionnalités Google: index du Web Amazon, e. Bay: catalogues de vente sur le Web Facebook: informations personnelles et communautés Emule, bearshare, etc. : musique en ligne Flickr: photos en lignes et annotations Myspace: pages personnelles et communautés Youtube: vidéos en ligne Wikipedia: dictionnaire Quel est leur point commun ? En France: Meetic: rencontres Kelkoo: commerce comparatif Dailymotion: vidéos Netvibe : flux information S. Abiteboul, INRIA Saclay Ils gèrent de l’information & La rendent disponible à tous 7
Fesse. Bouc 8 8
9 Le Web : information & communication Facilite l’accès à une quantité gigantesque d’information Facilite les communications entre les individus Est un élément essentiel du progrès: sciences, écologie, santé, éducation, etc. Améliore le fonctionnement des entreprises S. Abiteboul, INRIA Saclay 9
10 Ce qui a changé L’information résidait sur des îles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents Ça a changé grâce à Internet qui connecte les machines Des standards du Web qui facilitent les échanges HTML XML Owl RDFS L’information est maintenant disponible partout SOAP WSDL S. Abiteboul, INRIA Saclay Xquery Xpath 10
11 Le Web aujourd’hui - limites C’est cool & génial… mais parfois pénible & frustrant • Difficile de trouver une info précise • Logiciels instables, temps de réponse médiocres C’est utilisable par des humains et moins par des programmes On va faire mieux Ce qu’on n’ignorera ici • Les aspects interfaces et architecture • Les aspects sociologiques et humains • L’économie du Web • Le coté obscure: fracture sociale, « big brother is watching you! » , atteintes à la confidentialité, comportements asociaux – racisme, pédophilie, crime organisé, etc. S. Abiteboul, INRIA Saclay 11
12 Tendances 12
13 Tendances Web semantic Web des objets 3. 0 Web des interactions 2. 0 Web des documents Web…. Web de ? Web des Services Pair-àpair Mondes virtuels googol. 0 S. Abiteboul, INRIA Saclay 13
14 Tendances – l’essentiel – information et communication Faciliter l’accès à l’information Web sémantique Faciliter la communication entre humains L’internaute devient actif – publie, interagit, etc. Web 2. O Mondes virtuels, réseaux sociaux Faciliter la communication entre systèmes • • • Services Web (découverte, utilisation, composition automatique) Web des objets communicants Pair-à-pair S. Abiteboul, INRIA Saclay 14
15 Tendances - fin 2. 0, 3. 0… : tout ça c’est du marketing sans aucune base scientifique; mais ça a l’avantage de faire réfléchir sur ce qu’est le Web (Je bosse sur le Web 2. 0 – c’est pas scientifique ) Le Web a plein de facettes Et on aurait dû s’y attendre car toutes les activités humaines sont concernées S. Abiteboul, INRIA Saclay 15
16 Deux zooms sur la technologie 1. La gestion de données distribuées 2. Le Web sémantique S. Abiteboul, INRIA Saclay 16
17 1. La gestion de données distribuées S. Abiteboul, INRIA Saclay 17
18 La gestion de données – contexte Un grand succès de l’informatique du 20ème siècle • • Les systèmes relationnels Des tableaux à deux dimensions sur des serveurs centralisés S. Abiteboul, INRIA Saclay 18
19 Le succès des BD relationnelles Peut-être l’impact le plus important de la logique mathématique en informatique Logique des prédicats 1 er ordre Algébrisation de Tarski/Codd Optimisation basée sur réécriture Slogan: logique des prédicats du premier ordre sur votre bureau (sans le savoir bien-sûr) Une industrie énorme (Serveurs Oracle, IBM DB 2, MS Access…) Les besoins sont spécifiés déclarativement (logique) et compilés en plan d’execution (algèbre) qui sont ensuite optimisés (réécriture) S. Abiteboul, INRIA Saclay Systèmes relationnels 19
Ca a changé… S. Abiteboul, INRIA Saclay 20 20
21 Ce qui a changé… et qui demande du travail Le volume des données La nature des données: elles sont hétérogènes (format, structure, métadonnées, ontologies, multimédia, etc. ) , imprécises, incohérentes parfois, changeantes, mobiles parfois Les nombres de serveurs (millions) et objets (milliards) connectés Deux techniques clés à mentionner Pair-à-pair: un nombre important et changeant de systèmes qui coopèrent pour réaliser une tache sans aucune autorité centrale – e. g. , musique en ligne Auto-administration de ces systèmes S. Abiteboul, INRIA Saclay 21
22 Le web c’est aussi la pub Fête Gemo Soutenance de thèse Aujourd’hui Nicoleta Preda XML processing in Peer-to-Peer networks 15: 00 dans la vallée S. Abiteboul, INRIA Saclay 22
23 2. Le Web sémantique S. Abiteboul, INRIA Saclay 23
24 Le Web sémantique Un exemple … Serge: Appelle le pacha d’Orsay Carla: Tu veux dire Le directeur de l’INRIA Saclay--Île-de-France, Monsieur Michel Bidoit? Serge: Skype le! Bientôt… • Le système me comprend et m’aide à trouver les sites qui ont les bonnes données • Obtient des information précises et pas du texte S. Abiteboul, INRIA Saclay 24
25 Ce qui change 1. Les résultats des requêtes sont des données précises et pas des pages Web qu’un humain doit lire – des connaissances 2. Le Web connecte aussi nos données personnelles, notre profil, les données de nos amis, de notre entreprise, de nos associations, du Web public… 3. Comme les résultats sont précis, ils peuvent être directement utilisés par des programmes, notamment ceux d’objets communicants comme un téléphone S. Abiteboul, INRIA Saclay 25
26 Comment ça marche Par exemple <rental type=apartment> On publie des connaissances au lieu de texte <location>…</location> <contact>…</contact> <financial>…</financial> • • <insurrance> … </insurrance> <description>…</description> <environment> … </environment> <availability>…</lavailability> • • Des données structurées et plus du texte Des métadonnées qui donnent du sens aux données dans des langages logiques simples ( « ontologies » ) Les machines peuvent comprendre cette information Des ponts entre ces ontologies <vendor-record>…</vendor-record> … </rental> S. Abiteboul, INRIA Saclay 26
Le cœur du problème : Comment on obtient ces connaissances? 27 On spécifie directement des connaissances – OK pour des experts mais les humains communiquent plutôt sous forme de texte que sous forme de formules On extrait des connaissances du texte écrit ou parlé • Linguistique, compréhension du langage • Difficile et source d’erreurs • Difficile à réaliser en temps réel sur toutes la production d’information Analogie: si je vous donne un théorème simple et sa preuve, c’est facile à vérifier. Si je vous demande de trouver une preuve… S. Abiteboul, INRIA Saclay 27
28 Warning • On vous a fait croire que la traduction automatique arriverait en quelques années • On commence à voir arriver des applications lentement… • Le Web sémantique n’est pas pour demain matin S. Abiteboul, INRIA Saclay 28
Hirondelles sur le Web Serge Abiteboul et Luc Blanchard Toujours plus de pub 29 Editions Studio graph Hirondelles sur le Web, c’est d’abord l’histoire de Gad, informaticien visionnaire, et de son amour pour Flora. Ben, commissaire de police spécialisé dans la cybercriminalité, enquête sur leur assassinat et sur une manipulation spectaculaire de la toile. Hirondelles sur le Web, c’est aussi l’histoire oubliée de la Maison d’enfants de Sèvres, où furent cachés pendant la Seconde guerre mondiale, de nombreux enfants juifs. L’enquête policière conduit inéluctablement vers les époux Hagnauer qui ont dirigé cette maison et vers une péniche amarrée sur les bords de Seine où vivent des personnages attachants, comme sortis de ce passé encore si proche. Achetez en ligne avec Pay Pal Paiement électronique Roman 112 pages couleur, format 21 x 31 cm Prix 20 euros + 4 euros (port) = 24 euros S. Abiteboul, INRIA Saclay 29
30 Et la recherche là dedans? S. Abiteboul, INRIA Saclay 30
31 Le Web a de nombreuses facettes que nous avons vu émerger et plein d’autres qu’il nous reste à découvrir Des tas de problèmes passionnants pour les chercheurs Progrès très rapides tirés par l’industrie • • • On a une idée (souvent dans des labos de recherche) On fait un logiciel vite fait, il devient peut-être populaire… Puis on essaie de comprendre Et… la recherche académique a du mal à suivre S. Abiteboul, INRIA Saclay 31
32 Le temps d’une recherche plus fondamentale Le challenge: développer des fondements théoriques de ce domaine Pour comprendre et expliquer les systèmes que nous développons Pour développer de meilleurs systèmes • Garantir une qualité de service indispensable surtout pour les entreprises • Qualité des données, temps de réponse, confidentialité, sécurité, etc. Pour résoudre les verrous technologiques comme • Extraction de connaissances à partir du texte – linguistique • Automatisation: administration, gestion d’erreurs, tuning S. Abiteboul, INRIA Saclay 32
33 Les systèmes du Web et les données qu’ils gèrent sont devenus trop gros et complexes pour des solutions bricolées même par des hackers géniaux Il faut sortir du stade artisanal… (même si c’est perdre un peu de l’esprit du Web ) S. Abiteboul, INRIA Saclay 33
34 Merci S. Abiteboul, INRIA Saclay 34
- Slides: 34