Faites des études de recherche Web visionnaires en utilisant des données Web profondes et des requêtes Web Excel

Faites des études de recherche Web visionnaires en utilisant des données Web profondes et des requêtes Web Excel / les fenêtres

Que diriez-vous si je vous disais que vous avez les outils à votre disposition pour mener des recherches révolutionnaires et révolutionnaires? Eh bien, vous le faites, et je vais vous montrer comment.

Les gouvernements, les établissements universitaires et les organismes de recherche à but non lucratif publient des tableaux complets de données dans le domaine public. Si personne n'utilise cette information, sa véritable valeur ne sera jamais connue. Malheureusement, peu de personnes ont la perspicacité, les compétences ou les outils nécessaires pour exploiter les données et établir des corrélations intéressantes entre des informations apparemment non liées..

Contexte

Une bonne partie de la recherche que je fais pour mon propre blog implique de fouiller dans ce que nous appelons le Web invisible. 10 Moteurs de recherche pour explorer le Web invisible 10 moteurs de Recherche pour explorer le Web invisible Nous sommes familiarisés avec le Web. Mais saviez-vous qu'il existe un vaste cache d'informations auquel les moteurs de recherche tels que Google n'ont pas d'accès direct? C'est le web invisible. En savoir plus, pour découvrir les données publiées, mais masquées par les moteurs de recherche. Les 5 moteurs de recherche les plus avancés sur le Web Les 5 moteurs de recherche les plus avancés sur le Web Lisez-en plus dans une base de données en ligne. TorSearch veut être le Google pour le Web profond TorSearch est le Google pour le Web profond Tor est un service caché qui fait partie du Web profond. TorSearch est un nouveau moteur de recherche anonyme que son fondateur, Chris MacNaughton, souhaite faire de la “Google de Tor”. Lire la suite, et il regorge de données précieuses. Très souvent, je rencontre des pages Web qui regorgent de données parmi les plus précieuses sur des sujets allant des données de recensement aux études épidémiologiques sur les maladies rares. J'ai constamment de nouvelles idées sur la façon d'essayer de mettre en corrélation ces sources de données disparates à l'aide de divers outils - et l'un des outils les plus précieux que j'ai trouvé est la requête sur le Web dans Microsoft Excel..

Recherche de corrélations de données intéressantes

Ce que je vais vous montrer aujourd’hui est un exemple de la façon dont vous pouvez utiliser Excel Web Queries pour extraire des données de différents sites Web et les comparer les unes aux autres afin de rechercher des corrélations potentielles entre les données..

La façon de commencer un exercice comme celui-ci est de formuler une hypothèse intéressante. Par exemple, pour que les choses restent intéressantes ici, je vais postuler au hasard que les taux d’augmentation de l’autisme aux États-Unis sont causés par des vaccinations vaccinales ou par la présence croissante de champs électromagnétiques chez et autour des enfants, tels que les téléphones portables. C'est une hypothèse délirante que vous trouverez sur la plupart des sites Web sur la théorie du complot, mais c'est ce qui rend tout cela amusant. Alors commençons, allons-nous?

Tout d’abord, ouvrez Excel, passez à l’élément de menu Données et recherchez le “De Web” icône dans le ruban de menu.

C’est ce que vous utiliserez pour importer les différents tableaux de données à partir des nombreux sites Web qui les ont publiés..

Importation de données Web dans Excel

Donc, dans le passé, vous deviez essayer de copier les données de ce tableau sur une page Web, les coller dans Excel, puis régler tous les problèmes de formatage insensés que cela impliquait. Total des tracas, et souvent, ça ne vaut pas la peine. Eh bien, avec Excel Web Queries, ces jours sont révolus. Bien entendu, avant de pouvoir importer les données, vous devez naviguer sur le Web pour trouver les données dont vous avez besoin sous forme de tableau. Dans mon cas, j’ai trouvé un site Web qui avait publié les statistiques du Département de l’éducation sur le nombre d’élèves des écoles publiques américaines identifiés comme autistes. Une belle table a fourni les chiffres de 1994 à 2006.

Donc, il suffit de cliquer sur “De Web”, collez l'URL de la page Web dans le champ d'adresse de la requête, puis faites défiler la page jusqu'à voir la flèche jaune à côté du tableau avec les données que vous souhaitez importer.

Cliquez sur la flèche pour qu'elle devienne une coche verte..

Enfin, indiquez à Excel le champ dans lequel vous souhaitez coller les données du tableau dans votre nouvelle feuille de calcul..

Alors - voila! Les données entrent automatiquement dans votre feuille de calcul.


Donc, avec la tendance actuelle des taux d'autisme dans les écoles publiques de 1996 à 2006, il est temps de partir à la recherche de tendances en matière de vaccination et d'utilisation du téléphone portable..

Heureusement, j’ai rapidement trouvé les tendances pour les abonnés au téléphone cellulaire aux États-Unis de 1985 à 2012. Excellentes données pour cette étude particulière. Encore une fois, j'ai utilisé l'outil Excel Web Query pour importer ce tableau..

J'ai importé cette table dans une nouvelle feuille vierge. Ensuite, j'ai découvert les tendances en matière de vaccination pour le pourcentage d'enfants scolarisés vaccinés contre différentes maladies. J'ai importé cette table à l'aide de l'outil de requête Web dans une troisième feuille. Donc, finalement, j'ai eu trois feuilles avec les trois tables remplies de données apparemment non liées que j'avais découvertes sur le Web.

L'étape suivante consiste à utiliser Excel pour analyser les données et essayer d'identifier les corrélations. C’est là que l’un de mes outils d’analyse de données préférés entre en jeu - le tableau croisé dynamique..

Analyse de données dans Excel avec le tableau croisé dynamique

Il est préférable de créer votre tableau croisé dynamique dans une nouvelle feuille vide. Vous voulez utiliser l'assistant pour ce que vous êtes sur le point de faire. Pour activer l'assistant de tableau croisé dynamique dans Excel, vous devez appuyer simultanément sur les touches Alt-D jusqu'à ce qu'une fenêtre de notification s'ouvre. Puis relâchez ces boutons et appuyez sur le bouton “P” clé. Ensuite, vous verrez l'assistant apparaître.

Dans la première fenêtre de l’assistant, vous voulez sélectionner “Multiples plages de consolidation”, qui vous permet de sélectionner les données de toutes les feuilles que vous avez importées. En faisant cela, vous pouvez consolider toutes ces données apparemment sans lien en une puissante base pivotante. Dans certains cas, vous devrez peut-être manipuler certaines des données. Par exemple, je devais réparer le “Année” champ dans la table de l'autisme de sorte qu'il a montré “1994” au lieu de “1994-95” - ce qui l'aligne mieux avec les tableaux sur les autres feuilles, qui ont également eu le champ année primaire.

Ce domaine commun entre les données est ce dont vous avez besoin pour essayer de corréler les informations. Gardez cela à l'esprit lorsque vous recherchez le Web pour vos données..

Une fois que le tableau croisé dynamique est terminé et que toutes les valeurs de données différentes sont affichées dans un tableau, il est temps de procéder à une analyse visuelle pour voir s'il existe un lien évident qui vous saute aux yeux..

La visualisation des données est la clé

Avoir un tas de chiffres dans un tableau est génial si vous êtes économiste, mais c'est le moyen le plus rapide et le plus simple de le faire. “aha!” Le moment où vous essayez de trouver des connexions comme une aiguille dans une botte de foin est via des tableaux et des graphiques. Une fois que votre graphique croisé dynamique est en place avec tous les jeux de données que vous avez collectés, il est temps de créer votre graphique. Habituellement, un graphique linéaire est préférable, mais cela dépend des données. Il y a des moments où un graphique à barres fonctionne beaucoup mieux. Essayez de comprendre le type de données que vous consultez et les comparaisons de formes qui fonctionnent le mieux..

Dans ce cas, je regarde les données au fil du temps, donc un graphique linéaire est vraiment le meilleur moyen de voir les tendances au fil des ans. En comparant les taux d'autisme (en vert) avec les taux de vaccination réduits (en bleu foncé), les vaccins contre la varicelle (en bleu clair) et l'utilisation du téléphone portable (en violet), une corrélation étrange est soudainement apparue dans cet échantillon de données avec lequel je jouais.

Curieusement, la tendance de l’utilisation du téléphone cellulaire de 1994 à 2006 correspondait presque parfaitement à la hausse du taux d’autisme au cours de la même période. Bien que ce schéma soit totalement inattendu, il illustre parfaitement la manière dont la combinaison de données intéressantes peut révéler des pistes fascinantes - vous apportant une plus grande perspicacité et la motivation nécessaire pour continuer à aller de l'avant et rechercher davantage de données susceptibles de renforcer votre hypothèse..

Une corrélation comme celle ci-dessus ne prouve rien. Il existe de nombreuses tendances qui se dessinent au fil du temps - le schéma pourrait être une coïncidence, mais cela pourrait également être un indice important dans votre quête continue de davantage de données sur Internet. Heureusement, vous disposez d'un outil puissant appelé Excel Web Queries qui rendra cette quête un peu plus facile..

Crédit photo: Kevin Dooley via photopin cc

En savoir plus sur: Microsoft Excel.