Comment importer des données d'observations UFO sur Internet dans une feuille de calcul Google
En ce qui concerne les bases de données en ligne et les informations que l’on trouve dans ce qu’on appelle communément le “web invisible 10 Moteurs de recherche pour explorer le Web invisible 10 Moteurs de recherche pour explorer le Web invisible Nous sommes familiarisés avec le Web. Mais saviez-vous qu'il existe un vaste cache d'informations auquel les moteurs de recherche tels que Google n'ont pas d'accès direct? C'est le web invisible. Lire la suite “, Je ne suis pas votre utilisateur typique. Bien sûr, je passe un peu trop de mon temps à parcourir des bases de données en ligne à des endroits tels que les Archives nationales et la salle de lecture CIA FOIA, mais je dois dire que rien ne me rend plus excité que lorsque je trouve un tableau HTML rempli de volumes de données apparemment complexes et non liées.
Le fait est que les tableaux de données sont une mine d'or de vérités importantes. Les données sont souvent collectées par des armées de grognements de collecte de données avec des bottes sur le terrain. Des personnes du recensement américain parcourent l’ensemble du pays à la recherche d’informations sur le ménage et la famille. Vous avez des groupes environnementaux à but non lucratif qui collectent toutes sortes d'informations intéressantes sur l'environnement, la pollution, le réchauffement climatique et bien plus encore. Et si vous aimez le paranormal ou l'ufologie, il y a également des tableaux d'informations constamment mis à jour sur les observations d'objets étranges dans le ciel au-dessus de nous..
Ironiquement, on pourrait penser que n'importe quel gouvernement dans le monde voudrait savoir quel type d'artisanat étranger est aperçu dans les cieux au-dessus de n'importe quel pays, mais apparemment pas, du moins pas aux États-Unis. En Amérique, la collection d'observations inhabituelles d'artisanat a été reléguée aux équipes d'amateurs amateurs qui affluent vers de nouvelles observations d'OVNI comme des papillons de nuit en flammes. Mon intérêt pour ces observations ne découle en réalité pas d'une fascination pour les extraterrestres ou l'artisanat d'autres planètes, mais d'une fascination scientifique pour les motifs - où et pourquoi plus de gens voient-ils des choses dans le ciel, et si ces observations pourraient révéler quelque chose de très réel plus terre-à-terre passe réellement.
Pour explorer les volumes de données collectées par des équipes de passionnés d'OVNI, j'ai en fait développé un moyen d'importer de grandes tables de données HTML dans une feuille de calcul Google, puis de manipuler et d'analyser ces données pour extraire et découvrir des informations significatives et importantes. Dans cet article, j’ai l’intention de vous montrer comment faire de même..
Données HTML importantes dans la feuille de calcul Google
Dans cet exemple, je vais vous montrer comment importer dans votre feuille de calcul Google les données susceptibles d'être stockées dans un tableau de n'importe quel site Web sur Internet. Pensez au volume énorme de données disponibles sur Internet aujourd'hui sous forme de tableaux HTML. Wikipedia à lui seul contient des données dans des tableaux sur des sujets tels que le réchauffement climatique, le bureau de recensement américain dispose de tonnes de données sur la population, et un peu de recherche sur Google vous en apprendra plus..
Dans mon exemple, je commence avec une base de données du National UFO Reporting Center qui ressemble en réalité à une base de données Web profonde du type requête, mais si vous observez la structuration de l'URL, il s'agit en fait d'une base Web semi-complexe. système de reporting basé sur des pages Web statiques et des tables HTML statiques - exactement ce que nous voulons lorsque nous recherchons des données à importer.
NUForc.org est l'une de ces organisations qui constitue l'un des plus grands centres de compte rendu d'observations d'OVNIS. Ce n'est pas le seul, mais il est assez grand pour trouver de nouveaux jeux de données avec les observations actuelles pour chaque mois. Vous choisissez d'afficher les données triées par critères, comme État ou Date, et chacune de celles-ci est fournie sous la forme d'une page statique. Si vous triez par date puis cliquez sur la date la plus récente, vous verrez que le tableau indiqué contient une page Web statique nommée en fonction du format de date..
Nous avons donc maintenant un modèle pour extraire régulièrement les dernières informations sur les observations de cette base de données HTML. Tout ce que vous avez à faire est d’importer le premier tableau, d’utiliser l’entrée la plus récente (celle du haut) pour identifier la dernière mise à jour, puis d’utiliser la date de cette publication pour créer le lien URL où se trouve le dernier tableau de données HTML. Cela nécessitera simplement quelques instances de la fonction ImportHTML, puis quelques utilisations créatives des fonctions de manipulation de texte. Une fois que vous avez terminé, vous aurez l’un des plus intéressants, vos propres feuilles de calcul de rapport à mise à jour automatique. Commençons.
Importation de tables et manipulation de données
La première étape consiste bien entendu à créer le nouveau tableur..
Alors, comment importer des tableaux HTML? Tout ce dont vous avez besoin est l'URL où la table est stockée et le numéro de la table sur la page - généralement celle qui est en premier répertoriée est 1, la seconde 2 et ainsi de suite. Étant donné que je connais l'URL du premier tableau répertoriant les dates et le nombre d'observations répertoriées, il est possible d'importer en saisissant la fonction suivante dans la cellule A1..
= importhtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”table”,1)
H2 détient la fonction “= heure (maintenant ())“, La table sera mise à jour toutes les heures. C'est probablement extrême pour les données qui mettent à jour cela rarement, alors je pourrais probablement m'en tirer au quotidien. Quoi qu'il en soit, la fonction ImportHTML ci-dessus apporte le tableau comme indiqué ci-dessous.
Vous devrez faire un peu de manipulation de données sur cette page avant de pouvoir reconstituer l'URL du second tableau avec toutes les observations d'OVNIS. Mais allez-y et créez la deuxième feuille du cahier.
Avant d'essayer de créer cette deuxième feuille, il est temps d'extraire la date de publication de cette première table afin de créer le lien vers la deuxième table. Le problème est que la date est importée sous forme de format de date et non de chaîne. Donc, vous devez d’abord utiliser la fonction TEXT pour convertir la date de publication du rapport en chaîne:
= texte (A2,”mm / jj / aa”)
Dans la cellule suivante à droite, vous devez utiliser la fonction SPLIT avec le “/” délimiteur pour décomposer la date en mois, jour et année.
= scindé (D2,”/”)
Vous cherchez bien! Cependant, chaque numéro doit être forcé à deux chiffres. Vous faites cela dans les cellules juste en dessous d'eux en utilisant à nouveau la commande TEXT.
= texte (E2,”00 ")
Un format de “00” (ce sont des zéros) force deux chiffres, ou un “0” comme espace réservé.
Vous êtes maintenant prêt à reconstruire l'intégralité de l'URL avec le dernier tableau HTML des nouvelles observations. Vous pouvez le faire en utilisant la fonction CONCATENATE et en rassemblant toutes les informations que vous venez d'extraire de la première table..
= concaténer (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)
Maintenant, sur la nouvelle feuille que vous avez créée ci-dessus (la feuille vierge), vous allez faire une nouvelle “importhtml” fonction, mais cette fois pour le premier paramètre de lien URL, vous allez donc revenir à la première feuille de calcul et cliquer sur la cellule contenant le lien URL que vous venez de créer.
Le deuxième paramètre est “table” et le dernier est “1” (parce que la table des observations est la première et unique sur la page). Appuyez sur Entrée et vous venez d'importer l'intégralité du nombre d'observations publiées à cette date..
Donc, vous pensez probablement que c'est une belle loi sur la nouveauté et tout - je veux dire, après tout, ce que vous avez fait est d'extraire des informations existantes d'une table sur Internet et de les migrer vers une autre table, même privée. Compte Google Docs. Oui c'est vrai. Cependant, maintenant qu'il se trouve dans votre propre compte Google Docs privé, vous avez à portée de main les outils et fonctions permettant de mieux analyser ces données et de commencer à découvrir des connexions étonnantes..
Utilisation des rapports croisés dynamiques pour analyser les données importées
Récemment, j'ai écrit un article sur l'utilisation des rapports de pivot dans Google Spreadsheet. Devenez un analyste expert de données. Utilisez les outils de rapport Google Spreadsheet. Devenez un analyste d'expert de données. Utilisez les outils de rapport Google Spreadsheet. Saviez-vous que l'un des meilleurs outils de gestion de données analyse est en réalité Google Spreadsheet? La raison en est non seulement parce qu'il peut faire presque tout ce que vous voudrez peut-être… Lire la suite pour effectuer toutes sortes de prouesses en matière d'analyse de données. Eh bien, vous pouvez effectuer les mêmes acrobaties d'analyse de données sur les données que vous avez importées d'Internet, ce qui vous permet de découvrir des liens intéressants que personne d'autre n'a encore découverts avant vous..
Par exemple, dans le tableau des observations finales, je pourrais décider d’utiliser un rapport pivot pour examiner le nombre de formes uniques différentes signalées dans chaque État, par rapport au nombre total d’observations dans cet État. Enfin, je filtre aussi tout ce qui mentionne “extraterrestres” dans la section des commentaires, nous espérons éliminer certaines des entrées les plus aigles.
Cela révèle d'emblée des choses assez intéressantes, comme le fait que la Californie a clairement le plus grand nombre d'observations rapportées de tout autre État, ainsi que la distinction de signaler le plus grand nombre de formes d'artisanat dans le pays. Il montre également que le Massachusetts, la Floride et l'Illinois sont également de gros frappeurs dans le département des observations d'OVNIS (du moins dans les données les plus récentes)..
Une autre chose intéressante à propos de Google Spreadsheet est le large éventail de graphiques à votre disposition, y compris une carte géographique qui vous permet de disposer “points chauds” des données dans un format graphique qui se démarque vraiment et rend ces connexions au sein des données assez évidentes.
Si vous y réfléchissez, ce n’est vraiment que la pointe de l’iceberg. Si vous pouvez maintenant importer des données à partir de tableaux de données sur n’importe quelle page d’Internet, il suffit de penser aux possibilités. Obtenez les numéros de stock les plus récents, ou les 10 livres et auteurs les plus récents figurant sur la liste des best-sellers du New York Times, ou les voitures les plus vendues au monde. Il existe des tableaux HTML sur presque tous les sujets imaginables, et dans de nombreux cas, ces tableaux sont fréquemment mis à jour..
ImportHtml vous permet de connecter votre feuille de calcul Google à Internet et d’alimenter les données existantes. Cela peut devenir votre propre centre d'informations personnel que vous pouvez utiliser pour manipuler et transformer en un format avec lequel vous pouvez réellement travailler. C’est encore une chose très cool à aimer de Google Spreadsheet.
Avez-vous déjà importé des données dans vos feuilles de calcul? Quel genre de choses intéressantes avez-vous découvert dans ces données? Comment avez-vous utilisé les données? Partagez vos expériences et vos idées dans la section commentaires ci-dessous!
Crédits d'image: graphique d'entreprise
Explorer plus sur: Google, Spreadsheet.