Faire de la science des données dans le nuage avec ScraperWiki

Faire de la science des données dans le nuage avec ScraperWiki / l'Internet

Si vous avez les qualités psychologiques, le flair pour la programmation et la narration, et le sens du design, vous pouvez faire pire que de vous lancer dans la science des données. C'est la nouvelle grande chose dans la technologie; très en vogue et très bien rémunéré, les données scientifiques étant recherchées par certaines des plus grandes entreprises du monde.

ScraperWiki est une entreprise qui a longtemps été associée au domaine de la science des données. Depuis quelques années, cette startup basée à Liverpool offre aux développeurs une plate-forme pour écrire des outils permettant de récupérer, de nettoyer et d'analyser des données dans le cloud..

Avec une actualisation récente et la demande toujours croissante de scientifiques de données dans l'entreprise, il convient de jeter un coup d'œil à ScraperWiki.

Divulgation complète: j'étais stagiaire à ScraperWiki l'été dernier.

Que fait ScraperWiki??

ScraperWiki se présente comme un lieu d’obtention, de nettoyage et d’analyse des données, et répond à chacun de ces objectifs. Sous sa forme la plus simple, il vous permet - à l'utilisateur - de créer un code permettant d'extraire du code des données d'une source, de le convertir en un format facile à analyser et de le stocker pour le visualiser ultérieurement. peut aussi gérer avec ScraperWiki.

Il est également livré avec un certain nombre d'outils prédéfinis qui automatisent les tâches répétitives, notamment l'obtention de données à partir de fichiers PDF, qui sont notoirement difficiles à décoder. Ceci est en plus de la recherche sur Twitter 5 astuces de recherche Twitter cool pour surveiller ce que les gens disent de vous 5 astuces de recherche Twitter pour surveiller ce que les gens disent de vous Si vous possédez un site Web ou essayez simplement de gagner de l'argent en ligne en tant que pigiste, il est toujours bon de savoir ce que les gens disent de vous sur Internet. Les gens citent peut-être… Read More et grattent les services publics. Vous n'avez besoin d'aucune expérience en développement logiciel pour utiliser ces logiciels..

Coût

Comme mentionné précédemment, ScraperWiki adopte le modèle de tarification freemium et offre un service à plusieurs niveaux. Ceux qui débutent avec la science des données ou avec des besoins limités peuvent utiliser le service gratuit. Cela vous donne trois jeux de données - où vous stockez vos données et votre code.

Ceux qui envisagent d'écrire plusieurs scrapeurs ou de faire des montagnes d'analyse de données peuvent débourser de l'argent pour un compte premium. Ceux-ci commencent à 9 $ par mois et offrent 10 jeux de données. Si cela ne vous suffit toujours pas, vous pouvez toujours passer au niveau supérieur, qui comprend 100 jeux de données et coûte 29 $ par mois..

Codage

Les programmeurs sont souvent assez précis quant à la manière dont ils codent. Certains préfèrent les langages de script aux langages compilés. Certains préfèrent l'expérience réduite d'un éditeur de texte à celle d'un environnement de développement intégré (IDE). ScraperWiki le reconnaît et donne à l'utilisateur un choix énorme en matière d'écriture de code..

Si vous le souhaitez, vous pouvez écrire votre code dans le navigateur. Comme on peut s'y attendre de la part de n'importe quel professionnel de niveau Web, basé sur le navigateur, à coder dans le cloud avec le navigateur. Outil de développement à coder dans le nuage basé sur le navigateur. Lire plus, cet outil est fourni avec des fonctionnalités que tout programmeur considéré comme essentiel, comme la coloration syntaxique.

Plusieurs langues sont proposées. Ceux-ci incluent Python Les 5 meilleurs sites Web pour apprendre la programmation Python Les 5 meilleurs sites Web pour apprendre la programmation Python Vous voulez apprendre la programmation Python? Voici les meilleurs moyens d'apprendre Python en ligne, dont beaucoup sont entièrement gratuits. Read More, un langage de script populaire utilisé par Google et la NASA; Ruby 3 Méthodes interactives, amusantes et gratuites pour commencer à apprendre le langage de programmation Ruby 3 Méthodes interactives, amusantes, gratuitement, pour commencer à apprendre Le langage de programmation Ruby Ruby est un langage de script expressif de très haut niveau. Il est utilisé sur le Web principalement dans le cadre du cadre de développement Web de Ruby on Rails, mais également de manière autonome. Si vous êtes curieux de savoir ce que Ruby (pas… Read More, qui alimente un certain nombre de sites Web populaires tels que Living Social; et le langage d'analyse statistique populaire, R.

En outre, vous pouvez également écrire du code à partir de la ligne de commande en utilisant SSH, Git et l’éditeur de texte que vous aimez utiliser. Oui, tu l'as bien lu. SSH Qu'est-ce que SSH et ce qui le différencie du FTP [Technologie expliquée] Qu'est-ce que le SSH et ses différences - FTP [La technologie expliquée] En savoir plus. Chaque boîte que vous utilisez est son propre compte Linux, et vous pouvez vous y connecter comme vous le feriez avec un compte VPS ou tout autre compte shell. Il existe un certain nombre d'éditeurs de texte disponibles, notamment Vim Les 7 principales raisons de donner une chance à l'éditeur de texte Vim Les 7 principales raisons de donner une chance à l'éditeur de texte Vim Pendant des années, j'ai essayé un éditeur de texte après l'autre. Vous l'appelez, je l'ai essayé. J'ai utilisé chacun de ces rédacteurs pendant plus de deux mois comme rédacteur principal quotidien. En quelque sorte, je… Lire la suite qui peut être étendu avec des plugins et en modifiant la configuration. Ceux qui sont intimidés par Vim peuvent utiliser Nano, un éditeur de texte en ligne de commande léger..

Les bibliothèques installées devraient suffire pour que les outils d’écriture récupèrent les données et les traitent. Si vous avez besoin de quelque chose d'un peu plus obscur, vous pouvez toujours créer un virtualenv à partir de la ligne de commande. Comme vous pouvez le constater, les développeurs disposent d’une grande flexibilité..

Visualisation de données

Donc, vous avez vos données. Vous l'avez normalisé. Vous l'avez nettoyé. Vous l'avez analysé. Il est maintenant temps de faire de la visualisation et de montrer au monde ce que vous avez appris.

ScraperWiki permet aux développeurs d’afficher leurs données à l’aide de pages Web construites à partir de la trifecta bien connue de HTML, CSS et JavaScript. De plus, les composants Bootstrap sont pris en charge immédiatement..

Un certain nombre de visualisations prédéfinies sont disponibles, y compris celles qui affichent vos données sur une carte et repèrent les tendances au sein de vos résultats. Pour les utiliser, vous devez vous assurer que vos données sont stockées sous forme de fichier SQLite avec le nom de fichier 'scraperwiki.sqlite'. Ensuite, vous ajoutez simplement la visualisation qui vous intéresse. Simple, à droite?

Conclusion

ScraperWiki offre beaucoup aux développeurs qui souhaitent effectuer une analyse de données sans que leur environnement de développement ne soit gêné, tout en ayant la flexibilité de satisfaire même les utilisateurs les plus exigeants. Mais que pensez-vous? Laissez-moi savoir dans les commentaires ci-dessous.
Crédit photo: Rocket Science (Dan Brown)

Explorer plus sur: Cloud Computing, Web Analytics.