Curso Online

Web Scraping

Trilha de Formação em Data Science

Web scraping é a tarefa de extrair (raspar) dados da internet de forma automatizada. A dificuldade de acesso e processamento de dados públicos torna essa prática uma etapa essencial para profissionais da Ciência de Dados. Nessa trilha, você vai aprender diversas ferramentas que o R nos proporciona para importação e faxina de dados. A importação de dados começa com a leitura de simples arquivos de texto, passa pela utilização de bancos de dados e é finalizada com ferramentas de raspagem de páginas estáticas e dinâmicas (web scraping). Já a faxina de dados envolve todas as ferramentas para transformar dados brutos em dados organizados, preparado-os para visualização e modelagem. Não se engane: importação e faxina são as tarefas que mais demandam tempo de profissionais da ciência de dados. Fazer isso de forma eficiente é um grande diferencial de mercado.

data do curso13 de março à 24 de julho, com aulas às segundas, quintas e sábados
As aulas são ao vivo. Você terá contato direto com as(os) prefessoras(es)!
Confira abaixo o calendário de aulas de cada curso.
tempo de curso 9 aulas, 30 horas de curso

de R$950 por:

R$855

Ao se inscrever no curso, você declara estar de acordo com os nossos Termos de uso.

Habilidades adquiridas

Organizar projetos de web scraping e faxina de dados
Escrever scripts em R para baixar dados da internet automaticamente
Acessar dados de APIs
Trabalhar com páginas estáticas e dinâmicas
Ler e estruturar dados de arquivos de diversos formatos, como .xml, .html, .json e .pdf
Identificar o objetivo de um trabalho de faxina
Escrever rotinas para detecção de inconsistências nos dados
Escrever scripts avançados com o tidyverse

Programa do curso

A formação consiste em dois cursos. O curso de Web Scraping acontecerá às segundas e quartas, das 19h00 às 22h00. O curso de faxina de dados acontecerá aos sábados, das 9h00 às 13h00. Não haverá aula em feriados e emendas de feriados.

O que vou receber?

Certificados dos cursos

Entrega digital após conclusão

Cursos 100% on-line

As aulas são ao vivo, mas ficam gravadas e a disposição por 1 ano

Português

Nível avançado

Exige experiência prévia.

Cursos do programa

Clique no nome de cada curso para acessar suas páginas individuais.

curso

1

FAXINA DE DADOS

data do curso08 e 15 e 22 de maio, três sábados, das 9h00 às 13h00
tempo de curso3 aulas, 12 horas de curso

A prática demonstra que entre 60% e 80% do trabalho da pessoa que trabalha com ciência de dados é voltada à leitura e arrumação de bases de dados. Então por que não discutir esse assunto com seriedade?

O objetivo deste curso é mostrar, através de diversos exemplos práticos, o incrível arsenal de ferramentas que o R nos proporciona para fazer a faxina de dados. Do ponto de vista teórico, vamos estudar sobre o que é uma base arrumada. Também vamos mostrar melhores práticas na estruturação de um projeto de faxina de dados, focando na reprodutibilidade e facilidade de compartilhar o trabalho realizado. Do ponto de vista prático, teremos muitos e muitos cases com arrumação de dados. O curso partirá de exemplos mais simples, como empilhar diversas bases de dados, até exemplos mais complexos, envolvendo rotinas de correção e validação de dados.

Introdução

  • O que são bases bagunçadas e arrumadas
  • Como organizar projetos de faxina de dados

Problemas comuns

  • Resolvendo problemas de importação
  • Melhores práticas para organização das colunas
  • Joins de bases

Cases

  • Identificando inconsistências nos dados
  • Lidando com dados públicos
  • Preparando dados para modelagem

curso

2

WEB SCRAPING

data do curso 21 de junho a 07 de julho, às segundas e quartas, das 19h00 às 22h00
tempo de curso 6 aulas, 18 horas de curso

Web scraping é a tarefa de extrair (raspar) dados da internet de forma automatizada. A dificuldade de acesso e processamento de dados públicos torna essa prática uma etapa essencial em diversas análises.

O objetivo deste curso é apresentar as principais ferramentas e estratégias para baixar e organizar dados da internet utilizando o R. Para isso, abordaremos as noções básicas de como um site é construído, como funcionam as requisições web e como descobrir o caminho até um conteúdo específico de uma página. Também abordaremos o uso de APIs e o que fazer quando o fluxo usual de raspagem não funciona.

Introdução

  • O que é e quando fazer web scraping
  • O ciclo do web scraping
  • Utilizando o Inspetor do navegador

Utilizando APIs

  • Acessando dados de APIs
  • APIs escondidas em sites
  • APIs com autenticação simples
  • Acessar APIs com OAuth2

Baixando dados brutos

  • Imitando a requisição do inspetor
  • O pacote httr
  • Requisições GET e POST

Construindo um parser

  • O pacote xml2
  • Introdução ao XPath
  • Estruturando os dados brutos

Aprimorando o algoritmo

  • Como iterar algoritmos no R
  • Tratamento de erros
  • Paralelização

Raspagem de páginas complexas

  • View states
  • Páginas dinâmicas com Selenium
  • Lidando com Captchas

Como será?

  • Aulas online, em tempo real, com um(a) professor(a) e um(a) monitor(a).
  • Diversos exercícios "para casa" para praticar e tirar dúvidas.
  • Projeto de análise de dados para aplicar o conteúdo aprendido.
  • Gravação das aulas disponíveis por pelo menos 1 ano.

Pré-requisitos

  • Interesse por Ciência de Dados
  • Conhecimentos básicos de computação: criação de arquivos e pastas, instalação de programas, navegação na internet.
  • O conteúdo do nosso curso R para Ciência de Dados I.

Professores

JULIO TRECENTI

Faxineiro de dados. Doutorando em Estatística pelo IME-USP. Secretário-geral da Associação Brasileira de Jurimetria (ABJ). Conselheiro do CONFE. Sócio da Terranova Consultoria. Trabalha com web scraping, arrumação de dados, construção de modelos preditivos, APIs, pacotes em R e dashboards em Shiny.

FERNANDO CORRÊA

Bacharel e mestrando em Estatística pelo IME-USP. Ex-diretor da Associação Brasileira de Jurimetria. Usa R para tudo, mas tem interesse especial em web scraping, visualização de dados e modelagem bayesiana.

CAIO LENTE

Mestrando em Ciência da Computação no IME-USP e cientista de dados na Terranova Consultoria. Programador desde os 15 anos, começou a se apaixonar pelo R em 2016 e agora não fala em outra coisa. Metido a designer, maníaco da organização e metade texano

Perguntas Frequentes - FAQ

Sim! Basta acessar a página Curso-R.com.br/cursos e se inscrever. Mas ressaltamos que os preços promocionais dessa página só se aplicam aos pacotes completos.

Sim, você receberá o certificado ao final do curso (sujeito à entrega de atividades solicitadas pelos professores), com a carga horária específica delimitada na página do curso. O certificado é individual e terá o mesmo nome que você utilizou na compra.

Sim, as aulas são gravadas e disponibilizadas para os alunos inscritos por pelo menos 1 ano.

Após a confirmação da compra, você receberá um e-mail de nossa equipe com a confirmação de sua inscrição, com as informações para entrar na turma pelo google classroom.

Caso você não receba email de confirmação antes do curso começar, primeiramente dê uma olhada na sua caixa de spam. Caso não esteja lá, basta nos enviar um e-mail para contato@Curso-R.com.

Depende do curso, todas as informações necessárias para ingressar em qualquer curso da Curso-R pode ser encontrada na sua respectiva página. As trilhas são pacotes promocionais de cursos com grandes descontos. O preço das trilhas pode ser encontrado também nas suas páginas.

Nós trabalhamos com cartão de crédito, boleto e transferência bancária.