Coleta de Dados

Esta página fornece informações sobre como coletar dados do Portal de Dados Abertos da ARTESP. A coleta de dados permite que você colete e sincronize automaticamente conjuntos de dados do nosso portal para seus próprios sistemas. Oferecemos múltiplos métodos para a coleta de dados, facilitando a integração de nossos conjuntos de dados abertos em suas aplicações, ferramentas de análise ou outras plataformas de dados.

O que é Coleta de Dados?

A coleta de dados é o processo de coletar automaticamente metadados e dados de um portal de dados para outro. Permite que organizações e indivíduos mantenham uma cópia local de conjuntos de dados sincronizados com a fonte original. Isso é particularmente útil para:

  • Criar catálogos de dados federados ou agregados
  • Construir aplicações que necessitam de atualizações regulares de dados
  • Integrar dados abertos em seus próprios sistemas
  • Realizar análises em múltiplos conjuntos de dados

Métodos de Coleta de Dados Disponíveis

Endpoints DCAT RDF

Nosso portal suporta o padrão Data Catalog Vocabulary (DCAT), que fornece uma estrutura para descrever conjuntos de dados em um catálogo. Oferecemos os seguintes endpoints DCAT:

Endpoint do Catálogo

Acesse todos os conjuntos de dados em nosso catálogo através de:

  • https://dadosabertos.artesp.sp.gov.br/catalog.{format} onde {format} pode ser xml, ttl, n3 ou jsonld

Parâmetros:

  • page={number} - Para paginação (padrão: 1)
  • modified_since={ISO-date} - Filtrar conjuntos de dados modificados desde uma data específica
  • q={query} - Consulta de busca para filtrar conjuntos de dados

Exemplo: https://dadosabertos.artesp.sp.gov.br/catalog.xml?page=2&modified_since=2023-01-01

Endpoints de Conjuntos de Dados Individuais

Acesse metadados para um conjunto de dados específico:

  • https://dadosabertos.artesp.sp.gov.br/dataset/{dataset-id}.{format} onde {format} pode ser xml, ttl, n3 ou jsonld

Exemplo: https://dadosabertos.artesp.sp.gov.br/dataset/acidentes.xml

Negociação de Conteúdo

Nosso portal também suporta negociação de conteúdo, permitindo que clientes solicitem formatos específicos usando cabeçalhos HTTP Accept:

  • application/rdf+xml para formato RDF/XML
  • text/turtle para formato Turtle
  • text/n3 para formato N3
  • application/ld+json para formato JSON-LD

Exemplo usando curl: curl -H "Accept: text/turtle" https://dadosabertos.artesp.sp.gov.br/dataset/rodovias-concedidas

Configuração DCAT

Nossa implementação DCAT é configurada com as seguintes definições:

  • Perfis RDF: DCAT-AP 3.0
  • Endpoints RDF habilitados
  • Negociação de conteúdo habilitada
  • Configuração de 100 conjuntos de dados por página

Configurando um Coletor no CKAN

Se você estiver usando CKAN para coletar dados do nosso portal, você pode usar a extensão "CKAN Harvester". Aqui estão os passos básicos:

  1. Instale a extensão ckanext-harvest em sua instância CKAN
  2. Configure o coletor para usar o coletor CKAN (para coleta CKAN-para-CKAN) ou o coletor DCAT RDF (para coleta através de nossos endpoints DCAT)
  3. Crie uma nova fonte de coleta apontando para a URL do nosso portal
  4. Configure o coletor com as opções apropriadas (frequência, filtros, etc.)
  5. Inicie o processo de coleta

Exemplo de Configuração para Coletor DCAT RDF

Ao configurar um coletor DCAT RDF, você pode usar esta configuração:

{
  "rdf_format": "xml",
  "profiles": ["euro_dcat_ap_3"],
  "default_extras": {
    "harvest_source_title": "ARTESP Open Data Portal",
    "harvest_source_url": "https://dadosabertos.artesp.sp.gov.br/"
  }
}
  

Precisa de Ajuda?

Se você encontrar quaisquer problemas ao configurar a coleta do nosso portal, por favor entre em contato conosco para assistência.

Última atualização: Junho de 2025