Coleta de Dados
Esta página fornece informações sobre como coletar dados do Portal de Dados Abertos da ARTESP. A coleta de dados permite que você colete e sincronize automaticamente conjuntos de dados do nosso portal para seus próprios sistemas. Oferecemos múltiplos métodos para a coleta de dados, facilitando a integração de nossos conjuntos de dados abertos em suas aplicações, ferramentas de análise ou outras plataformas de dados.
O que é Coleta de Dados?
A coleta de dados é o processo de coletar automaticamente metadados e dados de um portal de dados para outro. Permite que organizações e indivíduos mantenham uma cópia local de conjuntos de dados sincronizados com a fonte original. Isso é particularmente útil para:
- Criar catálogos de dados federados ou agregados
- Construir aplicações que necessitam de atualizações regulares de dados
- Integrar dados abertos em seus próprios sistemas
- Realizar análises em múltiplos conjuntos de dados
Métodos de Coleta de Dados Disponíveis
Endpoints DCAT RDF
Nosso portal suporta o padrão Data Catalog Vocabulary (DCAT), que fornece uma estrutura para descrever conjuntos de dados em um catálogo. Oferecemos os seguintes endpoints DCAT:
Endpoint do Catálogo
Acesse todos os conjuntos de dados em nosso catálogo através de:
https://dadosabertos.artesp.sp.gov.br/catalog.{format}
onde {format} pode ser xml, ttl, n3 ou jsonld
Parâmetros:
page={number}
- Para paginação (padrão: 1)modified_since={ISO-date}
- Filtrar conjuntos de dados modificados desde uma data específicaq={query}
- Consulta de busca para filtrar conjuntos de dados
Exemplo: https://dadosabertos.artesp.sp.gov.br/catalog.xml?page=2&modified_since=2023-01-01
Endpoints de Conjuntos de Dados Individuais
Acesse metadados para um conjunto de dados específico:
https://dadosabertos.artesp.sp.gov.br/dataset/{dataset-id}.{format}
onde {format} pode ser xml, ttl, n3 ou jsonld
Exemplo: https://dadosabertos.artesp.sp.gov.br/dataset/acidentes.xml
Negociação de Conteúdo
Nosso portal também suporta negociação de conteúdo, permitindo que clientes solicitem formatos específicos usando cabeçalhos HTTP Accept:
application/rdf+xml
para formato RDF/XMLtext/turtle
para formato Turtletext/n3
para formato N3application/ld+json
para formato JSON-LD
Exemplo usando curl: curl -H "Accept: text/turtle" https://dadosabertos.artesp.sp.gov.br/dataset/rodovias-concedidas
Configuração DCAT
Nossa implementação DCAT é configurada com as seguintes definições:
- Perfis RDF: DCAT-AP 3.0
- Endpoints RDF habilitados
- Negociação de conteúdo habilitada
- Configuração de 100 conjuntos de dados por página
Configurando um Coletor no CKAN
Se você estiver usando CKAN para coletar dados do nosso portal, você pode usar a extensão "CKAN Harvester". Aqui estão os passos básicos:
- Instale a extensão ckanext-harvest em sua instância CKAN
- Configure o coletor para usar o coletor CKAN (para coleta CKAN-para-CKAN) ou o coletor DCAT RDF (para coleta através de nossos endpoints DCAT)
- Crie uma nova fonte de coleta apontando para a URL do nosso portal
- Configure o coletor com as opções apropriadas (frequência, filtros, etc.)
- Inicie o processo de coleta
Exemplo de Configuração para Coletor DCAT RDF
Ao configurar um coletor DCAT RDF, você pode usar esta configuração:
{ "rdf_format": "xml", "profiles": ["euro_dcat_ap_3"], "default_extras": { "harvest_source_title": "ARTESP Open Data Portal", "harvest_source_url": "https://dadosabertos.artesp.sp.gov.br/" } }
Precisa de Ajuda?
Se você encontrar quaisquer problemas ao configurar a coleta do nosso portal, por favor entre em contato conosco para assistência.
Última atualização: Junho de 2025