Sob o capô do Canadá passa com Brendan Samek

Sob o capô do Canadá passa com Brendan Samek


Sob o capô do Canadá passa com Brendan Samek

9 de dezembro de 2025

Conversei com Brendan Samek sobre Canada Spends, um projeto da Build Canada que torna os dados financeiros do governo canadense acessíveis e exploráveis ​​usando uma combinação de Datasette, um front-end personalizado elegante, scripts de ingestão Ruby, utilitários sqlite e peças de extração de PDF com tecnologia LLM.

Aqui está o vídeo no YouTube.

Seções desse vídeo:

  • 02:57 Fontes de dados e o problema do PDF

  • 05:51 Crowdsourcing de dados financeiros em todo o Canadá

  • 07:27 Demonstração do conjunto de dados: pesquisa e facetas

  • 12:33 Nos bastidores: código de ingestão

  • 17:24 Histórias de terror sobre qualidade de dados

  • 20:46 Usando Gemini para extrair dados PDF

  • 25:24 Por que o SQLite é perfeito para distribuição de dados

Aumente os gastos no Canadá e no Canadá

A Build Canada é uma organização sem fins lucrativos dirigida por voluntários que foi lançada em fevereiro de 2025 – aqui estão algumas informações básicas sobre a organização, que tem um forte ângulo pró-empreendedorismo e pró-tecnologia.

Canada Spends é o seu projeto para tornar os dados financeiros do governo canadense mais acessíveis e exploráveis. Inclui um visualizador de fontes e sumidouros de impostos e um banco de dados pesquisável de contratos governamentais, além de uma coleção de ferramentas que cobrem dados financeiros de diferentes níveis de governo.

Conjunto de dados para exploração de dados

O projeto mantém uma instância do Datasette em api.canadasbilding.com contendo os dados coletados e processados ​​de diversas fontes de dados – atualmente mais de 2 milhões de linhas, além de um índice de pesquisa combinado em uma cópia desnormalizada desses dados.

    UI do Datasette para um banco de dados de gastos no Canadá. contratos_agregados-abaixo de 10k: ano, contrato_número_de_bens_de, contratos_bens_valor_original, contratos_bens_alteração_valor, contrato_serviço_número_de, contratos_serviço_valor_original, contratos_serviço_alteração_valor, contrato_construção_número_de, contratos_construção_original_valor, contratos_construção_alteração_valor, aquisição_card_transactions_number_of, aquisição_card_transactions_total_value, proprietário_org, proprietário_org_title 487 linhas cihr_grants external_id, título, project_lead_name, co_pesquisadores, instituição, província, país, ano_competição, valor_do_prêmio, programa, tipo_programa, tema, assunto_de pesquisa, palavras-chave, resumo, duração, URL_fonte 53.420 linhas contratos acima de 10k: número de referência, id de aquisição, nome_do_fornecedor, código_postal_do_fornecedor, nome_do_comprador, data_do_contrato, código_do_objeto_econômico, descrição_en, descrição_fr, início_do_período_do_contrato, data_de_entrega, valor_do_contrato, valor_original, valor_da emenda, comentários_en, comentários_fr, comentários_adicionais_en, comentários_adicionais_fr, código_tipo_de_contrato, acordo_comercial, reivindicações de terras, tipo de mercadoria, código_de_mercadoria, país_do_fornecedor, procedimento_de_solicitação, motivo_de_licitação_limitado, exceções_de_acordo_comercial, negócios_indígenas, negócios_indígenas_eexcluindo_psib, propriedade intelectual, exploração_comercial_potencial, ex-servidor_público, entidade_contratante, número_de_oferta, tipo de instrumento, escritório_de_ministros, número_de_licitações, exceções_de_artigos, critérios_de premiação, indicador_socioeconômico, período_de_relatório, proprietário_org, proprietário_org_title 1.172.575 linhas global_affairs_grants: id, projectNumber, dateModified, título, descrição, status, início, fim, países, executandoAgencyPartner, DACSectors, MaximumContribution, ContributingOrganization, ExpectResults, ResultsAchieved, aidType, CollaborationType, financeType, flowType, reportingOrganisation, programName, selectionMechanism, policyMarkers, regiões, alternameImPositions, orçamentos, locais, otherIdentifiers, participantesOrgs, programDataStructure, RelatedActivities, transações 2.378 linhas nserc_grants: título, resumo_do_prêmio, ID_do_aplicativo, ano_da_competição, ano fiscal, nome_lead_do_projeto, instituição, departamento, província, valor_do_prêmio, parcela, programa, comitê_de seleção, assunto_de_pesquisa, área_de_aplicação, co-pesquisadores, parceiros, external_id, source_url 701.310 linhas sshrc_grants: id, título, programa, ano fiscal, ano_competição, candidato, organização, quantidade, disciplina, área_de_pesquisa, co_candidato, palavras-chave, source_url 213.085 linhas transferências: FSCL_YR, MINC, MINE, MINF, DepartmentNumber-Numéro-de-Ministère, DEPT_EN_DESC, DEPT_FR_DESC, RCPNT_CLS_EN_DESC, RCPNT_CLS_FR_DESC, RCPNT_NML_EN_DESC, RCPNT_NML_FR_DESC, CTY_EN_NM, CTY_FR_NM, PROVTER_EN, PROVTER_FR, CNTRY_EN_NM, CNTRY_FR_NM, TOT_CY_XPND_AMT, AGRG_PYMT_AMT 357.797 linhas Baixe o banco de dados SQLite: canada-spends.db 2,4 GB Desenvolvido por Datasette · As consultas levaram 24,733 ms

Processando PDFs

Os dados financeiros governamentais da mais alta qualidade provêm das demonstrações financeiras auditadas que todos os departamentos governamentais canadenses são obrigados a publicar. Como tantas vezes acontece com os dados governamentais, estes são geralmente publicados como PDFs.

Brendan tem usado o Gemini para ajudar a extrair dados desses PDFs. Como se trata de dados contábeis, os números podem ser somados e verificados para ajudar a validar que o LLM não cometeu erros óbvios.

Leitura adicional



Source link

Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *