Sob o capô do Canadá passa com Brendan Samek
Sob o capô do Canadá passa com Brendan Samek
9 de dezembro de 2025
Conversei com Brendan Samek sobre Canada Spends, um projeto da Build Canada que torna os dados financeiros do governo canadense acessíveis e exploráveis usando uma combinação de Datasette, um front-end personalizado elegante, scripts de ingestão Ruby, utilitários sqlite e peças de extração de PDF com tecnologia LLM.
Aqui está o vídeo no YouTube.
Seções desse vídeo:
-
02:57 Fontes de dados e o problema do PDF
-
05:51 Crowdsourcing de dados financeiros em todo o Canadá
-
07:27 Demonstração do conjunto de dados: pesquisa e facetas
-
12:33 Nos bastidores: código de ingestão
-
17:24 Histórias de terror sobre qualidade de dados
-
20:46 Usando Gemini para extrair dados PDF
-
25:24 Por que o SQLite é perfeito para distribuição de dados
Aumente os gastos no Canadá e no Canadá
A Build Canada é uma organização sem fins lucrativos dirigida por voluntários que foi lançada em fevereiro de 2025 – aqui estão algumas informações básicas sobre a organização, que tem um forte ângulo pró-empreendedorismo e pró-tecnologia.
Canada Spends é o seu projeto para tornar os dados financeiros do governo canadense mais acessíveis e exploráveis. Inclui um visualizador de fontes e sumidouros de impostos e um banco de dados pesquisável de contratos governamentais, além de uma coleção de ferramentas que cobrem dados financeiros de diferentes níveis de governo.
Conjunto de dados para exploração de dados
O projeto mantém uma instância do Datasette em api.canadasbilding.com contendo os dados coletados e processados de diversas fontes de dados – atualmente mais de 2 milhões de linhas, além de um índice de pesquisa combinado em uma cópia desnormalizada desses dados.

Processando PDFs
Os dados financeiros governamentais da mais alta qualidade provêm das demonstrações financeiras auditadas que todos os departamentos governamentais canadenses são obrigados a publicar. Como tantas vezes acontece com os dados governamentais, estes são geralmente publicados como PDFs.
Brendan tem usado o Gemini para ajudar a extrair dados desses PDFs. Como se trata de dados contábeis, os números podem ser somados e verificados para ajudar a validar que o LLM não cometeu erros óbvios.
