Atenção: este recurso está em fase beta. O funcionamento, schema e cadência podem sofrer ajustes durante o período de validação. Clientes interessados em ativar devem alinhar previamente com o time da Linkana.
Os pipelines de dados são a forma da Linkana entregar dados de fornecedores de maneira recorrente e estruturada para os sistemas de BI, dashboards ou data warehouses do cliente. Em vez de depender de extrações manuais, o pipeline exporta automaticamente arquivos em CSV para um bucket no Google Cloud Storage, de onde o time de dados consome com a ferramenta que preferir — BigQuery, Databricks, Power BI, Python, entre outras.
O objetivo é que os dados da Linkana estejam disponíveis de forma confiável e padronizada dentro dos fluxos analíticos que já existem na empresa, sem trabalho manual recorrente.
Como funciona
O fluxo de um pipeline tem três etapas:
Extração — a Linkana extrai os dados da base, filtrados pelo cliente
Exportação — o arquivo CSV é depositado no bucket GCS do cliente
Consumo — o cliente acessa o bucket e integra os dados aos seus sistemas
Cada pipeline é executado automaticamente na recorrência acordada. O arquivo gerado sobrescreve a versão anterior no bucket, garantindo que o cliente sempre tenha acesso à versão mais recente dos dados.
Tabelas disponíveis
Atualmente, os pipelines cobrem sete tabelas que representam as principais dimensões da gestão de fornecedores:
Tabela | O que contém |
suppliers | Fornecedores cadastrados |
documents | Documentos ativos dos fornecedores (formulários, bases públicas e consultas) |
form_fields | Respostas de perguntas de formulários |
setting_risks | Configurações de risco dos documentos por categoria |
qualifications | Homologações do fornecedor por categoria |
approval_steps | Níveis de aprovadores das etapas de aprovação |
performances | Respostas de avaliações de performance por ciclo |
O cliente contrata as tabelas de acordo com o caso de uso. Novas tabelas são comunicadas conforme forem disponibilizadas.
Formato e schema
Os arquivos são entregues em CSV, encoding UTF-8, com vírgula como delimitador e datas no padrão ISO 8601. A primeira linha traz os nomes dos campos.
Os dados refletem os valores originais do sistema — campos de estado, por exemplo, aparecem como clear, not_clear, in_progress. Não são aplicadas transformações de negócio customizadas, agregações ou cálculos derivados. O pipeline entrega os dados granulares da Linkana no nível mais detalhado disponível.
Dica: caso o cliente precise de outro formato (XML, JSON), a Linkana pode disponibilizar mediante alinhamento prévio.
Dicionário de dados
Cada tabela tem um schema fixo acompanhado de um dicionário que descreve cada campo, seu tipo e os valores possíveis para campos enumerados. O dicionário completo é entregue junto com o schema na ativação do pipeline.
Recorrência
A recorrência padrão é mensal para todas as tabelas. A cadência pode ser ajustada após a ativação mediante acordo entre as partes, sem impacto no schema dos dados.
Acesso ao bucket
Os dados ficam disponíveis em um bucket GCS (Google Cloud Storage) dedicado por cliente. O acesso é controlado via Service Account do Google Cloud com permissão apenas de leitura.
Opção preferencial
O cliente fornece uma Service Account própria e a Linkana concede permissão de leitura (storage.objectViewer) ao bucket. Essa abordagem é recomendada porque o cliente mantém controle total sobre as credenciais e pode integrá-las diretamente aos seus pipelines de dados.
Opção alternativa
Caso o cliente não possua uma Service Account própria, a Linkana cria uma Service Account dedicada e compartilha a chave (JSON) de forma segura por link temporário. Em caso de rotação ou perda da chave, o cliente deve solicitar uma nova via suporte.
Estrutura das pastas no bucket
gs://{bucket}/lk-{cliente}/exports/
suppliers/
documents/
form_fields/
setting_risks/
qualifications/
approval_steps/
performances/
As pastas com prefixo _dlt (como _dlt_loads, _dlt_pipeline_state, _dlt_version) são de controle interno do pipeline de exportação e podem ser ignoradas na integração.
Processo de ativação
A ativação de um novo pipeline leva tipicamente de 1 a 2 semanas e segue cinco etapas:
Alinhamento inicial — cliente e Linkana definem quais tabelas serão ativadas e a recorrência de cada uma
Entrega do schema e dicionário — a Linkana entrega o schema de campos e o dicionário de dados completo para cada tabela
Configuração do bucket — a Linkana provisiona o bucket e configura o acesso (preferencialmente com a Service Account do cliente)
Exportação piloto — um primeiro arquivo é exportado para validação do formato, encoding, campos e dados
Validação e go-live — após a validação do cliente, o pipeline entra em operação na recorrência acordada
Alterações de schema e SLA
A Linkana comunica alterações no schema com no mínimo 120 dias de antecedência, garantindo tempo hábil para que o time de dados ajuste suas integrações antes da aplicação.
Em caso de falha na exportação, o time da Linkana é notificado automaticamente. O pipeline é reprocessado e o cliente é informado sobre eventuais atrasos.
Perguntas frequentes
Os dados são incrementais ou full load?
Sempre full load. Cada exportação contém todos os registros válidos no momento da extração.
Posso pedir campos customizados?
Em geral, não. O schema de cada pipeline segue os campos padrão disponíveis na Linkana. Se um campo novo for adicionado à plataforma e for relevante para o seu caso de uso, ele pode ser incluído no pipeline mediante alinhamento prévio.
Posso usar o bucket com BigQuery, Databricks ou Power BI?
Sim. O bucket GCS é acessível por qualquer ferramenta que suporte leitura de Google Cloud Storage. O BigQuery, por exemplo, permite criar tabelas externas diretamente sobre os arquivos CSV do bucket.
Como sei se o pipeline foi executado com sucesso?
A presença do arquivo atualizado no bucket indica que a execução foi bem-sucedida. Em caso de falha, o time da Linkana é notificado automaticamente e comunica o cliente sobre o status.
Com quem eu falo sobre problemas no pipeline?
Pelo canal de suporte habitual da Linkana (e-mail ou plataforma), referenciando o nome do pipeline e a data do arquivo.
