Esqueça privacidade, security, princípios: use dados sintéticos

“Vigie seus dados, proteja sua privacidade, alerta máximo contra o uso indevido das informações de Saúde” ... “Dados são o petróleo deste século, empresas de pesquisa pagam alto pelo acesso aos Registros Eletrônicos dos Pacientes”. Essas manchetes podem ter seus dias contados neste século, aliás, nos próximos anos ninguém mais a não ser você, seu médico e talvez um hacker se preocupará em acessar suas informações pessoais. A chamada vigilância de dados, que ao longo dos últimos anos passou a ser uma expressão tácita do capitalismo contemporâneo, pode estar perdendo a força. Modelos de negócios impulsionados pelo uso intensivo e acumulado de dados pessoais, que cada vez mais são cercados por exigências protetivas, tendem a buscar novas direções para manterem seus projetos expansionistas. Da mesma forma, é progressivamente mais comum sistemas de Inteligência Artificial (IA) discriminarem perfis com base em raça, religião, gênero ou outras considerações preconceituosas, criando um desconforto ético factual.

Nesse sentido, cresce o uso dos Dados Sintéticos, que nada mais são do que registros fictícios gerados ‘artificialmente’ e que podem ser usados no lugar de ‘dados históricos reais’. Estes, por sua vez, tornam-se cada vez mais caros, de baixo volume, baixa qualidade e gradualmente mais custodiados por legislações de sigilo, privacidade e segurança de acesso. Ao contrário dos dados coletados no mundo real, dados sintéticos são concebidos no mundo digital por simulações de computador, algoritmos, modelagem estatística e inúmeras outras formas de concepção. São gerados (inventados) para atender necessidades específicas, podendo conter uma enorme quantidade de variáveis dentro de sua estrutura. De acordo o Gartner Group, “até 2024 cerca 60% dos dados usados para o desenvolvimento de soluções de IA e Analytics serão gerados sinteticamente, acima dos 1% gerados em 2021”. Seu principal uso é treinar modelos de IA para pesquisa científica (trials), controle corporativo, produção de conhecimento médico e prospecção de valor. Mais do que isso: o Gartner projeta que dados sintéticos vão ofuscar completamente os dados reais em modelos de IA até 2030 (“você não poderá construir modelos de IA de alta qualidade e alto valor sem dados sintéticos”).

Não são poucos os especialistas afirmando que registros sintéticos são melhores do que pessoas, lugares e coisas do mundo real quando se trata de treinar protótipos de IA. Sistemas como machine learning (ML), por exemplo, avançaram de forma exponencial nos últimos anos, exigindo grandes quantidades de dados qualificados. É possível dizer que essa aceleração foi tão rápida que ao final 2022 simplesmente não haverá dados suficientes para que essas máquinas sejam testadas ou que continuem o seu avanço. Experimentos científicos, tecnológicos e mercatórios podem ficar parados por meses pela falta de bases de informações específicas, seja porque os dados inexistem ou porque estão protegidos e inacessíveis. Em vista disso, bases de registros sintéticos (synthetic data-lakes) podem não só viabilizar projetos como reduzir custos, principalmente quando coletar ou comprar dados reais passa a ser proibitivamente caro. Felizmente os requisitos de privacidade limitam cada vez mais a disponibilidade dos dados ou como eles podem ser usados (secondary data). Uma ‘massa de registros reais’, necessária aos testes de um novo produto, pode ser mais onerosa do que o próprio desenvolvimento do produto.

Na ciência médica e farmacológica, centenas (talvez milhares) de algoritmos clínicos podem ficar “engavetados” porque o pesquisador não tem dados para testá-los, qualificá-los e garantir a sua efetividade. Mesmo com bilhões de indivíduos inseridos em sistemas utilitários (saúde, finanças, logística, governo, etc.), gerando diariamente trilhões de dados reais, é cada vez mais complicado acessar essas informações para estudos científicos e prospectivos. Um repositório específico de dados médicos, usado, por exemplo, para ensaios bioquímicos, requer hoje um período de tempo para autorizações capaz de tornar a própria inovação biomédica obsoleta. Dezenas de imunizantes contra o Sars-CoV-2, por exemplo, ainda esperam por ensaios de efetividade porque simplesmente é cada vez menor o número de indivíduos não-vacinados no mundo.

Utilizando dados sintéticos, pesquisadores podem primeiro “esticar a corda” das funcionalidades, para depois “segmentá-la” faseadamente, assegurando que suas análises cheguem o mais próximo possível do mundo real. A empresa de engenharia de dados Innodata, por exemplo, entrou no segmento lançando um portal de “comércio eletrônico para clientes comprarem sob demanda conjuntos de dados sintéticos” (Innodata AI Data Marketplace). As classes estão prontas para uso, geradas em arquitetura aberta e de fácil visualização. A empresa lançou inicialmente 17 ‘synthetic-data-packets’ em quatro idiomas, concentrados em serviços financeiros. Todavia, já existem hoje mais de 5 mil conjuntos de dados sintéticos disponíveis no mercado para suporte a prototipação de ML, abrangendo setores como telecomunicações, serviços públicos, transporte, logística, energia, hotelaria, e, principalmente, saúde.

A onipresença de IA nas empresas em geral, e mais especificamente na indústria farmacêutica, fez rarear os conjuntos de dados singulares (reais) para determinadas práticas ou perfis sociais (biotipos clínicos). Nesse sentido, a obtenção desses dados exige tempo (coleta, rotulação, processamento, conformidade, etc.), que pode ser reduzido com o uso de dados sintéticos. Quando um novo patógeno surge, ou uma nova variante, dados epidêmicos podem ficar obsoletos em semanas. Com bases epidemiológicas sintéticas pesquisadores podem executar simulações de cenários para desenvolvimento de novas formas de contenção viral. Afinal, se já trabalhamos com vírus sintético em laboratório, nada mais natural criarmos pacientes sintéticos, sintomas sintéticos e até pandêmicas sintéticas, com simulações de cenários multidimensionais que nos ensinem a manejar melhor as calamidades virais.

A sintetização de dados pode ser desenvolvida a partir de ‘perturbações’, usando modelos que simulam resultados por meio de inputs específicos, ou mesmo por padrões generativos orientados por IA. Tal como acontece com algoritmos para carros autônomos, que emulam cenários acidentais, na pesquisa médico-científica podemos diversificar os dados melhorando a robustez e a adaptabilidade dos modelos de IA. Como quase tudo na vida do homem, a sintetização de dados também pode ser usada de forma maliciosa, criando falsas representações (deepfakes) que podem propagar a desinformação e enganar os softwares, como, por exemplo, no caso das aplicações de reconhecimento facial. Mesmo os dados anonimizados podem hoje ser submetidos a “engenharia reversa” para recuperar informações originais. Dados sintéticos nunca serão anônimos, porque, na realidade, são “avatares” de milhões de identidades inexistentes que emulam cenários patológicos singulares, modulados por infinitas anamneses postiças.

Várias ferramentas já estão disponíveis para geração de dados sintéticos, a maioria delas em código aberto. A Synthea, por exemplo, é uma aplicação voltada a criação de registros sintéticos para o setor da Saúde. Trata-se de um gerador que modela o histórico médico dos pacientes, imputando dados “realistas”, mas não reais. Sua máquina de dados (Generic Module Framework) permite a moldagem de doenças e condições sintomatológicas, concebendo ao final um histórico médico sintético de indivíduos. Cada paciente é simulado independentemente, sendo imaginado desde o nascimento até os dias presentes. Ao longo da sua trajetória modelam-se eventos que podem ocorrer na vida real, descrevendo a progressão de ‘estados’ e as transições entre eles. Os módulos são elaborados por médicos e por estatísticas do mundo real, coletadas, por exemplo, no CDC, NIH e outras fontes de pesquisa. A Synthea começou oferecendo módulos para as “dez principais razões pelas quais os pacientes visitam um médico” e em seguida para as “dez principais condições que resultam em anos perdidos de vida”. A galeria de módulos possui inúmeras patologias, sendo que o SyntheticMass (ferramenta da plataforma) fornece aos usuários ‘acesso-api’ para criação de sandboxes, sendo que seu repositório já contém mais de 1 milhão de registros sintéticos de pacientes.

A scikit-learn, por sua vez, é uma plataforma de criação de dados sintéticos para uso em regressão, agrupamento e classificação, objetivando produzir conjuntos de dados que possam permitir previsões e predições. Trata-se de uma biblioteca de aprendizado de máquina (código aberto) capaz de fornecer várias ferramentas de modelagem, pré-processamento, seleção e avaliação de modelos, com dezenas de algoritmos e modelos de ML integrados (denominados estimators). Trabalha com biclusterização, calibração e classificação, gerando probabilidades para cada tipo de usuário, podendo ele mesmo gerar projeções que vão desde uma ‘resposta a determinado medicamento’, até os ‘preços futuros do mercado de ações’. Já a SDV (Synthetic Data Vault) oferece um modelo de aprendizado de máquina com regras determinísticas para qualquer tipo de grupos de dados. Trata-se de um software para desenvolvimento ordenado de dados sintéticos, nascido dentro do MIT (Massachusetts Institute of Technology) em 2018. Permite ao usuário inserir sua lógica utilizando suas próprias restrições, limitações e incidentalidades. Nessa direção, várias outras empresas já se dedicam a construção ou utilização de dados sintéticos para inúmeras finalidades, como, por exemplo: BiText, Datagen, Gretel, Synthesized, etc.

A Accenture afirma que os aplicativos clínicos em IA podem gerar uma economia anual de US$ 150 bilhões para a saúde dos EUA até 2026. Se é crescente o uso IA na saúde, é também crescente as preocupações com a privacidade dos registros médicos. Mesmo nos EUA, com as fortes regulamentações protetivas da HIPAA, mais de 40 milhões de registros médicos foram expostos ou divulgados sem permissão entre julho de 2020 a junho de 2021 (um em cada cinco funcionários da área de saúde estaria disposto a vender dados não autorizados de pacientes por apenas US$ 500). Nessa direção, dados clínicos sintéticos podem ser a solução para expansão das inovações em saúde. Eles (1) permitem a melhoria da precisão dos modelos de aprendizado de máquina; (2) aumentam a previsão de doenças raras; (3) ampliam a colaboração científica; (4) e fornecem reprodutibilidade de pesquisas médicas. Essa cesta de atributos cativa o mercado e produz ideias luminares, que incluem também a participação do paciente. O M-sense, por exemplo, é um aplicativo móvel de monitoramento da cefaleia. A plataforma também fornece dados sintéticos do usuário (com base em dados reais) para a comunidade científica, fornecendo subsídios reais para a pesquisa dos vários tipos de enxaqueca. O M-sense permite que o paciente transfira as entradas do app para o M-sense Migräne, que cria uma conta própria de dados sintetizados e anonimizados, que, por sua vez, autoriza o envio consentido de dados sintéticos aos grupos de pesquisa. Da mesma forma, o escritório da National Coordinator for Health Information Technology dos EUA, está liderando um projeto para aprimorar mecanismos de dados sintéticos em código aberto que possam acelerar consistentemente a pesquisa científica, notadamente no combate a dependência por opioides.

Outra aplicação para a sintetização de dados está na ‘migração para ambiente de nuvem’, que envolve processos complexos de conformidade. Garantir a segurança dos dados, ao mesmo tempo em que garante a sua integridade em usos futuros, pode ser demorado e caro, sendo algumas vezes impossível em função dos riscos. Dados sintéticos permitem que as empresas migrem primeiro ‘conjuntos de amostras’, identificando o risco de intercorrências específicas com seus dados. Migram dados sintéticos (as vezes mais complexos do que as bases reais), avaliam o impacto e incorporam condicionantes diretamente voltadas ao perfil da base real.

Aliás, dados sintéticos são muito mais do que apenas “dados falsos”, sendo que também precisam de proteção, sigilo e segurança para preservação de sua privacidade, não poucas vezes carecendo até de anonimização. Se um hacker sequestrar uma base de dados sintéticos pode vende-la a preços tão caros como uma base real. Mas, atenção! Recado à comunidade de cyber-atacantes: como são criados em laboratórios algorítmicos, os conjuntos podem conter sub-rotinas só para degradar ambientes computacionais “estranhos”. Sim, é cada vez mais comum proteger bases sintéticas com “competências virais” capazes de destruir ambientes que incorporem inconformidades explícitas. Algo como: “Cyber War – O Império Contra-ataca”.

No caso da Saúde, os registros sintéticos permitem pensar no ‘ciclo de vida’ completo do paciente, desde o seu primeiro acesso ao sistema de saúde. Não estaremos simplesmente examinando os seus dados, mas algoritmizando o seu perfil futuro ao “injetar” milhares de ocorrências periféricas e até genéticas. Os mais aventurados em programação podem se deliciar com as piruetas da ‘fabricação de dados sintéticos’ no estudo “Gretel.ai: Open-Source Artificial Intelligence Tool To Generate New Synthetic Data”, publicado em março/2022 e que analisa a criação de registros sintéticos voltados ao Transtorno de Espectro Autista (TEA).

O dinamarquês Danny B. Lange, um dos mais importantes e experientes cientistas de computação a trabalhar com aprendizado de máquina, com trabalhos realizados em várias gigantes do setor (IBM, Microsoft, AWS, Uber, etc.), hoje na Unity, talvez seja quem melhor explicitou o poder das bases sintéticas, cunhando até uma nova regra, a “Lei de Moore para IA”, que afirma: “A quantidade de dados para treinamento e teste dobra a cada 18 meses. O mundo está ficando sem dados reais; precisamos de dados sintéticos para acompanhar a demanda. Um ano de vida humana, a 30 quadros por segundo, teria um bilhão de quadros. Os dados sintéticos podem ser gerados a uma taxa de 200 a 500 bilhões de quadros por segundo, dependendo do hardware e software disponíveis. Assim, a simulação e a geração de dados sintéticos serão o grande divisor de águas para IA. É muito mais fácil, rápido e barato cometer erros na hora certa, sendo que você ‘não destrói nada’ quando usa dados sintéticos”.

Guilherme S. Hummel
Scientific Coordinator Hospitalar Hub
Head Mentor – EMI (eHealth Mentor Institute)

Esqueça privacidade, segurança e princípios: use ‘dados sintéticos’

Article-Esqueça privacidade, segurança e princípios: use ‘dados sintéticos’