Quando falamos sobre análise de dados, as pessoas costumam imaginar que as informações contidas nela estão atreladas apenas aos números. Porém, os textos escritos feito por meio de anotações de observação dos profissionais durante as atividades operacionais também são considerados “dados” e podem auxiliar no complemento de relatórios a fim de atribuir informações úteis de serem exploradas pela indústria futuramente.
Um exemplo que pode ser usado para explicar sobre a relevância dessas observações é o de operações de perfuração. Geralmente costumam ser atividades custosas e, por esse motivo, o monitoramento contínuo delas torna-se necessário para reduzir as interrupções do processo e evitar possíveis falhas dos equipamentos. Para isso, os Relatórios Diários de Perfuração (DDRs) têm sido a principal maneira de registrar eventos perceptíveis, tendo em vista que o setor industrial teve um crescimento significativo de digitalização durante a última década.
Nesse contexto, os DDRs passaram a conter uma valiosa base de informações para a maioria das empresas de petróleo, por se tratar de um relatório completo que relata os principais eventos ocorridos em uma plataforma de perfuração. Geralmente é escrito por operadores e constituído por uma rica fonte de informação. No entanto, a tarefa de extrair conhecimento desses relatórios também pode ser cara, demorada e propensa a erros humanos, por isso é necessário ter o auxílio de abordagens capazes de reconhecer os eventos de perfuração em DDRs: uma delas é o método de processamento de linguagem baseado em regras, chamado Fuzzy String Matching (FSM).
Trata-se da aplicação do algoritmo FSM na busca de um conjunto de palavras-chave e frases-chave predefinidas para extrair possíveis eventos de Tempo Perdido Invisível de DDRs que possam indicar risco de falha ou de baixa eficiência operacional. Isso também é possível ao combinar o conhecimento de especialistas com técnicas de Processamento de Linguagem Natural (NLP) para encontrar expressões considerando erros de digitação e diferentes sufixos ou prefixos.
Em termos práticos, pode-se dizer que, em toda a operação onde existe uma supervisão de dados, raramente haverá a interpretação de um profissional em uma planilha, pois geralmente ele irá escrever suas anotações por meio de uma linguagem natural - não será por meio da linguagem analítica.
É a partir desse cenário que a ferramenta de NLP ganha importância, uma vez que evita a perda do caráter “analítico” dos dados, sendo responsável por estabelecer um padrão de texto por meio de uma linguagem para que a tecnologia ajude na compreensão e extração das informações mais relevantes, transformando os dados “não estruturados” para “estruturados” - ou seja, unindo informação com análise.
Além das metodologias citadas acima, é necessária a utilização de uma métrica de distância, como, por exemplo, a Normalized Damerau-Levenshtein (NDL) distance, que, basicamente, é uma comparação entre duas expressões, onde uma delas é considerada a correta e a outra é uma expressão similar, porém contém uma forma de escrita diferente. Por meio dessa métrica e da Subject Matter Experts(SME) - que utiliza conhecimento de especialistas na área operacional para ajudar a estabelecer quais são os problemas que costumam se repetir e que precisam ser codificados - é possível corrigir os erros ortográficos e identificar palavras repetidas que indiquem erros recorrentes e que precisam ser eliminados, a fim de aprimorar o funcionamentos das operações.
Para exemplificar a importância dos recursos utilizados, destaco a aplicação em uma empresa de perfuração, que compilou dados de 392 registros DDR do mundo real usando um conjunto de seis frases-chave do evento ILT anotadas por especialistas no assunto. Os resultados mostraram que, em 116 relatórios marcados como normais, 92 registros foram identificados como possíveis eventos de ILT, o que representa, em horas, uma soma de 923 horas de tempo não produtivo.
Portanto, esses resultados comprovam que a utilização de todos os métodos são primordiais para que informações relevantes não sejam descartadas e possam gerar dados significativos, caso sejam bem estruturados. Além disso, evidencio a importância da metodologia FSM e sua capacidade de identificar problemas para facilitar a busca de DDRs problemáticos a fim de otimizar o fluxo e o tempo de trabalho do setor industrial
* Maria Clara Duque é Cientista de Dados da Intelie