@MastersThesis{Pereira:2021:DaCuAl,
author = "Pereira, Yuri Matheus Dias",
title = "Data cube algorithm for high sequentiality satellite telemetry
data analysis",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2021",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2021-03-25",
keywords = "data cube, inverted index, satellite, telemetry, satellite
operations, cubo de dados, {\'{\i}}ndice invertido,
sat{\'e}lite, telemetria, opera{\c{c}}{\~a}o de
sat{\'e}lites.",
abstract = "Satellites are monitored by ground teams via telemetry packages,
which report the current status of the equipment and allow them to
assess the satellites ability to continue its mission. These
telemetry packages compose a large and complex body of data, with
satellites that are operated for several years generating large
volumes of historical data that is still useful for operation
activities and needs to be archived. The volume of historical
telemetry data available to the National Institute for Space
Research (INPE) is currently estimated to be at least 3 terabytes
in total, with a tendency to grow in the coming years. With this
volume, and considering that the data analysis on these data is
not trivial, requiring expert engineering knowledge, it is
necessary to implement systems to perform queries and analysis on
them. In this work we identify the queries that are of interest to
satellite operators, create a multidimensional model for the
telemetry data using a data cube model, and then use the
Frag-Cubing data cube computation algorithm as a basis for
implementation. First an approach that uses pre-processing of the
selected queries is implemented, where the dimensions related to
the query are filtered out and low-dimensional cubes are created
from them. This approach is compared to the high dimensionality
approach that uses all available dimensions, and finds that, while
queries are restricted to the filtered dimensions, it has a 15%
advantage in query time and in the best cases consumes only 10% of
the memory used by the high dimensionality approach. So if the
queries have a low dimensionality, there is advantage in using a
pre-processed cube from disk than running a query on a data cube
already built with the high dimensionality approach. Then an
approach based on modifying the Frag-Cubing inverted index
algorithm is experimentally validated, which consists in using the
high-sequentiality characteristic of some satellite telemetry to
replace the lists of tuple identifiers (TID list) with lists of
intervals.. This approach on high dimensional data, tested on the
queries defined by the operators, uses on average 20% of the
memory that traditional lists use, and is up to 3200% faster to
answer queries on dimensions with high sequentiality, while being
up to 400% slower to answer queries on dimensions with low
sequentiality. RESUMO: Sat{\'e}lites s{\~a}o monitorados pelas
equipes de solo via pacotes de telemetria, que informam o estado
atual dos equipamentos e permitem avaliar a capacidade do
sat{\'e}lite de continuar a sua miss{\~a}o. Esses pacotes de
telemetria constituem um corpo de dados de elevado tamanho e
complexidade, com sat{\'e}lites que s{\~a}o operados por
v{\'a}rios anos geram dados hist{\'o}ricos de grande volume,
ainda {\'u}teis para as atividades de opera{\c{c}}{\~a}o e que
necessitam de ser arquivados. O volume de dados hist{\'o}ricos de
telemetria dispon{\'{\i}}veis ao Instituto Nacional de Pesquisas
Espaciais (INPE) atualmente {\'e} estimado em ao menos 3
terabytes no total, com tend{\^e}ncia a crescer nos pr{\'o}ximos
anos. Com este volume, e considerando que as an{\'a}lises de
dados sobre esse arquivos n{\~a}o {\'e} trivial, necessitando de
conhecimento especialista de engenharia, {\'e} necess{\'a}rio a
implementa{\c{c}}{\~a}o de sistemas para realizar consultas e
an{\'a}lises sobre esses dados. Neste trabalho {\'e} feita a
identifica{\c{c}}{\~a}o das consultas que s{\~a}o de interesse
dos operadores de sat{\'e}lite, {\'e} criada uma modelagem
multidimensional para os dados de telemetria utilizando de cubo de
dados e ent{\~a}o o algoritmo de computa{\c{c}}{\~a}o do cubo
de dados Frag-Cubing {\'e} utilizado como base para
implementa{\c{c}}{\~a}o. Primeiramente uma abordagem de
pr{\'e}-processamento das consultas selecionados {\'e}
implementada, onde as dimens{\~o}es relacionadas a consulta
s{\~a}o filtradas e cubos de baixa dimensionalidade s{\~a}o
criados {\`a} partir delas. Essa abordagem {\'e} comparada com a
abordagem de alta dimensionalidade com todas as dimens{\~o}es
dispon{\'{\i}}veis, e encontra que, conquanto que as consultas
sejam restritas as dimens{\~o}es filtradas, tem uma vantagem de
15% no tempo de consulta e nos melhores casos consumindo apenas
10% de mem{\'o}ria utilizada pela abordagem de alta
dimensionalidade. Assim, se as consultas tiverem uma
dimensionalidade baixa, existe vantagem em utilizar um cubo
preprocessado do zero do que executar uma consulta em uma cubo de
dados constru{\'{\i}}do com abordagem de alta dimensionalidade.
Depois uma abordagem baseada na altera{\c{c}}{\~a}o do algoritmo
de {\'{\i}}ndice invertido do algoritmo Frag-Cubing {\'e}
experimentalmente validade, que comp{\~o}e em utilizar da
caracter{\'{\i}}stica de alta sequencialidade de algumas
telemetrias de sat{\'e}lite para substituir as listas de
identificadores de tuplas (TID list) por listas de intervalos.
Essa abordagem sobre os dados de alta dimensionalidade, testada
nas consultas definidas pelos operadores anteriormente, usa em
m{\'e}dia 20% da mem{\'o}ria que a listas tradicional utiliza, e
{\'e} at{\'e} 32x mais r{\'a}pida para responder consultas em
dimens{\~o}es com alta sequencialidade, por{\'e}m sendo at{\'e}
4x mais lenta para responder consultas com dimens{\~o}es com
baixa sequencialidade.",
committee = "Santos, Walter Abrah{\~a}o dos (presidente) and Ferreira,
Maur{\'{\i}}cio Gon{\c{c}}alves Vieira (orientador) and Silva,
Rodrigo Rocha (orientador) and Chagas Junior, Milton de Freitas
and Lobo, Jos{\'e} Eduardo Morello",
englishtitle = "Algoritmo de cubo de dados para dados de telemetria de
sat{\'e}lite com alta sequencialidade",
language = "en",
pages = "84",
ibi = "8JMKD3MGP3W34R/44DTA5B",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/44DTA5B",
targetfile = "publicacao.pdf",
urlaccessdate = "07 maio 2024"
}