<?xml version="1.0" encoding="ISO-8859-1"?>
<metadatalist>
	<metadata ReferenceType="Thesis">
		<site>mtc-m21d.sid.inpe.br 808</site>
		<holdercode>{isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S}</holdercode>
		<identifier>8JMKD3MGP3W34T/48QKERL</identifier>
		<repository>sid.inpe.br/mtc-m21d/2023/03.30.19.42</repository>
		<lastupdate>2023:06.15.12.41.01 urlib.net/www/2021/06.04.03.40 simone</lastupdate>
		<metadatarepository>sid.inpe.br/mtc-m21d/2023/03.30.19.42.36</metadatarepository>
		<metadatalastupdate>2023:06.29.18.22.54 sid.inpe.br/bibdigital@80/2006/04.07.15.50 administrator</metadatalastupdate>
		<secondarykey>INPE-18683-TDI/3307</secondarykey>
		<citationkey>Gomes:2023:ToBiEa</citationkey>
		<title>Brazil Data Cube Workflow Engine: a tool for big earth observation data processing</title>
		<alternatetitle>Brazil Data Cube Workflow Engine: uma ferramenta para processamento de grandes volumes de dados de observação da Terra</alternatetitle>
		<course>CAP-COMP-DIPGR-INPE-MCTI-GOV-BR</course>
		<year>2023</year>
		<date>2023-03-29</date>
		<thesistype>Tese (Doutorado em Computação Aplicada)</thesistype>
		<secondarytype>TDI</secondarytype>
		<numberofpages>95</numberofpages>
		<numberoffiles>2</numberoffiles>
		<size>15790 KiB</size>
		<author>Gomes, Vitor Conrado Faria,</author>
		<committee>Korting, Thales Sehn (presidente),</committee>
		<committee>Gomes, Karine Reis Ferreira (orientadora),</committee>
		<committee>Queiroz, Gilberto Ribeiro de (orientador),</committee>
		<committee>Barbosa, Cláudio Clemente Faria,</committee>
		<committee>Campelo, Cláudio Elízio Calazans,</committee>
		<committee>Cogo, Vinícius Vielmo,</committee>
		<e-mailaddress>vconrado@gmail.com</e-mailaddress>
		<university>Instituto Nacional de Pesquisas Espaciais (INPE)</university>
		<city>São José dos Campos</city>
		<transferableflag>1</transferableflag>
		<keywords>big data, directed acyclic graphs, open data cube, OpenEO, dagster, grafos acíclicos dirigidos, open data cube, OpenEO, grandes volumes de dados, dagster.</keywords>
		<abstract>Earth Observation (EO) satellites have produced large amounts of geospatial data that are freely available to society and researchers. Handling these data often exceeds the capabilities of the hardware and software traditionally used for storing and processing EO data. This scenario presents challenges for traditional Spatial Data Infrastructure (SDI) to properly store, process, disseminate, and analyze big data sets. To meet these demands, new technologies based on cloud computing and distributed systems, such as matrix database systems, MapReduce systems, and web services, have been proposed and developed. These technologies are now being integrated into leading-edge platforms to support a new generation of SDI for big EO data. These platforms have different characteristics in terms of governance, technologies used, data access, infrastructure abstractions, data processing, and flexibility to extend their functionality. In general, we observed that the greater the degree of abstraction given to the scientist, the greater the difficulty in providing flexibility in data-processing approaches. This thesis contributes to the area of spatial data infrastructure through the evaluation and analysis of available EO data processing and analysis platforms as well as a server-side EO data processing architecture that provides an abstraction of access and processing of EO data for users and the possibility of including algorithms and access and processing techniques by SDI maintainers. The main idea was to build a framework based on workflow orchestration tools integrated with a high-level API for user interaction. This tool allows the configuration of processes and the extension of previously defined data models. Furthermore, the interface between the processing services and the user is executed through the OpenEO API, which establishes a standard for accessing, manipulating and processing EO data. The architecture proposed in this thesis was implemented and applied in two case studies. RESUMO: Satélites de observação da Terra (Earth Observation - EO) têm produzido grandes quantidades de dados geoespaciais que estão disponíveis gratuitamente para a sociedade e pesquisadores. Frequentemente, a manipulação desses dados excedem as capacidades de hardware e software tradicionalmente usados para o armazenamento e processamento de dados de EO. Este cenário traz desafios para as infraestruturas tradicionais de dados espaciais (SDI) para armazenar, processar, disseminar e analisar adequadamente esses conjuntos de big data. Para atender a essas demandas, novas tecnologias foram propostas e desenvolvidas, baseadas em computação em nuvem e sistemas distribuídos, como sistemas de banco de dados matriciais, sistemas MapReduce e serviços web, para acessar e processar esses volumes de dados. Atualmente, essas tecnologias vêm sendo integradas em plataformas de ponta para suportar uma nova geração de SDI para grandes volumes de dados de EO. Essas plataformas apresentam diferentes características em relação à governança, tecnologias utilizadas, acesso aos dados, abstrações de infraestrutura, dados e processamento e quanto à flexibilidade de extensão de suas funcionalidades. De maneira geral, observamos que quanto maior o grau de abstração entregue ao cientista, maior a dificuldade em fornecer flexibilidade nas abordagens de processamento de dados. Essa tese contribui para a área de infraestrutura de dados espaciais por meio da avaliação e análise de plataformas de processamento e análise de dados de EO disponíveis e pela proposição de uma arquitetura de processamento de dados de EO no lado do servidor que fornece, aos usuários, abstração de acesso e processamento de dados. Essa arquitetura é estruturada na forma de um framework baseado em ferramentas de orquestração de workflows, integrado com uma API de alto nível para a interação com os usuários. Essa ferramenta permite a configuração de processamentos e a extensão dos modelos de dados previamente definidos. Além disso, a interface entre os serviços de processamento e o usuário é feita por meio da OpenEO API, a qual estabelece um padrão para o acesso, manipulação e processamento de dados de EO. A arquitetura proposta nesta tese foi implementa e aplicada em dois estudos de caso.</abstract>
		<area>COMP</area>
		<language>en</language>
		<targetfile>publicacao.pdf</targetfile>
		<usergroup>pubtc@inpe.br</usergroup>
		<usergroup>simone</usergroup>
		<usergroup>vconrado@gmail.com</usergroup>
		<visibility>shown</visibility>
		<copyright>urlib.net/www/2012/11.12.15.10</copyright>
		<rightsholder>originalauthor yes</rightsholder>
		<readpermission>allow from all</readpermission>
		<documentstage>not transferred</documentstage>
		<mirrorrepository>urlib.net/www/2021/06.04.03.40.25</mirrorrepository>
		<nexthigherunit>8JMKD3MGPCW/3F2PHGS</nexthigherunit>
		<nexthigherunit>8JMKD3MGPCW/46KUES5</nexthigherunit>
		<citingitemlist>sid.inpe.br/mtc-m21b/2013/09.26.14.25.22 2</citingitemlist>
		<citingitemlist>sid.inpe.br/bibdigital/2013/10.12.22.16 1</citingitemlist>
		<hostcollection>urlib.net/www/2021/06.04.03.40</hostcollection>
		<agreement>autorizacao.pdf .htaccess .htaccess2</agreement>
		<lasthostcollection>urlib.net/www/2021/06.04.03.40</lasthostcollection>
		<supervisor>Queiroz, Gilberto Ribeiro de,</supervisor>
		<supervisor>Gomes, Karine Reis Ferreira,</supervisor>
		<url>http://mtc-m21d.sid.inpe.br/rep-/sid.inpe.br/mtc-m21d/2023/03.30.19.42</url>
	</metadata>
</metadatalist>