[EtnoData] Sobre linguagens documentárias: dicionários, tesauros, taxonomias e ontologias

Lucas Zelesco lucaszelesco em outlook.com
Sábado Dezembro 14 11:25:16 -03 2024


Bom dia, Viviane, Dalcin e todo o pessoal!

Fico muito feliz em poder trabalhar junto com vocês essa problemática de pesquisa tão interessante, que talvez podemos resumir como "afinal, o que é isso?!". O "isso", no caso, sendo a etnobotânica, os termos que elegemos relacionar em e a esse conceito-chave, e as descrições que escolhemos fazer dos vocábulos. Para mim isso está abrindo um campo novo, e interessantíssimo!

Vou apresentar aqui, de forma bem suscinta, algumas diferenciações importantes, e básicas, para o trabalho proposto. Não são sequer conceituações, mas somente um resumo do que temos na Ciência da Informação (CI):

Vocabulário controlado: é a forma geral de referir a uma relação estabelecida entre signo e referente. Geralmente, na arquivologia, o termo é utilizado de forma intercambiável com "linguagem documentária", mas não são necessariamente equivalentes. O vocabulário controlado pode ser estruturado ou não-estruturado.
Linguagem documentária: é um vocabulário controlado criado por necessidade de realizar de forma consistente a descrição de um conjunto informacional (um fundo, uma coleção - seja arquivística, bibliográfica ou museológica) que não pode ou não deve ser descrito em linguagem natural (idioma). As linguagens documentárias servem para normalizar as formas de referência a uma realidade informacional específica, possibilitando clareza quanto aos escopos dos termos que contém. Podem ser produzidas em diferentes níveis de complexidade, e sobre diferentes objetos, de acordo com a necessidade.

São aspectos essenciais a serem definidos, sobre qualquer vocabulário controlado e/ou qualquer linguagem documentária: definição clara de objeto (ex: o que entendemos aqui como "etnobotânica"? quais os limites espaciais a que esse objeto aqui se refere? quais os limites temporais?); consistência metodológica (ex: qual tipo de linguagem documentária melhor se aplica à nossa necessidade?; serão feitos níveis?; qual o nível de detalhamento que queremos chegar nos níveis?; e nas descrições dos níveis?; quais critérios serão utilizados para desambiguações?); e consistência teórica (ex: o que entendemos como "uso de plantas"?; o que entendemos como "saúde"?; o que entendemos como "popular" ou "científico"?).
Pelo que consigo perceber da "cara" dele, o Vocabulário de Etnobotânica é um tesauro. No entanto, a natureza do instrumento é uma escolha necessária de ser formalmente feita e registrada, pois guiará todo nosso entendimento sobre o trabalho. Inclusive, caberá entendermos se esse trabalho está se propondo enquanto uma linguagem documentária ou não (i.e., será usado para ordenar e descrever conjuntos documentais já constituídos ou a constituir?). Ainda que estejamos em uma prova de conceito, imaginar usos para a ferramenta, nesse momento, definirá aspectos importantes de sua estrutura, e faz parte do processo.

Os tipos mais comuns de vocabulários controlados são:
Dicionário é um controle de vocabulário simples, não-estruturado, compilando (usualmente em ordem alfabética) termos e suas definições. O instrumento não cria uma relação entre os termos que apresenta, embora possa fazer referências de um a outro (ex: "para xxx ver verbete yyy").

Tesauro é um controle de vocabulário que organiza objetos ou conceitos de maneira estruturada e hierárquica. Sua estrutura pode ser baseada em funções, em procedências, em conjuntos, ou outros critérios. A função de normalização terminológica é obtida pelo uso consistente de sinônimos, antônimos, hiperônimos (termos mais gerais), hipônimos (termos mais específicos) e outras relações semânticas, de identidade e de desambiguação. Pode trazer, na hierarquia, relações de gênero/espécie, de todo/parte e de associação.

Taxonomia é um controle de vocabulário organiza palavras ou conceitos de maneira estruturada, hierárquica e relacional. Apresenta as mesmas especificações sintáticas do tesauro, e diferencia-se dele pois permite um uso mais flexível de seus termos, os quais podem ser aplicados em diferentes níveis ao objeto que se referem. Uma taxonomia, diferente de um tesauro, possibilita representar de forma simples outras relações entre os elementos descritos, para além daquela que dá sua estrutura principal.

Obs.: formalmente, enquanto vocabulários controlados, tesauros e taxonomias são bem parecidos, tanto que na arquivologia a taxonomia conforme proposta pelo Lineu seria, hoje, um tesauro. No entanto, se utilizamos esses instrumentos para ordenar e classificar conjuntos documentais, a diferença entre eles surge de forma mais clara; e o início de minha tese vou dedicar exatamente a entender melhor a diferença entre os dois. Cabe lembrar que na CI nós classificamos informações; e classificar é "encaixar". Assim, se o objetivo for somente "encontrar os termos mais adequados para descrever um objeto", ambos são quase idênticos; mas se o objetivo for "ordenar um conjunto de documentos", eles passam a ser bem diferentes.
Ex: enquanto um tesauro nos obriga a "escolher" um único elemento para representar um dado objeto, a taxonomia permite, se necessário, a composição de dois ou mais elementos para representar um dado objeto (ex. ex.: se eu tenho um objeto redondo E azul, para classificar em um tesauro eu deveria escolher se esse objeto melhor se encaixa em "redondo" ou em "azul"; já em uma taxonomia, eu posso fazer referência a esses dois termos para complexificar a representação do objeto).

Ontologia é um controle de vocabulário e de relações baseado no modelo conceitual entidade-relacionamento (Entity-Relationship Model - ERM - déc. 1970). Na arquivologia, foi criado o modelo conceitual do Records in Contexts (RiC) para abarcar a crescente complexidade dos grandes conjuntos documentais que vem sendo produzidos em meio digital, mundialmente, por diferentes agentes. A ontologia é um instrumento que descreve de forma controlada tanto objetos (things) e suas instanciações (individuals), quanto as relações existentes entre eles, seus atributos (object propriety ; data propriety), e mesmo as características desses atributos (datatype), entre outros aspectos. Possibilita, e essa é sua grande vantagem, declarar expressões semânticas complexas entre eles. Enquanto os três primeiros vocabulários controlados são eminentemente sintáticos, a ontologia é por sua natureza semântica, e muito útil na representação de realidades complexas, e na inferência automática de novos relacionamentos entre as entidades que representa.
Esse link dá um exemplo simples de ontologia, que pode explicar melhor: https://medium.com/@vindulajayawardana/ontology-generation-and-visualization-with-prot%C3%A9g%C3%A9-6df0af9955e0.

Vou continuando com a leitura do material que vocês me passaram na reunião, e aguardando nosso próximo encontro.

Um grande abraço,
Lucas Zelesco
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.rnp.br/pipermail/etnodata/attachments/20241214/6763f291/attachment.htm>


Mais detalhes sobre a lista de discussão EtnoData