ARTIGO

Ontologias, metadados semânticos e a Web
(segunda e última parte)
por Maurício Abreu

A breve definição de metadados como "dado sobre dado" já não expressa as grandes necessidades atuais. No novo contexto, metadado refere-se a alguma estrutura descritiva da informação sobre outra informação ou conhecimento, auxiliando na identificação, descrição, localização e gerenciamento desse recurso.

Os metadados semânticos se apresentam sob duas visões: estrutural e semântico. A estrutural é a informação que descreve a organização e estrutura dos dados (dado sobre o dado). Por exemplo, informações sobre o formato, os tipos de dados usados e os relacionamentos sintáticos entre eles. A visão semântica fornece as informações sobre o significado das informações disponíveis e relacionamentos semânticos de cada uma delas. Por exemplo, dados que descrevem o conteúdo semântico de um valor de informação (como unidades de medida e escala), ou dados que fornecem informações adicionais sobre a própria criação (algoritmo de cálculo ou derivação da fórmula usada), linhagem dos dados (fontes), qualidade (atualidade e precisão), e localização. Nesse sentido, é desejável uma ontologia que forneça um acordo comum de vocabulários, para que as informações sejam referenciadas e relacionadas. Com essa visão, podemos dizer que uma ontologia serve de base comum para a representação de dados e metadados semânticos.

Um domínio específico de ontologias pode ser utilizado para assegurar a correta interpretação dos metadados disponíveis. Como vimos, anteriormente, uma ontologia fornece entendimento sobre uma conceituação compartilhada de determinado domínio de aplicação. Os conceitos específicos numa ontologia geram um vocabulário comum, para que nenhuma negociação adicional seja necessária.

Os metadados semânticos representam um significante papel no contexto da Web Semântica e, por conseqüência, em qualquer outro assunto relacionado à disponibilidade e acesso de dados e recursos na Web, tais como: comércio eletrônico e bibliotecas digitais.

Na visão atual, os metadados podem ser classificados, quanto às características encontradas nos principais padrões atuais, da seguinte forma:

- Metadados para descoberta do recurso. Essa categoria se refere aos elementos necessários à descoberta e identificação de um recurso de informação na rede. Toma como base informações básicas, tais como título, autor, assunto e identificador único do recurso (URL, URI); informações adicionais, que servem para garantir que o recurso em questão seja, de fato, aquele que se deseja recuperar: tipo da mídia (documento, imagem, vídeo) e gênero do recurso, datas relacionadas (ex: criação do recurso) e seus contribuintes (editores, compiladores, etc.); características técnicas (idioma, formato), que auxiliam na seleção de uma instância que atenda aos requisitos de utilização do usuário; e informações complementares, que permitem relacionar os recursos com outros (referências a outros recursos);

- Metadados para disponibilidade do recurso. Esses metadados definem os termos e condições requeridas para o acesso e a recuperação de um recurso, de forma restrita ou não. De uma forma genérica, esses elementos descrevem como o recurso de informação é tornado disponível aos usuários, especificando formatos, distribuidores, detalhes da publicação, informações para contato e formas de solicitação do recurso, entre outros. São esses metadados que garantem o direito à privacidade e à propriedade intelectual. Podem ser expressos como uma requisição de permissão para acesso ou de identificação mediante a informação de um usuário e de uma senha. Especificam os requisitos de software e de hardware para uso do recurso, com o objetivo de evitar a transferência de dados pela Web, sem as condições necessárias ao seu uso ou exibição. Provêem a informação necessária para se transferir um recurso de um servidor para um cliente, considerando o custo de transmissão versus à localização do recurso. Também servem para garantir que um recurso não seja modificado de forma indevida. Baseiam-se no conteúdo do recurso para classificá-lo segundo algum esquema provido por uma autoridade de classificação e certificação;

- Metadados para utilização do recurso. São informações adicionais que possibilitam a utilização adequada do recurso. De forma geral, são metadados para a descrição da qualidade da informação do recurso, podendo descrever a validade, o percentual de acerto e a estimativa de erro das informações contidas em um determinado recurso. Podem descrer o propósito do recurso, o porquê de o recurso de informação estar sendo liberado aos usuários, identificando programas, projetos, fóruns de discussão etc. São metadados para descrição contextual do recurso, provendo informações a respeito de eventos, situações, ambiente, entre outros, relacionados à produção do recurso;

- Metadados para administração e controle do recurso. Esses metadados provêem informações para controle e auditoria de um recurso de informação e de seus metadados associados. Ao metadados para administração e controle das modificações do recurso, podendo descrever: as modificações introduzidas, datas relacionadas, responsáveis pelas modificações, informações para contato com esses responsáveis, data de criação, período de validade, e identificação de seus administradores. Incluem, também, metadados para histórico de uso do recurso, que são metadados operacionais reservados para armazenar informações a cerca das operações executadas sobre o recurso. Incluem também os metadados para administração do próprio metadado: são informações que permitem gerenciar e controlar os metadados associados a um recurso, tais como: sua data criação, última revisão, próxima revisão, identificação de seus administradores, informações para contato, nome e versão dos padrões usados etc.

No campo dos metadados semânticos, existe uma série de esforços no sentido de padronização, tais como os realizados pelo World Wild Web Consortium (www.w3c.org) e o Dublin Core Metadata Initiative (www.dublincore.org).

O governo brasileiro vem dando particular importância a esse tema no âmbito da política nacional de governo eletrônico (www.governoeletronico.gov.br), por intermédio do projeto e-Ping, que visa a unificar e trocar dados entre sistemas de instituições públicas.

De nada adianta implantarmos tecnologias para a gestão de informações, tais como banco de dados, data warehouse, CRM e ERP, entre outras, se os metadados não são apropriados ou planejados para esse fim.

TWeb e Web Semântica

Todos os dias milhares de novas páginas são publicadas na Internet, o que torna cada vez mais difícil, para um usuário, recuperar a informação relevante, da qual precisa. Diante desse caos, uma enorme quantidade de negócios ou oportunidades pode ser desperdiçada, simplesmente por falta de informação na hora ou no formato certos.

A Web Semântica surge como uma possível solução para a estruturação dos dados na Web, permitindo a criação de um contexto no qual a informação possa ter significado para as máquinas, que se encarregarão de levar a informação relevante para o usuário.

Berners-Lee, idealizador dessa nova Web, cita um exemplo do que a Web Semântica será capaz de fazer: o usuário realizará uma pesquisa na Internet para encontrar um médico de uma determinada área da Medicina, estabelecendo algumas restrições, tais como "o médico deve ter consultório no mesmo bairro onde moro e deve estar ligado à comunidade acadêmica". Um agente de pesquisa navegará pela rede e encontrará algumas possibilidades. De maneira inteligente e automática, ele deverá comparar a agenda do usuário com a agenda do médico e oferecer opções de horários para consulta. O usuário só terá o trabalho de escolher o horário que melhor lhe convier.

A Web Semântica é uma evolução da Web atual, na qual informação possui um significado bem definido, possibilitando que computadores e pessoas trabalhem em cooperação. Ela fornece uma arquitetura que permite que dados sejam compartilhados e reusados entre os programas, empresas e comunidades. Ela pretende fornecer estruturas e dar significado semântico ao conteúdo das páginas Web, criando ambiente no qual agentes de software e usuários possam trabalhar de forma cooperativa.

Para Berners-Lee, os computadores precisam ter acesso a coleções estruturadas de informações (dados e metadados) e de conjuntos de regras de inferência que ajudem no processo de dedução automática, para que seja administrado o raciocínio automatizado, ou seja, a representação do conhecimento. Essas regras são especificadas em ontologias, que permitem representar explicitamente a semântica das informações. Por meio dessas ontologias é possível elaborar uma rede de conhecimento humano, complementar ao processamento da máquina, melhorando o nível de serviços na web.

A web atual é um conjunto de recursos e links. Os recursos são identificados pelos seus URIs (Uniform Resource Identifiers). A URL (Uniform Resource Location) faz parte de um subconjunto da URI. Para o usuário, não existe qualquer problema quanto a essa questão, pois ele é capaz de ler a descrição do link, identificando o sentido semântico embutido naquele contexto. Para a máquina, entretanto, muito pouca informação está disponível, uma vez que não é possível fazer uma análise quanto ao juízo transmitido por um link. O significado dos links só é evidente no contexto em torno da âncora. Por exemplo, dois sites de cinema podem fazer referência a um mesmo filme. Entretanto, um site lista o filme entre os dez melhores e o outro entre os dez piores. O sentido é totalmente diferente para o homem, mas não para a máquina, que só percebe uma simples ligação.

Nessa nova visão da Web, o conjunto de recursos e links também são identificados por URI's, mas podem ser "tipificados". Consiste em atribuir um tipo à relação entre dois recursos. Forma-se o conceito chamado de triplas (um recurso, uma propriedade e um valor). Nesse contexto, uma relação entre dois recursos possui uma propriedade que permite atribuir significado à ligação. No exemplo dos sites de filme, pode-se atribuir a propriedade "está entre os dez melhores" ao link no primeiro site e a propriedade "está entre os dez piores" ao link no segundo site. A diferença entre os modelos é que agora o conhecimento está formalizado de uma maneira estruturada. Podemos utilizar as linguagens XML e RDF para formalizar esse conhecimento.

O objetivo da Web Semântica é estruturar o conteúdo que está solto na Internet. Para tal, é necessário que agentes de software (ou agentes inteligentes) percorram a grande rede, página por página, para executar tarefas consideradas sofisticadas para o usuário. Esses agentes serão capazes de identificar o significado exato de uma palavra e as relações lógicas entre várias palavras.

Para os computadores entenderem o conteúdo da Web, é necessário que eles consigam ler dados estruturados e tenham acesso a um conjunto de regras que o ajudem a conduzir seus "raciocínios".

Na linguagem humana, uma palavra pode assumir vários significados, o que pode causar confusão nos sistemas computacionais. A solução é usar URIs diferentes para cada conceito. Quando acontecer de dois bancos de dados usarem URIs diferentes para um conceito, é necessário que o software que vai analisá-los saiba quando está tratando do mesmo conceito. Nesse caso, são usadas as ontologias, que fornecerão o vocabulário necessário para a comunicação entre os agentes e as páginas e mostrarão as relações entre os conceitos.

Um bom exemplo de aplicação da Web Semântica é a Gestão do Conhecimento, área que se concentra na obtenção, manutenção e acesso ao conhecimento de uma organização, com o objetivo de aumentar a produtividade e geração de vantagem competitiva sustentável. A tecnologia da Web Semântica provê novas possibilidades para a gestão do conhecimento tais como pesquisas inteligentes, ao invés de pesquisas por palavras-chave. Nesse contexto, entram os metadados semânticos.

A Web Semântica utiliza os metadados semânticos para dar significado aos seus recursos e esses metadados são criados por meio de alguns padrões próprios para Web, como vimos anteriormente.
A figura 1 apresenta uma arquitetura para a Web Semântica, composta de três camadas:
- Camada Esquema – responsável por estruturar os dados e definir seu significado, para que possa elaborar um "raciocínio lógico". Essa camada é o primeiro passo em direção a Web Semântica;
- Camada Ontologia – responsável por definir as relações entre os recursos de informação. Essa camada é responsável pela formação do entendimento comum e compartilhado de um domínio;
- Camada Lógica – responsável pela definição de mecanismos de inferência sobre os recursos de informação, sendo composta por um conjunto de regras de inferência que os agentes poderão utilizar para relacionar e processar informações.

Os metadados semânticos formam a base de conectividade entre todas as três camadas.

Concluindo

No passado, vivemos e enfrentamos o imenso desafio de buscar o conhecimento perdido em pergaminhos, inscrições em pedras, documentos, livros, objetos de arte e outros artefatos que continham conhecimento significativo, e que ficavam guardados e esquecidos em galpões enpoeirados e inacessíveis. A construção da Internet (Web) veio tornar a informação e o conhecimento bem mais acessíveis, disponíveis na distância do um clicar de mouse. Isso nos revelou o outro lado da moeda, pois fomos sobrecarregados de informações que, na maioria das vezes, é irrelevante e inútil, em síntese um verdadeiro "lixo" informacional, que nada nos acrescenta na busca do conhecimento. Passamos a enfrentar o mesmo desafio do passado, como encontrar a informação certa, na hora certa.

A Web Semântica veio como uma tentativa de minimizar esse problema e trazer maior eficácia na realização das buscas por informação e conhecimento relevantes. Os mecanismos de busca avançam no sentido de utilizarem as imensas possibilidades de estruturação da informação no âmbito da Web Semântica, e que, no futuro, vão-se tornar verdadeiros oráculos do meio digital. Mas, para estabelecer a relação semântica entre as diversas fontes de informação, é necessário um esforço imenso, que pode demorar anos para se concretizar. Mas, como toda a inovação gera oportunidades, serão beneficiados aqueles que saírem na frente e se posicionarem onde possam ser facilmente localizados por meio das relações semânticas criadas.

Maurício Abreu, diretor da SumNet (www.sumset.com.br), é consultor da PHD Brasil.


[ Home ] [   Imprimir ]