Ontologias, Metadados Semânticos e a Web
O que tudo isso têm em comum?
|
|
O que tudo isso têm em comum? A resposta
depende de entender o conceito de web semântica. Vamos lá? |
A necessidade de buscar informações disponibilizadas por empresas, governos, pessoas ou instituições científicas não é de hoje. Por volta da metade do último século a.C. um grupo de filósofos, coordenados por Andrônico de Rodes, buscou e organizou as obras de Aristóteles que estavam dispersas e perdidas, permitindo, assim, que as pessoas pudessem ter acesso ao vasto conhecimento construído por este grande pensador.
Nos dias de hoje, as organizações se vêem na difícil tarefa, como a realizada pelo primeiro editor de Aristóteles, de buscar e organizar informações de negócio (internas e externas), as quais, transformadas em conhecimento, podem vir a propiciar uma vantagem competitiva sustentável. Para que estas informações possam ser transformadas em conhecimento aproveitável e diretamente conectado com as necessidades da organização é preciso a utilização de uma ontologia e seu mapeamento construído com o uso dos metadados. Após esta busca e organização, este imenso acervo de informações e conhecimentos deve ser disponibilizado através de um portal.
Neste artigo vamos apresentar a relação que existe entre a construção de uma ontologia empresarial, o uso de metadados semânticos e as suas relações com a busca de informação no ambiente da Web. Primeiramente, vamos conceituar o que é uma ontologia aplicada ao mundo dos negócios, depois como os metadados podem ser o elo de conexão semântica entre a informação e o conhecimento, e por fim como tudo isso pode ser utilizado em um ambiente empresarial.
Ontologia
O termo ontologia, na computação, já vem sendo utilizado desde o início da
década de 90, principalmente na área de inteligência artificial, e tem como
princípio básico: o que “existe” é o que pode ser representado. Neste contexto
as ontologias podem ser entendidas como uma especificação formal e explícita de
uma conceitualização consensual, a qual pode ser definida como uma estrutura
composta por um domínio de conhecimento e um conjunto de relações sobre o mesmo.
Continuando nesta linha de pensamento podemos dizer que uma conceitualização é uma visão abstrata e simplificada do mundo que se quer representar para algum propósito, que no caso das organizações tem relação direta com a tomada de decisão rumo a vantagem competitiva sustentável. Toda base de conhecimento está relacionada de forma direta com alguma conceitualização, explícita ou implícita (conhecimento explícito ou tácito). Uma ontologia é uma especificação explícita de uma conceitualização, apresentada na forma de um vocabulário comum para um determinado domínio do conhecimento. Ela tem a finalidade de definir e registrar o significado dos termos e as relações entre eles, organizando-os em uma taxonomia (classificação) e contendo as visões primitivas de modelagem da informação tais como:
Conceitos: representam qualquer coisa em um domínio, como uma tarefa, uma função, uma estratégia, entre outras;
Relações: representam um tipo de interação entre os conceitos no domínio, sendo a quantificação desta relação (cardinalidade) sempre n:m;
Funções: são um caso especial de relações, sendo a cardinalidade n:1;
Axiomas: são as sentenças que são sempre verdadeiras; e
Instâncias: são utilizadas para representar os elementos do domínio.
Para utilizar uma ontologia no âmbito de um portal de informações é necessária uma linguagem de representação. Nas aplicações de portais sobre a Web, foi desenvolvida uma linguagem de sintaxe padronizada, a XML (eXtensible Markup Language), a partir da qual foram criadas outras linguagens que puderam traduzir uma ontologia para o ambiente computacional. Com isso nasceram a RDF (Resource Description Framework), a RDF Schema entre outras (www.w3.org).
Metadado Semântico
Imagine que você está realizando uma pesquisa no portal de informações de sua
empresa e descobre que o assunto que você tem em mente não foi considerado
relevante no registro da informação ou foi representado por uma palavra que você
nunca usaria para recuperar aquele conteúdo. Neste momento você começa a fazer
várias tentativas, e suas chances de localizar a informação vão diminuindo
enquanto seu tempo vai sendo desperdiçado. O conteúdo nunca é tratado na
exaustão desejada.
A saída para esta situação é estruturar os metadados. São eles que nos permitem representar e socializar os conteúdos a partir de uma visão estratégica da gestão da informação. O que significa fazer com que os conteúdos sejam classificados e organizados de forma a responder as perguntas do cliente da informação, criando condições para que o mesmo possa também incluir os seus próprios metadados, colaborando e interagindo com o ambiente.
Usamos todos os dias informações extraídas a partir de dados. Se os dados foram definidos com precisão podem nos levar a inúmeras conclusões preciosas e indicadores de grande valia. Porém se os dados foram definidos de forma imprecisa podem nos levar a conclusões desastrosas, para nós e para nossa organização.
A necessidade de busca e utilização do conhecimento humano no âmbito da Web levou a sua evolução para o patamar de uma Web Semântica, na qual os recursos disponíveis são acessíveis não somente por seres humanos, mas também por processos automatizados. Estes processos podem ser agentes que percorrem a Web e executam tarefas que objetivam a melhora das buscas em termos de precisão, a descoberta de recursos e a recuperação e filtragem de informações. A automação das tarefas nesta nova Web depende da seguinte idéia chave: ter dados sobre a Web. Estes dados devem ser definidos e ligados de tal forma que seus significados sejam, preferencialmente, interpretados explicitamente por processos de software ao invés de interpretados implicitamente por seres humanos.
Para se atingir este objetivo, torna-se necessário à anotação dos recursos sobre a Web através dos metadados. Na verdade, seria ideal, se houvesse a possibilidade de se anotar ou criar estes metadados com semântica, os quais proveriam alguma indicação sobre o conteúdo de um recurso. As linguagens RDF e RDF Schema suportam a representação de metadados semânticos. Para que haja um entendimento comum em relação aos significados é utilizada uma ontologia.
A breve definição de metadados que diz: “dado sobre dado”, já não permite mais expressar as grandes necessidades atuais. No novo contexto, metadado refere-se a alguma estrutura descritiva da informação sobre outra informação ou conhecimento, auxiliando na identificação, descrição, localização e gerenciamento deste recurso.
Os metadados semânticos possuem duas visões: uma estrutural e outra semântica. A visão estrutural representa a informação que descreve a organização e estrutura dos dados (dado sobre o dado). Por exemplo, informações sobre o formato, os tipos de dados usados e os relacionamentos sintáticos entre eles. A visão semântica fornece as informações sobre o significado das informações disponíveis e seus relacionamentos semânticos. Por exemplo, dados que descrevem o conteúdo semântico de um valor de informação (como unidades de medida e escala), ou dados que fornecem informações adicionais sobre sua criação (algoritmo de cálculo ou derivação da fórmula usada), linhagem dos dados (fontes), qualidade (atualidade e precisão), e localização. Neste sentido, é desejável uma ontologia que forneça um acordo comum de vocabulários, para que as informações sejam referenciadas e relacionadas. Com esta visão podemos dizer que uma ontologia serve como uma base comum para a representação de dados e metadados semânticos.
Um domínio específico de ontologias pode ser utilizado para assegurar a correta interpretação dos metadados disponíveis. Como vimos anteriormente uma ontologia fornece um entendimento sobre uma conceitualização compartilhada de um determinado domínio de aplicação. Os conceitos específicos numa ontologia fornecem um vocabulário comum para que nenhuma negociação adicional seja necessária.
Os metadados semânticos representam um significante papel no contexto da Web Semântica e, por conseqüência, em qualquer outro assunto relacionado à disponibilidade e acesso de dados e recursos na Web, tais como: comércio eletrônico e bibliotecas digitais.
Na visão atual os metadados podem ser classificados, quanto às características encontradas nos principais padrões atuais, da seguinte forma:
Metadados para descoberta do recurso: esta categoria se refere aos elementos necessários à descoberta e identificação de um recurso de informação na rede. Toma como base informações básicas, tais como título, autor, assunto e identificador único do recurso (URL, URI); informações adicionais, que servem para garantir que o recurso em questão é, de fato, aquele que se deseja recuperar: tipo da mídia (documento, imagem, vídeo) e gênero do recurso, datas relacionadas (ex: criação do recurso) e seus contribuintes (editores, compiladores, etc.); características técnicas (idioma, formato), que auxiliam na seleção de uma instância que atenda aos requisitos de utilização do usuário; e informações complementares, que permitem relacionar os recursos com outros (referências a outros recursos);
Metadados para disponibilidade do recurso: estes metadados definem os termos e condições requeridas para o acesso e a recuperação de um recurso, de forma restrita ou não. De uma forma genérica, esses elementos descrevem como o recurso de informação é tornado disponível aos usuários, especificando formatos, distribuidores, detalhes da publicação, informações para contato e formas de solicitação do recurso, entre outros. São estes metadados que garantem o direito à privacidade e à propriedade intelectual. Podem ser expressos como uma requisição de permissão para acesso ou de identificação mediante a informação de um usuário e de uma senha. Especificam os requisitos de software e de hardware para uso do recurso, com o objetivo é evitar a transferência de dados pela Web sem as condições necessárias ao seu uso ou exibição. Provêem a informação necessária para se transferir um recurso de um servidor para um cliente, considerando o custo de transmissão versus à localização do recurso. Também servem para garantir que um recurso não seja modificado de forma indevida. Baseiam-se no conteúdo do recurso para classificá-lo segundo algum esquema provido por uma autoridade de classificação e certificação;
Metadados para utilização do recurso: são informações adicionais que possibilitam a utilização adequada do recurso. De uma forma geral são metadados para a descrição da qualidade da informação do recurso, podendo descrever a validade, o percentual de acerto e a estimativa de erro das informações contidas em um determinado recurso. Podem descrer o propósito do recurso, o porquê do recurso de informação estar sendo liberado aos usuários, identificando programas, projetos, fóruns de discussão, etc. São metadados para descrição contextual do recurso, provendo informações a respeito de eventos, situações, ambiente, entre outros, relacionados à produção do recurso;
Metadados para administração e controle do recurso: estes metadados provêem informações para controle e auditoria de um recurso de informação e de seus metadados associados. Ao metadados para administração e controle das modificações do recurso, podendo descrever: as modificações introduzidas, datas relacionadas, responsáveis pelas modificações, informações para contato com esses responsáveis, data de criação, período de validade, e identificação de seus administradores. Incluem também metadados para histórico de uso do recurso, que são metadados operacionais reservados para armazenar informações a cerca das operações executadas sobre o recurso. Incluem também os metadados para administração do próprio metadado: são informações que permitem gerenciar e controlar os metadados associados a um recurso, tais como: sua data criação, última revisão, próxima revisão, identificação de seus administradores, informações para contato, nome e versão dos padrões usados, etc.
No campo dos metadados semânticos existem uma série de esforços no sentido de padronização, tais como os realizados pelo World Wild Web Consortium (www.w3c.org) e o Dublin Core Metadata Initiative (www.dublincore.org).
O governo brasileiro vem dando particular importância a este tema no âmbito da política nacional de governo eletrônico (www.governoeletronico.gov.br), através do projeto e-Ping, o qual visa unificar e trocar dados entre sistemas de instituições públicas.
De nada adianta implantarmos tecnologias para a
gestão de informações, tais como: banco de dados, data warehouse, CRM, ERP,
entre outras, se os metadados não são apropriados
Continua na próxima edição.
|
Maurício Abreu, diretor da SumNet (www.sumset.com.br), é consultor da PHD Brasil. |