Dados. Cada coisa no seu lugar (*)
|
|
No data warehouse (DW), ao contrário do que
diz o fabricante, para ganhar performance, o melhor é a mídia mais barata. |
Um dos desafios a vencer, na hora de construir um
DW, é convencer o CIO (Chief Information Officer) de que, ao contrário do que
ele vêm ouvindo ao longo do tempo (dito pelos fabricantes, claro!), a mídia de
alta performance e, portanto, de alto custo, definitivamente, não é a única
maneira segura de guardar informações estratégicas. O desafio é maior quanto
mais difícil se torna mudar velhos hábitos. Mas sempre se pode argumentar com um
fato inquestionável: escolher a mídia certa não significa optar pela mais cara.
Pelo contrário, muitas vezes, a melhor escolha é a mais barata. Tudo depende da
quantidade e tipo de informação que se deseja guardar, bem como do grau de
importância e freqüência com a qual ela é requisitada dentro da corporação.
No contato com os CIOs acostumados ao velho modelo, costumo dizer que, para
começo de conversa, o armazenamento em disco pode ter sido a resposta no
passado, numa outra era - mas simplesmente deixou de ser. A exigência só existe
quando se trata de processar informações com elevado índice de performance, caso
do OLTP. Mas
o mundo dos dados não se circunscreve ao ambiente OLTP, onde o volume de dados
se mede em megabytes, no máximo em gigabytes, exigindo, portanto, menos espaço.
No DW, estamos falando de dezenas de gigabytes, terabytes e até petabytes. Haja
disco e dinheiro para gastar neles!
Nesse ambiente, de maneira ainda mais dramática do que no OLTP, o que vai
determinar a mídia é a natureza da informação quanto ao uso. Os dados se dividem
em duas classes: os ativamente utilizados e os dormentes. No primeiro grupo,
encontram-se aqueles que o usuário final examina com regularidade, no dia-a-dia.
Dados dormentes são aqueles que raramente são solicitados seja lá para o que
for. É o caso de 70 a 80% (ou mais) do acervo!
Não é assim, de novo, no ambiente OLTP, característico das transações online.
Nele, todos os dados praticamente têm a mesma chance de virem a ser
requisitados. Ao contrário do DW, no qual alguns dados são bastante solicitados,
outros nem tanto e alguns jamais, permanecendo guardados, muitas vezes, até
mesmo por uma questão de exigência legal.
A despeito de tudo isso, quando se dirige ao CIO disposto a fazer por menos,
economizando na construção do DW para investir em outros projetos, o fabricante
logo vem com o argumento de sempre: "E a performance? Se você adotar o
armazenamento alternativo, ela vai piorar", diz ele. Com o argumento de que a
recuperação dos dados a partir do armazenamento em disco é mais rápida do que a
partir do armazenamento alternativo, logo conclui que todos os dados do data
warehouse devem ser armazenados em disco. Errado!
Se não bastasse tudo aquilo que já dissemos, saiba que o que está em jogo não é
somente a questão de desperdício de dinheiro. Suprema ironia, quem quer maior
performance num DW não deve colocar todos os dados em disco de alta performance!
Isso mesmo! A performance piora - e muito - quando um data warehouse de grande
porte é 100% armazenado em disco de alta performance.
Considere dois sistemas de DW que guardam, exatamente, a mesma quantidade de
dados - algo em torno de 100 terabytes de dados: o DWA e o DWB. O primeiro está
inteiro em disco de alta performance; o segundo, ao contrário, foi
inteligentemente dividido em dois: um terabyte fica em disco de alta performance
e 99 terabytes em mídia alternativa. Os dados armazenados em disco de alta
performance no DWA são os dados ativamente utilizados. Os dados guardados em
sistema alternativo, no DWB, são os dormentes. Realmente, é necessário mais
tempo para ter acesso aos dados que ele guarda. Mas... e daí? Afinal, os dados
que ele contém são dormentes. Em outras palavras, o acesso aos 99 terabytes
raramente ocorre. E, se é assim, por que pagar mais para abrigá-los em mídia de
alta performance?
Agora, qual dos dois sistemas de DW é mais eficiente? O A ou o B? O B, é claro!
E por uma razão simples: em cada consulta aos dados ativos, buscará a resposta
em apenas 1% dos dados que residem em disco. Já no DWA, a informação procurada
estará dispersa por 100 terabytes de dados. O sistema perde tempo demais
procurando os dados consultados, sendo obrigado a percorrer verdadeiras
"montanhas" de dados irrelevantes.
Caso o volume de dados na sua empresa esteja abaixo de 2 - 3 terabytes, você
provavelmente não precisa avaliar o armazenamento alternativo. Mas, se você está
lidando com volume superior a esse, não se deixe levar pela conversa do
fabricante e considere-a! Com isso, além de garantir a performance, você
economizará dinheiro, ganhando poder de argumentação quando precisar justificar
novos investimentos em TI. Acredite!
|
Bill Inmon, "pai" dos sistemas de data warehouse, é consultor da PHD Brasil |