quinta-feira, 7 de abril de 2011

Definição de documento digital 2

Na última mensagem publicada, apresentamos uma definição operacional para o conceito de documento digital:

Um documento digital é o equivalente a uma sequência de códigos binários registrados em algum tipo de tecnologia de memória. Organizados de acordo com determinado formato de arquivo computacional e mensurado através da quantidade de bytes total desse arquivo. Dependendo do tipo de conteúdo, haverá outras características específicas como a representação de cores, som ou texto. A interpretação desses códigos para humanos ocorrerá através de sistemas computacionais de software e hardware.”

Um possível problema com essa definição operacional é que ela possui um outro conceito não óbvio para a imensa maioria das pessoas e até para alguns especialistas: trata-se do conceito de formato de arquivo. Dessa forma, é conveniente também desenvolvermos uma definição operacional para esse importante conceito.

Formatos de arquivo nada mais são do que convenções sobre como organizar os bytes de um arquivo gerado por software. Isso é necessário porque as informações correspondentes aos bytes no arquivo gravado em algum tipo de memória possuem diferentes categorias. Explicitando melhor, alguns bytes correspondem ao conteúdo do arquivo (por exemplo texto), outros correspondem à disposição ou layout do conteúdo na tela ou na impressora, outros correspondem a alguma característica de som (no caso de arquivos sonoros). Há ainda os trechos de bytes que registram o nome do arquivo, seu autor, data de criação, tamanho total em extensão. Enfim, há uma infinidade de categorias possíveis. Quantas e quais dessas dependerá do tipo de arquivo e software que o cria.

Formatos de arquivo são, originalmente, definidos e convencionados pelos mesmos criadores do software que os produz. Por exemplo, um determinado editor de texto pode gerar arquivos no formato de arquivo XYZ que passa a ser vinculado ao software editor de texto. Um outro software para edição de imagens pode gerar arquivos no formato XYZ(2) e assim por diante. Às vezes, um software é conhecido pelo nome de seu formato de arquivo. Por outro lado, é muito comum que um determinado software utilize e até mesmo produza arquivos em vários formatos, muitos deles definidos por outras empresas ou organizações. Isso é ainda mais comum quando é definido um formato de arquivo padrão criado justamente para ser utilizado por qualquer software que tenha interesse naquele tipo de arquivo. Um exemplo são arquivos no formato JPEG2000 .

A convenção sobre quais são as categorias e quais informações específicas serão gravadas e representadas através dos bytes num arquivo de computador - bem como a posição física desses bytes nesse mesmo arquivo – resulta no que é chamado de especificação de formato de arquivo. Isso é basicamente um documento textual, muito similar a um manual técnico. Adicionalmente, muitos outros manuais podem ser disponibilizados. Um exemplo são as instruções para aplicação em softwares ou uso de características especiais como a compressão de dados no arquivo, se for o caso.

Essas especificações costumam ser agrupadas entre as proprietárias e não proprietárias. Referindo-se à existência de uma instituição ou empresa que detenha os direitos de propriedade sobre aquelas informações. Normalmente, trata-se da mesma instituição ou empresa que desenvolve e comercializa o software que gera aqueles arquivos.

Um outro agrupamento comum refere-se à publicidade dada à especificação do formato de arquivo. Nesse caso, costumam ser agrupadas entre as abertas ou fechadas. Ou seja, as informações da especificação são disponibilizadas, oficialmente, ao público ou não. Uma especificação não proprietária costuma estar disponibilizada ao público em geral, o que, raramente, acontece com uma especificação proprietária.

Há ainda uma categoria de especificações de formatos de arquivo e refere-se ao fato dela ser uma norma (oficial ou de facto). Um formato de arquivo com uma especificação na forma de norma oficial é aquele que, através de uma instituição normativa oficial como a International Organization for Standardization (ISO), é criado e atualizado. Está nesse caso a norma ISO 19005-1:2005 (Document management – electronic document file format for long-term preservation, part 1: use of PDF 1.4 – PDF/A-1). Outras especificações de formato de arquivo, apesar de não estarem na forma de norma oficial, podem se transformar numa norma de facto. Isso acontece para aqueles casos onde o formato de arquivo acaba sendo tão utilizado no mercado que acaba, informalmente, virando uma norma. O problema com essas “normas” são as possíveis diferenças entre diferentes implementações. Como não se trata de uma norma oficialmente documentada, costumam surgir “aprimoramentos” ou pequenas diferenças em relação a diferentes empresas. Esse é o caso do formato de arquivo TIFF, que apesar de ser uma norma de facto, muitos defendem que, na verdade, existem vários formatos, todos chamados de TIFF.

A partir do quadro conceitual e das informações acima, como deveria ser uma definição operacional de formato de arquivo? Propomos uma com a seguinte redação:

Um formato de arquivo é o equivalente à convenção de informações, representadas através de bytes, que dizem respeito ao conteúdo, propriamente dito, e outras informações necessárias para gravar um arquivo gerado por software ou, posteriormente, reproduzir esse arquivo para ter acesso a seu conteúdo. Essa convenção defini também a posição física e ordem dos bytes gravados no arquivo. Formalmente, essa convenção será registrada num documento chamado especificação de formato de arquivo. A qual poderá ter acesso público a seu conteúdo ou não, possuir um detentor de seus direitos autorias com restrições a seu uso ou não. E ainda pode estar na forma de uma norma oficial padronizada ou não.”

A rigor, trata-se de uma definição de formato de arquivo e especificação de formato de arquivo, mas parece atender bem nossos interesses em relação à preservação digital.

Nenhum comentário: