そこで、我々は入力文書を適当な文書集合に類別し、その集合に応じた文書画像理解を行なうアプローチを提案する。ここでは、文書集合の定義と類別方法が重要になるが、我々は、文書構造(論理構造・レイアウト構造)に基づいた文書集合を階層的に定義し、それらを文書類・文書型・文書クラスと呼ぶ。また、類別方法は分類・検証の二段階処理で構成し、この処理を繰り返すことで、入力文書を文書類・文書型・文書クラスに順次類別する。
本稿では、6種類の文書の文書類・文書型を定義し、各文書集合に観察される特徴を挙げる。そして、これらの特徴を利用した類別実験を行ない、分類・検証による類別方法の効果を示す。