Конечно же, это будет не один документ. Больше того - не каждую книгу стоит оцифровывать одним файлом.
Но "весить" он будет немного - текстовые файлы очень компактны. Собрание любого формата, содержащего распознанный текст, наверняка уместится на средний, по нынешним временам, винчестер. Например, моя (немаленькая!) электронная библиотека занимает всего 244 МБ.
Если же хранить это собрание в виде образов типа .pdf или .djvu, то объем может оказаться в десятки раз больше - тут многое зависит от количества и качества картинок, алгоритма оцифровки и т.д.. И даже простой текст (в формате .doc, .rtf или html), насыщенный гиперссылками, сразу резко увеличится в "весе".
Боюсь, ответ делает затруднительным одно обстоятельство: есть много книг, где неотъемлемой частью является картинка, схема и т.д. Без них смысл текста теряется. И весить одна картинка мажет в разы больше, чем весь текст книги. Вывод - надо установить стандартный обьем памяти для картинки и посчитать среднее количество картинок на книгу. А как это предполагается делать?