Разработчики кодировок для корпусов вселяют надежду в людей, изучающих китайский.
Количество китайских иероглифов [в определённой системе кодировок] в 1994 году составляло 85,000. Впрочем, большая часть этих символов использовалась лишь изредка. Исследования показывают, что 1000 иероглифов покрывают 90%,
2,400 иероглифов покрывают 99%,
3,800 иероглифов покрывают 99.9%,
5,200 иероглифов покрывают 99.99%,
а 6,600 иероглифов покрывают 99.999% письменного китайского.
В комментариях к этому посту:
Александр Арбузов: мне по работе приходится сталкиваться с ПДФ файлами и я тебе скажу, что иногда и 26000 не хватает для нужд пользователей 🙂
Шурка: Систематически не хватает или просто раз в неделю один образованный китаец не может найти иероглиф для слова “кошениль”?
Александр Арбузов: у нас специфика такая, что пдф файл не сможет сгенерироваться, если нет какого-то символа (и действительно, откуда ж его взять).
Путем проб и ошибок подобран комплект (из 26к), на котором нашим индусам и китайцам не получается уронить генерацию 🙂