теория информации и измерение текста

Теория информации (информатика) ориентирована не на содержательную сторону передачи и хранения информации, а на ее статистическую структуру. Статистическая структура текста понимается как частота появления в сообщении сигнала (символа) (это вероятность, обозначаемая знаком р и сочетаний сигналов – условная вероятность, обозначаемая pi). При многократном повторении сигнала важно определить количество информации, передаваемой сигналом. Количество информации приравнивается к мере недостающей информации, т.е. к величине неопределенности. Такое количество информации называется энтропией. Она характеризует ситуацию перед получением сигнала в большей степени, чем сам сигнал. Неопределенность ситуации, а вместе с нею и количество информации возрастает с увеличением числа сигналов. При одинаковом числе сигналов неопределенность наибольшая в том случае, если вероятность появления всех сигналов равновероятна.

Величина неопределенности Н связана с вероятностями по формуле

H = -Σp(i)log2p(i)

где вероятность сигнала i обозначена через p(i), i принимает значение 1, 2 ... n;

Σ – знак суммы [р(1) log2 p(l)+p(2)log2 р(2)+.. +р(n) log2 р(n)].

Источник: Словарь лингвистических терминов Жеребило на Gufo.me