определение объема выборки

Относится к одной из важнейших проблем лингвостатистики, т.к. выводы, полученные на основании исследования выборки, позволяют получить представление о генеральной совокупности. Наиболее репрезентативным оптимальным объемом выборки считается корпус текстов протяженностью в 200 тыс. словоупотреблений. Однако для построения машинных словарей входного синтетического языка (русский, немецкий) выборка из научно-технических текстов увеличивается в 1,5-2 раза, т.е. должна быть не менее 300—400 тыс. словоупотреблений, а для публицистических, беллетрических и смешанных текстов исходный объем выборки для построения частотного словаря возрастает в 5 раз.

Толковый переводоведческий словарь / Л.Л. Нелюбин. — 3-е изд., перераб. — М.: Флинта: Наука, 2003

Источник: Толковый переводоведческий словарь на Gufo.me