Химическая энциклопедия

обработка результатов эксперимента

ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА в химии

заключается в применении методов мат. статистики для оценки значений разл. физ. величин (свойства соед., параметры химико-технол. процессов и др.), характеризующих изучаемые объекты, и (или) зависимости этих величин от одного либо нсск. изменяемых внеш. условий (напр., температура, давление, тип катализатора). Обработка результатов эксперимента (О. р.) включает, как правило, также и определение точности данных, полученных при его проведении.

Результаты измерений обычно содержат случайные ошибки, поэтому статистич. оценки выполняют только при наличии серии измерений — т. наз. случайной выборки. Для оценки измеряемого значения к.-л. величины или исследуемой зависимости ее от внеш. условий по данным выборки рассчитывают т. наз. выборочные параметры, характеризующие статистич. распределение ошибок в проведенном эксперименте. Такое распределение, как правило, подчиняется т. наз. нормальному закону, конкретный вид которого определяют два параметра — выборочное среднее и выборочная дисперсия (см. ниже).

Точность получаемых оценок устанавливают с помощью статистич. критериев Стьюдента (t-критерий), Фишера (F-критерий) и т. д. При этом количеств, мерами служат т. наз. доверит. вероятность . При заданных требованиях на точность результатов измерений доверит. вероятность (уровень значимости) определяет надежность полученной оценки.

О. р. измерений значения физической величины. Проводится, если условия опыта не изменяются или их возможные изменения не учитываются. Такая О. р. состоит в оценке значения выборочного среднего (среднего арифметического) и определении ее точности. При этом различают О. р. прямых и косвенных измерений.

Прямые измерения. При таких измерениях числовое значение определяемой величины непосредственно считывается с показаний прибора (напр., весов). Если при повторных измерениях одной и той же величины а получаются неразличимые результаты х для принятой градуировки шкалы прибора, то в этом случае в качестве абс. погрешности измерений м. б. принята цена деления шкалы. Если же при n повторных измерениях регистрируются разл. отсчеты по шкале прибора, то их совокупность может рассматриваться как выборка случайных величин x t x2, ..., хп. В качестве наиб. вероятной оценки значения измеряемой величины в этом случае обычно полагают выборочное среднее

которое принимают за приближенное значение а, т. е.

Т.к. ошибки измерений случайны, полученная оценка результата также случайна. Мерой ее погрешности служит т. наз. выборочный стандарт среднего

где S2x — выборочная дисперсия, которая может вычисляться на основании той же выборки:

Значение погрешности найденной оценки , который "накрывает" истинное значение а с заданной доверит. вероятностью, т. е.

Величина доверит. интервала при достаточно больших объемах выборки (n, напр.:

При значениях п < 30, что наиб. характерно для эксперимента, существенна зависимость и числу степеней свободы выборочной дисперсии f = n— 1 :

Если значения границ доверит. интервала = 0,95, реже 0,99 и 0,999.

Пример 1. При взвешивании образца анализируемого вещества получены след. результаты: 47,12; 47,08; 47,13 г. Оценить истинную массу образца и определить точность этой оценки для β= 0,95. В данном случае n = 3; р = 1 —β = = 1 — 0,95 = 0,05; f= п — 1 = 3 — 1 = 2. По формулам (1)-(3) вычисляют выборочные среднее и дисперсию:

Далее по таблицам распределения Стьюдента находят величину t(p,f) = = t(0,05; 2) = 4,30 и по формуле (6) рассчитывают величину доверит. интервала:

Оценка массы образца по формуле (4) составляет 47,11 ±0,07 г. С увеличением числа измерений eb уменьшается. Так, если дополнить проведенные измерения результатами еще двух взвешиваний (47,09 и 47,13 г), то п = 5, f = п — I =5 — 1 = 4, и аналогично предыдущему определяют: = 0,03 г. Т.обр., точность оценки массы возрастает более чем в два раза; 47,11 ±0,03 г.

Косвенные измерения. Таким измерением наз. расчет величины у по результатам прямых измерений xl, x2, ..., xk неск. величин a1, a2, ..., ak. В общем случае вычислит, процедура определения у представляется в виде функции k переменных:

Тогда выборочное среднее находят подстановкой в расчетные формулы выборочных средних прямо измеренных величин:

Выборочную дисперсию вычисляют по формуле:

где , где ni,—число измерений xi ; число степеней свободы f=n — k.

Последовательность расчетов: 1) вычисляют выборочные средние и дисперсии прямо измеренных величин. 2) По формулам (8) и (9) находят выборочные среднее и дисперсию искомой величины. 3) По табл. распределения Стьюдента находят значение t-критерия и вычисляют доверит. интервал полученной оценки измерения.

О. р. исследования зависимости физической величины от изменяющихся условий опытов (построение математической модели). Проводится с целью построения аналит. (в виде уравнения) зависимости значения величины у, характеризующей изучаемый объект и наз. откликом, от одного либо ряда изменяющихся внеш. условий, или факторов, x1, x2,..., xk, которые образуют т. наз. факторное пространство.

Введем некоторые понятия матричной алгебры, используемые при получении оценок зависимостей и определении их точности. Матрицей А называют некоторую таблицу чисел; порядок, или размер, матрицы т x п определяют число ее строк т и число столбцов п. Элементы матрицы А обозначают через аij, где первый индекс указывает на его принадлежность к i- и строке, второй -j-му столбцу (для матрицы В-элементы bij , для матрицы D-dij. и т. д.). Матрицу, состоящую из одного столбца, называют вектором а, матрицу, содержащую одинаковое число строк и столбцов (при т — п),-квадратной матрицей. Элемент матрицы, у которого значения индексов равны (i=j), называют диагональным. Матрицу, все элементы которой, кроме диагональных, равны нулю, называют диагональной; если все ее диагональные элементы равны 1, матрицу называют единичной и обозначают через Е. Матрицу, у которой строки заменены столбцами, а столбцы-строками, называют транспонированной и обозначают через А'. Если А = А', такую матрицу называют симметричной. Сумма двух матриц А и В одинакового порядка т х n — матрица D = А + В того же порядка, для которой dij =aij + bij (i= 1, 2, ..., т; j = 1, 2, ..., n). Произведение матрицы U порядка m x s на матрицу V порядка s х n-матрица Q = UV порядка т х п, где

Произведением матрицы U порядка т х s на вектор v порядка s служит вектор q = Ui, порядка т, где

Обратной матрицей по отношению к данной матрице А называют такую матрицу А−1, произведением которой на исходную является единичная матрица АА−1 = A−1A = Е.

Далее в тексте вводятся матрицы Ф, N и С, а также векторы х, у, уp, и t, принятые в мат. статистике.

В зависимости от организации опытов принято различать пассивный и активный эксперименты. При проведении пассивного эксперимента для каждого измерения значения отклика yi (i= 1,2,..., n) регистрируется совокупность значений факторов xi = (x1i, x2i, ..., хki), представляющая собой точку в факторном пространстве с соответствующими значениями координат. Ценность пассивного эксперимента существенно зависит от того, насколько широки пределы изменения факторов; как правило, область его применения — действующие хим. производства. Активный эксперимент (см. планирование эксперимента) отличается возможностью целенаправленного изменения значений факторов по заранее выбранному плану со стабилизацией этих значений в каждом опыте, что позволяет постановку т. наз. параллельных опытов, т. е. воспроизведение опытов для многократных измерений отклика в одних и тех же точках факторного пространства. Построение мат. модели (уравнения регрессии)

состоит в нахождении значений ее параметров — выборочных коэф. регрессии b = (b0, b1,b2, ..., bт) и проводится обычно т. наз. методом наим. квадратов. Последний обеспечивает минимизацию суммы квадратов отклонений (остаточной суммы квадратов) результатов расчета по уравнению регрессии от соответствующих эксперим. значений отклика yi во всех зарегистрированных точках факторного пространства (i = 1, 2,..., n), отвечающих условиям опытов:

Наиб. просто задача определения параметров решается для линейных по ним мат. моделей. При О. р. пассивного эксперимента такие модели в общем случае представляют в виде суммы l = m + 1 базовых функций от факторов — т. наз. рег-рессоров — с коэф., которые и являются искомыми параметрами:

где — регрессоры; bj.-параметры модели.

Конкретный вид регрессоров подбирают так, чтобы достигнуть удовлетворительной точности описания эксперим. данных. Например, при описании исследуемого свойства соед. многочленом (полиномом) второго порядка от двух переменных (температуры и давления) уравнение мат. модели (12) примет вид:

В данном случае регрессорами являются след. функции факторов:

Самый простой вид имеет линейная функция одной переменной — прямая линия на плоскости xу:

Для мат. моделей этого класса вычислит. процедура метода наим. квадратов сводится к решению системы линейных алгебраич. уравнений порядка l относительно вектора неизвестных параметров модели b. Эту систему уравнений составляют след. образом:

1) формируют матрицу Ф порядка n х l, столбцы которой представляют собой значения регрессоров для каждого опыта

2) эту матрицу транспонируют и умножают на исходную, получая в результате симметричную матрицу (порядка l) коэф., или параметров, системы уравнений:

3) умножают транспонированную матрицу на вектор значений отклика у = (у1, у2, ..., уn), получая вектор правых частей (порядка l) системы уравнений;

4) составляют т. наз. систему нормальных уравнений, которую принято записывать в виде:

В частном случае при построении модели в виде линейной функции одной переменной в соответствии с уравнением (15) решение системы (18) сводится к вычислению значений параметров b1 и b0 по формулам:

Практич. применение формул (18) и (19) может потребовать предварит. изменения масштаба факторов из-за возможной значит. погрешности в расчете параметров модели, обусловленной вычислит. свойствами этих формул. Если порядок значений элементов в столбцах матрицы Ф превышает 101, то выполняют пересчет значений соответствующих факторов либо путем перехода к др. единицам измерения (напр., от секунд к часам), либо их преобразованием к безразмерному виду с размещением на интервале от −1 до 1 (т. наз. нормирование) по формуле:

где — миним. и макс. значения u-го фактора в опытах.

Лучшие по точности значения параметров модели получают при нормировании всех факторов хи(х), и = 1, 2, ..., k, поскольку в данном случае они приводятся к величинам одного масштаба. Для восстановления уравнения мат. модели в исходных единицах измерения и масштабах факторов в формуле (12) осуществляют обратную подстановку согласно формуле (20).

Анализ точности построенной таким образом модели проводят разными методами в зависимости от характера и свойств факторов и отклика. Наиб. распространен т. наз. регрессионный анализ, который состоит в выделении относительно значимых факторов сопоставлением их вклада с погрешностью эксперимента и в проверке мат. модели на адекватность описания изучаемого объекта исходным данным путем сравнения погрешности вычисления значений отклика по полученному уравнению регрессии с воспроизводимостью опытов. Использование регрессионного анализа требует выполнения след. условий, предъявляемых к обрабатываемым эксперим. данным: а) ошибки измерений факторов пренебрежимо малы в сопоставлении с ошибкой измерения отклика; б) ошибки измерений отклика распределены по нормальному закону; в) выборочные дисперсии откликов во всех опытах однородны (соизмеримы).

При проведении пассивного эксперимента обычно не удается полностью удовлетворить перечисленным условиям или получить необходимые данные в достаточном объеме. Поэтому на практике при О. р. принимают некоторые допущения или ограничиваются неполным использованием этой методики. В осн. ее сводят к расчету т. наз. остаточной дисперсии:

в котором для определения остаточной суммы квадратов R по формуле (11) результаты вычислений получают при умножении матрицы Ф на вектор параметров модели b:

а также к попытке упрощения вида мат. модели исключением относительно незначимых регрессоров, для чего находят вектор t:

где -диагональные элементы т. наз. ковариационной матрицы:

Регрессор, которому соответствует миним. значение tj, исключают из модели, составляют и решают новую систему уравнений. Рассчитывают новое значение остаточной дисперсии, и если оно оказывается меньше, чем для исходной модели, принимают упрощенную модель. Процедура после-доват. исключения регрессоров может продолжаться, пока уменьшается остаточная дисперсия.

Если дисперсия отклика известна и рассчитана по специально поставленным параллельным опытам (что часто исключается в условиях пассивного эксперимента), мат. модель м. б. проверена на адекватность описания объекта исходным данным с использованием F-распределения Фишера. Для этого вычисляют отношение остаточной дисперсии к выборочной дисперсии отклика (большей по значению к меньшей). Если это отношение оказывается меньше табличного значения F-критерия:

где f1, f2 — число степеней свободы соотв. большей и меньшей дисперсий, то различие этих дисперсий принимается незначимым, ошибка определения значений отклика по уравнению регрессии — сравнимой с воспроизводимостью опытов, а мат. модель — адекватно описывающей экспериментально исследованный объект. Причиной неадекватности модели объекту м. б. неучтенные существ. факторы или неправильный выбор ее вида.

Пример 2. Найти аналит. зависимость вязкости азотаот давления Р при 25 °C по след. данным:

Использование этих данных в качестве координат для изображения соответствующих точек на плоскости Рпозволяет сделать вывод о том, что упомянутая зависимость в рассматриваемом интервале давлений близка к линейной [см. формулу (15)]:

Параметры b1 и b0 м. б. определены по формулам (19) с использованием результатов вычислений, сведенных в табл. (i — номер опыта):

Полученная модель имеет вид:

В последнем столбце табл. приведены отклонения расчетных значений .

В общем последовательность действий при построении аналит. зависимости, описывающей эксперим. данные, включает след. этапы: 1) результаты опытов сводят в табл., строки которой соответствуют экспериментам, а столбцы-наблюдаемым значениям факторов. 2) Задают вид искомой зависимости (параметры которой подлежат определению), включающей необходимые регрессоры. 3) Для каждого рс-грессора в полученной табл. вводят дополнит, столбец, в который заносят значение регрессора в каждом опыте. 4) Составляют систему нормальных уравнений (18). 5) Решением этой системы определяют оценки параметров искомой зависимости. 6) По соотношению (25) проверяют адекватность полученной зависимости эксперим. данным. 7) Определяют по формуле (23) для каждого найденного параметра значения t. 8) Делают попытку упрощения указанной зависимости путем исключения из нее регрессора с параметром, имеющим наименьшее значение t. 9) Повторяют процедуру с п. 2 по п. 6. 10) Сделанное упрощение принимают и вычислит, процедуру продолжают с п. 7, если рассчитываемая по формуле (21) остаточная дисперсия для упрощенной модели будет меньше, чем для исходной.

Лит.: Химмельблау Д., Анализ процессов статистическими методами, пер. с англ., М., 1973; Крамер Г., Математические методы статистики, пер. с англ., 2 изд., М., 1975; Ахназарова С. Л., Кафаров В. В., Оптимизация эксперимента в химии и химической технологии, М., 1978; Себер Дж., Линейный регрессионный анализ, пер. с англ., М., 1980; Форсайт Дж., Машинные методы математических вычислений, пер. с англ., М., 1980; Мэйндональд Дж., Вычислительные алгоритмы в прикладной статистике, пер. с англ., М., 1988; Эберт К.. Компьютеры. Применение, пер. с нем., М., 1988.

Ю. К. Щипин

Химическая энциклопедия