Реферат: И. Н. Анисимова, канд физ мат наук


И.Н. Анисимова, канд. физ.-мат. наук;
Н.П. Баринов, канд. техн. наук;

С.В. Грибовский, д-р экон. наук,

г. Санкт-Петербург

Учет разнотипных ценообразующих факторов в многомерных регрессионных моделях оценки недвижимости

При решении задач индивидуальной оценки на развивающемся отечественном рынке недвижимости все большее значение приобретают методы сравнительного подхода, среди которых наиболее перспективными представляются связанные с применением многомерных регрессионных моделей [1-3].

Такие методы предполагают возможность построения статистических моделей, описывающих количественную зависимость исследуемого результирующего признака (стоимость, ставка аренды) от характеристик (влияющих признаков, ценообразующих факторов) объектов-аналогов, для которых известна рыночная ценовая информация. Решив проблему выбора достаточного числа объектов-аналогов [4] из имеющихся рыночных данных, оценщик должен преобразовать характеристики оцениваемого объекта и аналогов к виду, пригодному для построения многомерной регрессионной модели.

^ ПРЕОБРАЗОВАНИЕ ЗНАЧЕНИЙ ВЛИЯЮЩИХ ПРИЗНАКОВ

Характеристики (признаки) объектов недвижимости, выступающие в роли ценообразующих факторов регрессионной модели, могут иметь разнообразную природу. Часть из них являются количественными характеристиками (площадь объекта, соотношение общей и полезной площадей, коэффициент застройки и др.), другие – дискретными (год постройки, количество комнат, этаж), третьи носят качественный характер (наличие парковки, тип здания, особенности планировки квартиры и т.п.).

Каждому типу признаков соответствуют свой тип шкал измерений (количественные или неколичественные порядковые, номинальные), группа допустимых преобразований значений шкалы и подмножество корректных методов обработки величин [5-8], применение которых не изменяет результата статистического моделирования.

Методы регрессионного анализа являются методами обработки количественных (числовых) величин. При этом разделение количественных признаков на непрерывные и дискретные в некоторой степени условно, поскольку из-за ограничений точности измерений даже непрерывные по своей природе показатели (например, площадь или расстояние) могут рассматриваться как дискретные. Однако с точки зрения практики решения оценочных задач, наоборот, допустимо рассматривать дискретный количественный признак как непрерывный, если число принимаемых им значений достаточно велико. Более того, во многих случаях методы, предназначенные для обработки непрерывных количественных данных, можно эффективно применять и для обработки дискретных признаков с небольшим числом градаций [5]. В частности, теория линейных регрессионных моделей с ненулевым свободным членом не накладывает никаких ограничений на характер значений количественных признаков – они могут быть непрерывными и дискретными, в том числе бинарными [9]. Примечательно, что оценки линейной регрессионной модели с ненулевым свободным членом инвариантны относительно линейных преобразований значений влияющих факторов, то есть для измерения значений признаков могут быть использованы произвольная точка отсчета шкалы и масштаб [10].

Шкалы количественных значений являются числовыми, то есть позволяют количественно измерять степень проявления некоторого свойства (признака) при заданной единице измерения. Они применяются, когда имеется возможность численно оценить величину различий между значениями признака у разных объектов.

Если же эксперт в состоянии лишь разбить объекты на несколько классов по данному признаку, либо упорядочить объекты по интенсивности какого-либо их свойства без задания количественных соотношений между ними, то используются неколичественные шкалы – порядковые или номинальные.

Порядковые шкалы используются для отражения отношений между объектами. Порядковый признак обычно отражает различную степень проявления некоторого свойства, но не дает количественной меры для его выражения. Значения таких признаков могут быть заданы в баллах – когда объекты можно разбить на заранее известное число упорядоченных классов, или в рангах – когда объекты ранжируются, упорядочиваются – выстраиваются в ряд по степени проявления свойства, точная количественная мера для которого не определена. Ранг – это порядковый номер объекта в таком ряду.

Номинальные шкалы (шкалы наименований, классов) используются, когда эксперт может разбить объекты на классы – группы объектов, однородные по свойству, отражаемому некоторым признаком, но не в состоянии задать никакого естественного упорядочения между самими классами. Бинарный признак, принимающий всего две градации (например, 0 и 1) может быть рассмотрен как частный случай номинальной переменной.

Применение количественных шкал для измерения признаков требует, как правило, значительно более полной информации об объекте по сравнению с неколичественными шкалами - порядковой и, тем более, номинальной. На практике, когда имеющаяся рыночная информация оказывается недостаточно полной для точного определения значений количественного по природе признака, зачастую используются неколичественные шкалы. В этом случае количественный по своей сути признак можно рассматривать на качественном уровне (то есть как порядковый), приписывая каждой градации группу (диапазон) его значений.

Например, в [11] для решения задачи оценки объектов недвижимости рассматривается количественный показатель «удельные затраты на улучшение», хотя авторы замечают, что даже при выполненных ремонтных работах не всегда имеются объективные данные о величине понесенных затрат. Более того, не всегда затраты соответствуют вкладу в рыночную стоимость. При недостатке точной информации логичнее было бы рассмотреть этот фактор как дискретный количественный или качественный с произвольным числом градаций, отражающих некоторые интервалы удельных затрат на необходимое (или уже проведенное) улучшение. Если же и в этом случае имеющиеся рыночные данные окажутся недостаточными для точного задания значений признака для всех объектов, можно перейти к его заместителю – непосредственно наблюдаемому качественному признаку «состояние объекта». Такой переход оправдан тем, что выполнение неотделимых улучшений приводит к улучшению состояния объекта, то есть рассматриваемые факторы взаимозависимы. Обычно имеется достаточно информации, что определить состояние объекта на уровне самых общих градаций, например: «неудовлетворительное», «удовлетворительное», «хорошее» и «отличное».

Следует отметить, что такой перевод непрерывных количественных признаков в дискретные или качественные может сопровождаться потерей информации и не улучшает точность оценки. Поэтому этот прием оправдан лишь в случае угрозы ошибочного определения значений признака, которое может привести к значительно худшим последствиям при построении регрессионных моделей, нежели частичная потеря информации.

Для количественных показателей полагают адекватными математические модели непрерывных (случайных или не случайных) величин и используют «классический» аппарат многомерного статистического анализа. Для номинальных и порядковых шкал корректны иные математические модели и методы, см., например, [12-14]. Номинальные признаки могут быть сведены без потери информации к системе бинарных признаков, для которых применимы как методы алгебры логики, так и обычные методы анализа количественных признаков. С порядковыми признаками с определенной осторожностью также можно обращаться как с количественными показателями, причем эффективность этого подхода во многом зависит от выбора числовых меток для градаций признака, с которыми далее можно оперировать как с числами (см. ниже).

Наибольшее прикладное значение имеет случай сочетания разнотипных признаков. Подходы к преобразованию информации при наличии разнотипных признаков для общего случая рассмотрены в [8]. Для задач индивидуальной оценки недвижимости, где наиболее предпочтительным является применение количественных методов регрессионного анализа, допустимы следующие преобразования исходной информации:

номинальные признаки сводят к совокупности бинарных, а затем используют методы анализа количественных признаков. При этом некоторые порядковые признаки могут приниматься как квазиколичественные, другие – приводиться к системе бинарных переменных. Следует иметь в виду, что использование больших совокупностей бинарных признаков может затруднить интерпретацию модели, а также приводит к искусственному увеличению размерности пространства признаков.

все признаки приводят к количественному типу [15], обычно с помощью оптимизационных процедур. Основным недостатком подхода считается то, что получаемые модели могут не иметь четкой экономической интерпретации.

Хороший результат, с точки зрения рассматриваемых задач, может дать совместное использование в регрессионных моделях количественных, квазиколичественных (полученных после оптимизации порядковых) и небольших совокупностей бинарных признаков. Данный подход позволяет в наибольшей степени учесть статистическую связь всех признаков, свести к минимуму потери информации при преобразованиях и использовать мощный аппарат классических методов анализа числовых данных. При этом в максимальной степени удается сохранить степени свободы получаемых регрессионных уравнений, что особенно важно при ограниченном объеме рыночной информации.


^ ОЦИФРОВКА НЕКОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ

Признаки нечисловой природы для учета их в регрессионной модели приводятся к квазиколичественному типу процедурой оцифровки, то есть путем присвоения их значениям некоторых числовых меток. Оцифрованные неколичественные признаки описываются обычно с помощью дискретных шкал с фиксированным количеством градаций. При этом качество регрессионной модели, построенной для разнотипных признаков, во многом зависит от выбранной процедуры оцифровки.

Из номинальных на практике чаще всего встречаются бинарные признаки, описывающие наличие/отсутствие какого-либо качества (отдельного входа, парковки, подъездных путей и т.п.). Бинарные признаки могут быть оцифрованы произвольным образом, однако в линейных регрессионных моделях из соображений наглядности их градациям чаще всего присваивают значения 0 и 1. Номинальный признак, имеющий более двух градаций, может быть описан системой бинарных переменных, хотя при этом происходит потеря степеней свободы регрессионного уравнения.

Порядковые величины предпочтительно измерять в баллах, поскольку в этом случае удобнее производить оцифровку. Следует отметить, что эксперт-оценщик обычно в состоянии высказать экономическую гипотезу о характере влияния признака на оцениваемую величину, хотя и не может дать четкого количественного выражения этого влияния. Поэтому, как правило, имеется возможность упорядочить классы объектов по их влиянию на значения результирующего показателя, то есть перейти от номинального к рассмотрению порядкового признака.

Например, номинальный признак «тип жилого дома» с градациями «хрущевка», «современный панельный», «современный кирпичный», «старый фонд» можно преобразовать в порядковый, высказав экономическую гипотезу о влиянии (в среднем) типа домов на цены квартир в них. Так, на основании риэлтерских данных, на рынке наиболее ценятся квартиры в современных кирпичных домах, наименее – в домах-«хрущевках». Поэтому для градаций номинального признака можно ввести отношение порядка, а значит перейти к порядковому признаку в бальном выражении: 1 – «хрущевка», 2 – «старый фонд», 3 – «современный панельный», 4 – «современный кирпичный».

Если порядковый признак имеет более двух градаций (как в рассмотренном примере), то при оцифровке существенным оказывается соотношение расстояний между соседними метками. Однако масштаб и точка отсчета выбираемой шкалы не имеют принципиального значения [8]. Так, две линейные регрессионные модели, в одной из которых оцифровка признака «состояние объекта» со значениями «удовлетворительное», «хорошее», «отличное» принята как 1, 2, 3 (соотношение между градациями (3-2):(2-1) – 1:1), а в другой – 0, 10, 20 (соотношение то же (20-10):(10-0) – 10:10 – 1:1) дадут эквивалентный результат. Однако он не совпадет с результатом модели с оцифровкой этого признака 1, 2, 4 (соотношение (4-2):(2-1) – 2:1). Выбор «правильного» соотношения между метками может осуществляться с помощью оптимизационных процедур (см. ниже) или экспертным путем.

Отметим, что еще до этапа оцифровки (присвоения числовых меток) эксперт-оценщик сталкивается с проблемой выбора градаций неколичественного признака (номинального или порядкового). Существенным при оцифровке неколичественных признаков для дальнейшего включения в линейную регрессионную модель оказываются:

количество градаций признака (задает неявно соотношение между крайними градациями).

порядок следования числовых меток градаций (для качественных признаков порядок следования градаций должен сохраняться);

соотношение между градациями, то есть отношение расстояний (числа делений шкалы) между соседними градациями;


^ Выбор количества градаций

Неправильные разбиение на классы и выбор количества градаций могут привести к получению абсурдных результатов, не имеющих экономического смысла. Пример таких результатов изложен в [16], где рассмотрена плодотворная сама по себе идея использования объективной оптимизационной процедуры для оцифровки номинального признака, в данном случае - «этаж» при оценке стоимости жилых квартир. В качестве градаций признака автором работы был выбран формальный номер этажа, а после оцифровки получены следующие числовые метки (табл.1, рис.1).

Таблица 1. Числовые метки, соответствующие номерам этажей

Этаж

1

2

3

4

5

6

7

8

9

10

Балл

1

1.4

3.4

7

4.1

10.2

4.3

3.9

6.3

13.5


Учитывая, что задача решена для линейной регрессии, то есть зависимость результирующего признака «стоимость» от значений признака «этаж» предполагается монотонной, весьма странно выглядит, например, скачкообразная разница во влиянии 4, 5, 6 и 7 этажей. В самом деле, из опыта риэлтерской практики известно, что расположение квартиры на первом, а в некоторых случаях, и на последнем этаже является значимым фактором, заметно влияющим на цену квартиры; разница же в цене жилья для средних этажей несущественна.



Рис.1. Оцифровка номинального признака «этаж» по [16]

Явная неадекватность полученной в [16] модели может быть вызвана несколькими причинами, и, прежде всего, неправильным выбором градаций признака:

разбиение на классы (выбор количества градаций и порядка их следования) для признака производилось вне рассмотрения экономической гипотезы о характере его влияния на результирующий фактор (цену);

выбраны лишние градации, в результате различия между числовыми метками определились не различиями в степени воздействия влияющего признака, а случайными колебаниями ценовых значений;

оцифровка признака в многофакторной модели проведена без учета влияния других, возможно более значимых, признаков. В этом случае была сделана попытка объяснить колебания цен, вызванные влиянием неучтенных моделью факторов, за счет вариации лишь одного признака. Скачкообразные изменения числовых меток для средних этажей вызваны, скорее всего, именно неучтенным влиянием других факторов.

Как видно, наличие «лишних» градаций может приводить к усилению влияния случайных колебаний или других факторов даже при использовании объективных методов выбора числовых меток (оптимизационных процедур, бинарных переменных). Другими словами, допустимое число градаций должно согласовываться с фактической инструментальной погрешностью измерений свойства. При излишней детализации эксперт может допускать ошибки измерения значений влияющего признака, что с точки зрения теории регрессионных моделей крайне нежелательно, так как может привести к смещению и несостоятельности оценок [9]. Кроме того, излишняя детализация может потребовать неоправданно больших затрат на сбор рыночной информации. Отметим также, что при большом числе реально используемых градаций (классов, баллов) процедура оценивания значения порядкового признака в баллах приближается по содержанию к количественному оцениванию.

В практических задачах при разбиении на классы (как для номинальных, так и для измеренных в бальной шкале порядковых признаков) обычно рекомендуется использовать 3-7 градаций [17, 18]. Статистическая процедура, позволяющая вычислить необходимое число градаций в зависимости от диапазона допустимых количественных изменений признака и дисперсии ошибок ответов (для нашего случая – дисперсии ошибок экспертов при определении значений признака), приведена в [17]. Практическая рекомендация по выбору числа градаций неколичественного признака может быть сформулирована так: число градаций равно возможному числу классов рассматриваемых объектов. При определении же числа и границ классов значения рассматриваемого свойства в рамках одного класса должны быть однородными, а между классами – существенно различаться.

Например, при рассмотрении номинального признака «этаж» при оценке стоимости квартир в упомянутой работе [16] было неправильным в качестве градаций вводить физический номер этажа: 1,2,3,…10, поскольку из оценочной практики известно, что различия в расположении на средних этажах не оказывают существенного влияния на стоимость квартир. В то же время, существенным недостатком квартиры, снижающим ее цену, является расположение на первом (без учета возможности перевода ее в нежилой фонд) и, в меньшей степени, – на последнем этаже. Исходя из этого номинальной переменной «этаж» можно сопоставить градации «первый этаж», «средние этажи», «последний этаж». Эти градации можно упорядочить в соответствии с предполагаемым увеличением цены квартир: 1 – «первый этаж», 2 – «последний этаж», 3 – «средние этажи», а признак «этаж» рассматривать далее как качественную переменную с тремя градациями.

Таким образом, уже на первом шаге процедуры оцифровки неколичественного признака экспертом-оценщиком должна быть выдвинута экономическая гипотеза о характере его влияния. После этого выбор градаций признака осуществляется с учетом следующих соображений:

разбиение на классы (градации) должно производиться на основе выявления существенных различий, оказывающих заметное влияние на значение результирующей величины;

количество градаций (степень детализации признака) должно быть согласовано с фактической погрешностью определения значений признака, определяемой, в основном, полнотой рыночных данных; рекомендуемое количество градаций – 3-7;

упорядочение градаций должно производиться исходя из предполагаемой степени влияния признака на результирующую величину, а не по интенсивности проявления самого свойства объекта.


^ Процедуры оцифровки признаков

Существует несколько подходов к оцифровке признаков неколичественной природы.

Сведение к совокупности бинарных переменных [8, 9, 11, 19, 20], которые в эконометрической литературе чаще называются фиктивными, искусственными или структурными.

Этот метод достаточно универсален, поскольку подходит для оцифровки как номинальных, так и порядковых признаков. Кроме того, он объективен с точностью до количества градаций, поскольку значение градации фактически определяется вкладом фиктивной переменной, то есть самой регрессионной моделью.

В классической линейной регрессионной модели ищется зависимость в виде:

y=a0+a1x1+a2x2+…+ajxj+…+akxk. (1)

Для учета неколичественного признака с m градациями требуется введение m-1 бинарной переменной. Для описания признака xj с градациями {xj1,xj2,…,xjm} вводятся бинарные переменные z1, z2, …, zm-1. Для одного из значений признака, например, для xj1, значения всех zq, q=1,2,…,m-1 полагаются равными нулю. Для остальных градаций:

xjq+1 (q=1,2,…,m-1) полагается zq=1, zp=0, pq.

Регрессионное уравнение (1) переписывается в виде (2):

y=a0+a1x1+a2x2+…+aj-1xj-1+b1z1+b2z2+…+bm-1zm-1+aj+1xj+1+…+akxk. (2)

Например, номинальному признаку «тип жилого дома» с градациями «хрущевка», «современный кирпичный», «современный панельный», «старый фонд» можно сопоставить три бинарные переменные z1, z2 и z3. При этом z1=1 для современных кирпичных домов, z2=1 для панельных домов, z3=1 для домов старого фонда; в остальных случаях переменные принимают значение 0. Тогда объекты в домах-«хрущевках» описываются тройками значений 0,0,0 (z1=0, z2=0, z3=0); объектам в современных кирпичных домах будут сопоставлены тройки 1,0,0; объектам в панельных домах – 0,1,0; объектам в домах старого фонда– 0,0,1.

В то время как число степеней свободы уравнения (1) с k влияющими признаками равно n–k–1, в уравнении (2) вместо одного из признаков используется m–1 переменная, и значит число степеней свободы этого уравнения уменьшится на m–2: n(k–1+m–1)1 = nkm+1. Отсюда, если признак имеет всего две градации, то число степеней свободы уравнения не изменится. Если же m велико, то переход к фиктивным переменным существенно уменьшает число степеней свободы регрессионной модели, что неприемлемо в условиях малой выборки (при небольших n), характерных для задач индивидуальной оценки. С другой стороны, при небольшом количестве градаций, значения фиктивных переменных часто оказываются сильно сопряженными [8], что также может ухудшить качество модели. Поэтому подход на основе использования совокупности бинарных (фиктивных) переменных хорош для задач массовой оценки (когда n – велико), в то время как его применение на практике для большинства случаев задач индивидуальной оценки затруднено из-за ограниченности объема рыночных данных и «дефицита» степеней свободы регрессионных моделей.

Если все же сформированная выборка объектов аналогов оказалась достаточно многочисленной для построения адекватной регрессионной модели с фиктивными переменными и нахождения оценок параметров a0, a1, … aj-1, b1, b2, … bm-1, aj+1, … ak уравнения (2), то в дальнейшем можно произвести оцифровку исходной переменной xj и построить регрессионную модель вида (1) с большим числом степеней свободы, а значит, и с лучшими (более точными) статистическими оценками [19].

В самом деле, из вида фиктивных переменных zq следует, что для объектов первого класса, у которых значение признака xj совпадает с первой градацией xj1, уравнение (2) примет вид

y=a0+a1x1+a2x2+…+aj-1xj-1+aj+1xj+1+…+akxk (так как все zq=0);

для объектов со значением признака, равным второй градации xj2, уравнение (2) перепишется как

y=a0+a1x1+a2x2+…+aj-1xj-1+b1+aj+1xj+1+…+akxk (z1=1, z2=z3=…=zm-1=0);

для q-того класса объектов

y=a0+a1x1+a2x2+…+aj-1xj-1+bq-1+aj+1xj+1+…+akxk, и, наконец,

для объектов m-того класса

y=a0+a1x1+a2x2+…+aj-1xj-1+bm-1+aj+1xj+1+…+akxk.

Те же зависимости были бы получены, если бы переменная xj вошла в регрессионное уравнение (1) с коэффициентом aj=1 и градациями 0, b1, b2, …, bq-1, …, bm-1. Поэтому при построении регрессионной модели (1) в качестве числовых меток градаций xjq признака xj могут быть взяты оценки коэффициентов bq-1 при фиктивных переменных регрессионного уравнения (2):

=0; =b1; …; = bm-1. (3)

В оцифровке (3) могут быть использованы и значения bq-1, известные из моделей вида (2) массовой оценки, в предположении, что выявленные массовой оценкой закономерности ценообразования сохраняются и для рассматриваемого сегмента рынка недвижимости.

Если известны лишь нелинейные модели массовой оценки, то обычно в качестве меток рекомендуется брать известные средние удельные цены объектов каждого класса [11, 19], что аналогично подходу на основе оптимизации вида (4), рассмотренного ниже. Кроме того, соотношение коэффициентов для разных классов объектов в нелинейной модели может дать дополнительную информацию оценщику для экспертного назначения числовых меток или их начальных значений для оптимизационных процедур.

Для номинальных признаков использование совокупностей бинарных переменных является наиболее естественным способом оцифровки. Во избежании проблем «дефицита» степеней свободы регрессионных моделей при решении задач индивидуальной оценки следует, по возможности, уклоняться от использования большого числа номинальных признаков путем перевода их в порядковые (на основе экономических гипотез об отношениях порядка между классами, как это было рассмотрено выше). Для номинальной переменной возможно также сокращение числа учитываемых в регрессионной модели градаций (например, до двух) за счет соответствующего подбора объектов-аналогов (повышения однородности выборки).

Использование равномерного кодирования для неколичественных признаков, когда расстояние между числовыми метками соседних градаций одинаково. Например, «удовлетворительное», «хорошее», «отличное» состояние  1, 2, 3.

Такая кодировка весьма груба и может не отражать реальную степень отличия градаций фактора. Вместе с тем в задачах индивидуальной оценки, где рассматривается совокупность близких объектов, незначительно отличающихся друг от друга по своим характеристикам, даже такой весьма грубый подход может дать приемлемые результаты (см., например, сравнение моделей с равномерной и неравномерной оцифровками в [11]).

Несколько сгладить недостатки, присущие равномерному кодированию, позволяет использование порядковой шкалы качественных оценок [1, 11] – табл.2. При этом, однако, задание «неравномерности» числовых меток полностью возлагается на эксперта, то есть весьма субъективно, а в ряде случаев – затруднительно, поскольку, как отмечалось ранее, численная оценка градаций факторов должна производиться не по степени выраженности свойства объекта, а по степени предполагаемого влияния этого признака на результирующую величину.

Таблица 2. Порядковая шкала качественных оценок

^ Градация оценки фактора

Значения порядковой шкалы

Наихудшее значение фактора

1 – 2

Незначительное преимущество

3 – 4

Значительное преимущество

5 – 6

Явное преимущество

7 – 8

Абсолютное преимущество

9

Альтернативой субъективному экспертному подходу является использование оптимизационных процедур [8, 16, 20-22] при оцифровке признаков. Оптимизационные методы оцифровки основаны на том, что числовые метки, присваиваемые градациям, должны быть «разумны» в рамках решаемой задачи. В частности, в рамках регрессионного анализа оптимизация основана на принципе максимизации зависимости между влияющей (xj) и результирующей (y) переменными. Подход на основе оптимизационных процедур так же, как и подход на основе использования систем фиктивных переменных, объективен с точностью до количества градаций признака.

В качестве оптимизационных могут быть использованы следующие критерии, являющиеся взаимосвязанными:

максимизация коэффициента сопряженности между xj и y: ryxj  max;

минимизация остаточной разности квадратов  min;

максимизация коэффициента детерминации R2  max.

Перечисленные критерии сами по себе не накладывают никаких ограничений на порядок следования градаций признака, так что после оцифровки он может измениться. Для номинальных признаков и в случае, если порядковая переменная отражает лишь степень проявления некоторого качества объекта недвижимости безотносительно к его влиянию на зависимый признак, изменение порядка следования градаций не критично. Однако если первоначальные метки градациям были назначены экспертом исходя из обоснованной экономической гипотезы влияния на результирующий признак, изменение их следования может свидетельствовать о неправильном выборе градаций признака или спецификации регрессионной модели.

В [16, 21] для оцифровки признаков предложено использовать оптимизационные процедуры ^ Поиск решения MS Excel. Отмечая доступность и удобство данного математического аппарата, следует понимать и ограничения его применения. По умолчанию в MS Excel применяются алгоритмы нелинейной оптимизации (метод Ньютона, метод сопряженных градиентов), сходимость которых определяется, в частности, начальными условиями, то есть тем, как были оцифрованы градации признака перед запуском процедуры оптимизации. Кроме того, эти алгоритмы могут находить не главный, а лишь локальный экстремум (минимум, максимум), не представляя пользователю возможности различать эти ситуации.

Наилучших результатов при использовании инструмента ^ Поиск решения MS Excel можно добиться, если в качестве начальных значений для оптимизационной процедуры (то есть в качестве начальной приближенной оцифровки) использовать значения, более-менее близкие к результирующим. Пример экономически обоснованного и весьма удачного выбора начальных значений приведен в [21], неудачного – в [16]. Применительно к решаемым задачам оценки недвижимости, в качестве начальной оцифровки перед применением нелинейной оптимизационной процедуры можно использовать неравномерную кодировку, задаваемую экспертным путем на основе содержательного анализа задачи оценки и имеющихся рыночных данных.

Вместе с тем, для линейной регрессионной модели может быть применен прозрачный метод оптимизации, заключающийся в том, что каждой градации xjq признака xj ставится в соответствие среднее арифметическое наблюдаемых значений yi зависимого признака по всем объектам, которые имеют то же значение градации xij=xjq. Пусть в исходной выборке данных, состоящей из n объектов, набралось nq объектов, у которых значение рассматриваемого фактора совпало с градацией xjq. Тогда этой градации можно присвоить числовую метку :

. (4)

Такая перекодировка хорошо интерпретируема и максимизирует корреляцию y и xj. Аналогом указанной процедуры является построение зависимости y только от совокупности фиктивных переменных, описывающих неколичественных признак, без учета влияния остальных факторов [19]:

y=a0+b2z2+…+bm-1zm-1,

а затем также использование значений коэффициентов в качестве числовых меток.

На сходной идее основано и использование в качестве числовых меток известных средних удельных цен для разных классов объектов [1, 11].

Заметим, что в многомерном случае такой подход может быть обоснован только для наиболее значимых факторов, влияние которых на значения y очевидно. То есть такая «прямая» оптимизационная процедура применима лишь в тех случаях, когда значения зависимой переменной явно отражают характер влияния градаций признака. В многофакторной модели такие случаи не так уж часты, поскольку значения y формируются в результате совокупного влияния многих факторов. Поэтому для второстепенных признаков, влияние которых на y прослеживается не столь явно, полученные по формуле (4) числовые метки могут противоречить экономическому смыслу.

В этом случае рекомендуется использовать метод последовательного числового перекодирования [8, 22].

Пусть построена регрессионная модель вида (1), в которую включено k1 уже оцифрованных признаков (количественные, бинарные и уже оцифрованные неколичественные признаки). Тогда в качестве числовых меток для градаций xjq нового неколичественного влияющего фактора, можно рассмотреть средние арифметические остатков i, рассчитанные для тех объектов, у которых значения данного признака совпадают с градацией xjq:

, (5)

где – разности между наблюдаемыми и модельными значениями результирующего признака, то есть та часть реальных рыночных цен, которую не удалось объяснить с помощью регрессионной модели с k1 переменными.

Таким образом, в отличие от «прямой оптимизации» (4) при последовательном перекодировании (5) рассматривается влияние признака на еще необъясненную моделью часть наблюдаемых ценовых значений. Оцифровка (5) является оптимизационной – она минимизирует остаточную разность квадратов регрессии.

Вновь оцифрованный признак включается в модель (теперь с k1+1 влияющим фактором), на основе которой может быть произведена оцифровка следующего неколичественного признака, и т.д.

В литературе не освещен вопрос о порядке, в котором следует оцифровывать признаки. Представляется логичным проводить оптимизацию значений сначала более значимых факторов, затем – менее. Высказать предположение о большей или меньшей значимости факторов до построения регрессионной модели эксперт может на основании известных результатов проведенных ранее массовых оценок, либо на основе содержательного анализа рыночных данных. Если будет выбран неверный порядок оцифровки признаков, то, скорее всего, получаемые числовые метки будут нарушать заданный порядок следования градаций признака. Поэтому при применении процедур оцифровки результаты вычислений могут служить для проверки высказанных экспертом экономических гипотез, и наоборот, следует проверять полученные значения числовых меток на соответствие экономическому смыслу.

Необходимо также отметить, что из выражений (4), (5) следует, что для более-менее надежного определения числовых меток значения градаций в выборке исходных данных должны повторяться. То есть для каждой градации q число nq>1 (желательно, nq3 – число 3 выбрано как признак достаточной множественности).

Проиллюстрируем применение метода последовательного числового перекодирования на примере.

Пусть ставится задача оценки элитной квартиры на Невском проспекте. Такая квартира отличается, прежде всего, своим особым местоположением – на основной, символьной магистрали города, поэтому в качестве аналогов были выбраны квартиры, также расположенные на Невском проспекте. Все объекты находятся в домах исторической застройки Санкт-Петербурга, кроме того, все они расположены на средних этажах и не имеют явно выраженных дефектов. Поэтому такие характерные для оценки квартир влияющие факторы, как «местоположение» (удаленность от центра/метро), «тип здания», «этаж» принимаются равнозначными и не рассматриваются в регрессионной модели.

Состояние квартир-аналогов в зависимости от имеющихся улучшений оценено как удовлетворительное и хорошее. Кроме того, среди аналогов имеются квартиры, расположенные в домах с проведенным капитальным ремонтом, в них выполнены перепланировка и дизайнерские работы по оформлению интерьера. Состояние таких квартир оценивалось как отличное. В качестве фактора, увеличивающего стоимость квартиры, отмечено наличие благоустроенного по европейским стандартам двора (по типу дворов Капеллы, «итальянских» двориков). Наличие неблагоустроенного двора, по мнению экспертов, не увеличивает ценовые значения квартир.

Кроме того, понятие элитной квартиры требует особого окружения. Исходя из этого, экспертами отмечена разница в ценовых характеристиках квартир, расположенных в различных частях дома. Так, большинство домов на Невском проспекте имеют небольшую фронтальную часть, расположение квартир в которой считается самым престижным. К ним приравнены квартиры, имеющие вид на памятники архитектуры в непосредственной близости от Невского проспекта. Дома на Невском имеют, как правило, вытянутую вглубь форму, зачастую с множеством внутренних проходных дворов-колодцев. Поэтому далее по степени престижности следуют квартиры, выходящие на прилегающие к Невскому улицы. Расположение квартиры внутри дома в удалении от фронтальной части с проходом через внутренние дворы и выходящие во внутреннюю территорию дома считается наименее благоприятным. Соответственно, экспертами был введен еще один влияющий фактор - местоположение внутри дома, названный «вид» с градациями «фронтальная часть», «улица» и «двор» (табл. 3).

Таблица 3. Исходные данные для оценки квартиры на Невском проспекте



Адрес

Площадь, кв.м.

Цена за 1 кв.м,

$,

Состояние здания

Двор

Вид

1

Невский пр. д 22

113.0

696.9

удовл

отсутств.

улица

2

Невски
еще рефераты
Еще работы по разное