В криминалистике любое отождествление личности на основе сравнения биометрических признаков принято называть идентификацией, при том что в биометрии, как научной дисциплине, есть четкое деление на сравнение «один к одному» называемое, биометрической верификацией, и «один ко многим», называемое биометрической идентификацией.
В российском ГОСТ Р ИСО/МЭК 7816-11-2013 «Карты идентификационные. Карты на интегральных схемах. Часть 11» приводится следующее определение биометрической верификации: «Процесс верификации при взаимно однозначном сопоставлении данных биометрический верификации с биометрическими эталонными данными».
Применительно к задачам судебной фоноскопической экспертизы процедура биометрической верификации позволяет ответить на вопрос: «Действительно ли голос неизвестного лица на фонограмме принадлежит, условно, Иванову, образцы устной речи которого представлены?», и выполняет функцию проверки. Соответственно, в процессе такого исследования производится сравнение «один к одному».
В ГОСТ Р ИСО/МЭК 19794-2-2005 «Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 2» дается следующее определение биометрической идентификации: Процесс сравнения биометрического образца со всеми биометрическими шаблонами в базе данных (схема «один ко многим») с целью определения его соответствия какому-либо шаблону и соответствующей шаблону личности. С т.з. задач фоноскопической экспертизы, процедура идентификация позволяет ответить на вопрос: «На какой/каких из (многих) фонограмм имеется голос и речь, условно, Иванова, образцы устной речи которого представлены?».
Казалось бы, какая разница? Ведь в любом случае отождествление личности производится посредством попарного сравнения наборов идентификационных признаков, характеризующих речь известного и неизвестного/неизвестных дикторов. Действительно, разницы бы не было, если бы современные методы верификации/идентификации обеспечивали близкое к нулю значение вероятностей ошибок первого и второго рода (ошибки захвата «чужого» и пропуска «целевого/своего» диктора).
Но экспертная практика демонстрирует иное, отражая тем самым действительное состояние научно-методического обеспечения фоноскопической экспертизы. Проиллюстрирую с помощью примера, который часто использую на учебных семинарах.
Эксперты одного судебно-экспертного учреждения (СЭУ) по результатам проведенной экспертизы сделали категорический вывод о принадлежности голоса и речи на фонограммах конкретному лицу. В виду того, что следователем были получены данные, опровергающие такую возможность, была назначена, повторная экспертиза, а ее проведение поручено экспертам другого СЭУ. Новые эксперты полностью подтвердили вывод своих коллег.
Тогда следователь назначает еще одну повторную экспертизу и поручает ее проведение специалистам, использующим иные методы идентификационного исследования. И в результате третьей экспертизы были получены выводы, полностью противоречащие выводам двух первых.
Почему же так случилось?
Эксперты, сделавшие категорический положительный вывод, основывались главным образом на результатах аудитивно-лингвистического анализа, который традиционно является основным в методиках исследования, используемых в государственных СЭУ (зачастую решение принимается на основе аудитивно-лингвистического анализа, а результаты инструментальных методов исследования подгоняются под сформированное таким образом «внутреннее убеждение эксперта»).
Но в качестве индивидуализирующих признаков сравниваемых дикторов эксперты выделили признаки, характеризующие в основном один из региональных диалектов русского языка (ошибку в подобном случае может допустить каждый, т.к. знать особенности всех диалектов невозможно). В этом могли убедиться эксперты, давшие категорический отрицательный вывод и попытавшиеся установить причину ошибочности выводов ранее проведенных экспертиз.
Для этого по запросу им были представлены и другие фонограммы по этому делу, на которых была записана речь всех фигурантов.
Оказалось, что выделенные их предшественниками признаки лингвистической группы характерны для всех(!) участников преступного сообщества близкого возраста, сходного телосложения и общего географического места формирования речевых навыков.
Без сомнения, в рассмотренном случае основной причиной ошибочных выводов была невсесторонность проведенного исследования, неспособность экспертов эффективно использовать инструментальные методы анализа. Но, с другой, стороны, вероятность подобной ошибки была бы намного ниже, если бы перед экспертами была поставлена идентификационная задача по обнаружению речевого сигнала целевого диктора на всех имеющихся у следствия фонограммах по данному делу. На значительном массиве фонограмм речи у дикторов с близкими по слуховому восприятию голосами гораздо легче разделить индивидуализирующие и групповые признаки.
В связи с этим уместно привести еще один пример, подтверждающий обоснованность сделанного выше вывода относительно различий вероятностей ошибок верификации и идентификации. Для снижения вероятности ошибки отождествления личности говорящего при сравнении «один к одному» специалистам компании Agnitio (Испания) пришлось искусственно воспроизвести в своей системе криминалистического распознавания дикторов условия идентификации или сравнения «один ко многим».
Так, разработанная ими система BATVOX в процессе распознавания устанавливает степень сходства-различия характеристик речи неизвестного диктора не только с аналогичными характеристиками речи подозреваемого (образцами), но и характеристиками речи заведомо «чужих» дикторов (одного с неизвестным диктором пола и национальности и близких ему по возрасту).
Экспериментально было установлено, что таких «чужих» дикторов должно быть от 20 до 50!
В связи с серьезностью рассматриваемой проблемы, уместно будет привести мнение «классиков», например, автора монографии «Теория речеобразования» В.Н. Сорокина, которое было изложено в аналитическом обзоре «Распознавание личности по голосу» (Информационные процессы, Том 12, №1, стр. 1-30) [1], подготовленном совместно с В.В. Вьюгиным и А.А. Тананыкиным: «решение об идентичности голосов, основанное только на сравнении перехваченных записей речевого сигнала и голоса подозреваемого, без сравнения с голосами множества других дикторов, содержит высокий риск ошибки.
Этот риск может не остановить от принятия решения в некоторых случаях, как это было описано в книге А.И. Солженицына «В круге первом», но обязанность научного сообщества состоит в том, чтобы предупредить об отсутствии оснований для категорических решений».
И далее, там же:
«В криминалистике распознавание диктора может иметь только вероятностный характер, т.е. с указанием правдоподобия того, что два речевых сигнала принадлежат одному и тому же человеку. В условиях телефонного канала проблематично даже распознавание пола или возраста. В силу малой выборки речевых сигналов доверительный интервал оценки правдоподобия принадлежности двух записей речи одному и тому же диктору столь велик, что однозначное решение невозможно.
Специальный тест с парным сравнением речевых сигналов длительностью 5 с показал 53% правильного распознавания фонетистами, которым было разрешено пользоваться любыми техническими средствами, и 46% — не фонетистами. В других тестах диапазон составлял 38 -76%. Эти оценки наглядно показывают степень неопределенности принятия решений.»
Несмотря на то, что авторы приводят данные о надежности распознавания дикторов 16-летней давности (2000 г.), они кардинально не отличаются от результатов тестирования экспертных методов идентификации, проводимых NIST[2] после 2010 г[3]. Стоит отметить, что в первом таком тестировании приняли участие российские специалисты из ООО «Центр речевых технологий» (Санкт-Петербург) и одержали победу с большим отрывом.
Один из победителей, С.Л. Коваль, является автором спектрально-формантного метода языконезависимой идентификации, называемого методом «формантного выравнивания». К сожалению, у нас в стране данный метод не получил должного признания по ряду причин, основными из которых, по моему мнению, являются: низкая степень автоматизации исследования и повышенные требования к квалификации экспертов. Теоретически, применение данного метода позволяет снизить вероятности ошибок первого и второго рода до 10-7 даже при сравнении один к одному.
В качестве заключения: При разработке научно-методического обеспечения фоноскопической экспертизы, проведении и последующей оценке процедур отождествления личности следует различать биометрическую верификацию и идентификацию. В общем случае, вероятность ложного вывода по результатам сравнения «один к одному» существенно выше вероятности совершения экспертной ошибки по результатам идентификации (сравнение «один ко многим»). В первую очередь это касается ложноположительных решений (ошибок первого рода).
[1] [Электронный ресурс] URL http://www.jip.ru/2012/1-30-2012.pdf
[2] Национальный институт стандартов США.
[3] Следует отметить, что данное тестирование проводилось в отношении речевых сигналов преимущественно низкого качества и в условиях ограниченного времени, что не позволяло применить в полном объеме инструментальные методы идентификации (один ко многим), требующие значительных трудозатрат.