Аналитика: методология, технология и организация информационно-аналитической работы - Юрий Курносов
Шрифт:
Интервал:
Закладка:
Приведем интересный пример: многим известна теория Ломброзо о существовании некоторого «порочного типа» человека, который может быть выявлен в результате физиономического анализа. Эта теория стала столь известной благодаря интуитивной очевидности и, увы — бесславно окончившимся опытам ее применения. Но мало кому известна история, связанная с успешным решением проблемы каталогизации фотографий преступников А. Бертильоном (1880-е годы). Он предложил стандартизовать процедуру фотосъемки (сигналетическая проекция), а при помещении снимков в каталог ввести индексацию, учитывающую несколько объективных параметров: длину и ширину головы, расстояние между скуловыми костями, длину и ширину правого уха. Метод каталогизации А. Бертильона живет и поныне, воплощенный в технологиях распознавания личности по совокупности базовых точек, в число которых входят скулы, цвет и форма глаз, ширина переносицы и губ. Как показывает практика, для достоверного определения личности достаточно 15–20 таких точек. Сейчас такими системами оборудуются аэропорты, вокзалы и прочие места скопления людей, где возможно проведение террористических акций. Правда, все атрибуты «бертильонизации» — специальные стулья с зажимами, обеспечивавшими фиксацию головы в заданном положении — вскоре отошли в прошлое, а методы идентификации по фотографии до поры были вытеснены дактилоскопией.
Но с точки зрения аналитики ценность идей Бертильона заключается и в еще одном новшестве: была предложена стандартизированная методика составления словесного портрета. Благодаря этому новшеству в конце XIX века полицейские специалисты всех стран, изучив методику составления словесного портрета, смогли наладить эффективное взаимодействие при ведении оперативно-розыскной работы, что дало весьма положительные результаты. Тогда А. Бертильон писал: «…до тех пор, пока та или другая анатомическая особенность наружности индивидуума, отличающая его от тысячи других лиц и дающая возможность запечатлеть ее в памяти, не получит точного названия, она остается незамеченной и как бы не существует. Уже давно известно, что мы не можем представить себе того, чего не можем выразить словами, также запечатлеть в мозгу то, чего не можем описать».
Эта методика послужила прототипом для множества полезных процедур, связанных с нормализацией терминологии, которые получили широкое применение в аналитике для уточнения понятийного аппарата предметной области исследований.
Однако отвлечемся от криминалистики и перейдем к рассмотрению основных идей, пришедших в аналитику из гуманитарных наук. Следует заметить, что гуманитарные науки настолько взаимоувязаны, что отнести некоторый метод к конкретной научной дисциплине чрезвычайно сложно. По этой причине мы не будем акцентировать внимание на истоках метода, а сконцентрируемся на самих методах.
Методы аттестации текстов
Эти методы, как и большинство других, являются комплексными и основываются как на структурных и статистических методах, так и на методах качественного анализа. При аттестации текстов решаются следующие задачи:
— установление источника (и получателя), его пространственных и временных координат;
— установление логико-фактографической компоненты текста, его тематики;
— анализ полноты и непротиворчивости аргументации в рамках сообщения;
— установление эмоциональной компоненты текста и системы оценочных суждений источника;
— установление специфики лексикона источника в интересах паспортизации источника;
— выявление ценностной ориентации источника;
— установление категории текста;
— установление цели генерации текста;
— установление достоверности излагаемых фактов.
Весомый вклад в развитие этих методов внесли практически все перечисленные выше науки. Для специфических классов информационноаналитической работы этот список может приобретать специфические черты за счет изъятия тех или иных пунктов. Полный комплекс задач, как правило, подлежит решению лишь в весьма специфических отраслях, как правило — связанных с решением задач обеспечения безопасности.
Задача установления источника (и получателя), его пространственных и временных координат может иметь очевидное решение, содержащееся в самом тексте, однако в ряде случаев может вызывать серьезные затруднения. В этом случае приходится применять достаточно сложные процедуры, связанные с анализом распределения служебных терминов, определением специфики лексикона источника. В частности, может строиться «спектр», а вернее — распределения частот употребления слов, принадлежащих к эталонному словарю, сопоставление с имеющимися спектрами-паспортами известных источников с целью отнесения к профессиональной/социальной, этнической/диалектной группе и т. п. Исследуются все имеющиеся в сообщении указания на его принадлежность к некоторому временному интервалу, отраженному в ссылках на некоторые значимые события, времена и даты которых известны или могут быть установлены (в том числе, такую информацию могут нести ссылки на цитируемые источники и т. п.). Определяется область пространства, из которой могло исходить сообщение, либо область, в которой имели место события, описываемые в сообщении. В некоторых случаях рассматривается схема построения адресации, используемая для описания размещения источника (такие задачи могут встречаться, например в глобальной телекоммуникационной сети Интернет, где по адресам серверов может быть установлена государственная принадлежность источника, опубликовавшего те или иные данные и т. д.).
Задача установления логико-фактографической компоненты текста, его тематики представляет собой задачу высокой сложности. Это связано с тем, что статус факта в сообщении может быть придан не только реальным событиям и явлениям, но и тем, которые на самом деле к этому разряду отнесены быть не могут. Такие искажения могут быть обусловлены множеством причин, в число которых могут входить и непреднамеренные ошибки логического плана, и некорректное построение грамматических конструкций, и преднамеренные искажения аргументации. Особый класс проблем возникает в связи с эмоциональной окрашенностью повествования, способной вызвать впечатление реальности факта, упоминание которого даже не встречалось в сообщении. Здесь важно выявить в тексте те маркеры, которые указывают на присутствие в тексте конструкций, соответствующих причинно-следственным, временным и пространственным отношениям, установить модальные конструкции типа «вероятно», «очевидно» и т. п., отсылающие к некоторой субъективной интерпретационной модели (редко декларируемой источником сообщения). На основе такого анализа текст может быть разделен на: 1) компоненты, которые могут быть отнесены к разряду фактов на основе объективных критериев; 2) компоненты, которые потенциально могут быть отнесены к разряду фактов (в существенной степени зависящие от совместимости субъективных моделей мира источника и потребителя сообщения); 3) компоненты, которые не могут быть интерпретированы как факт, но отражают специфику модели мира источника суждения.
Задача анализа полноты и непротиворечивости аргументации в рамках сообщения, чаще всего, требует формализации текста, приведения его к нормализованной лексике, исключающей метафорическое или некорректное употребление терминов. Для этого могут быть использованы методы, широко применяемые в современной лингвистике и теории формальных языков, реализованные на базе аппарата формальных грамматик в сочетании с семантическими сетями. После выполнения процедуры формализации текст становится пригоден для производства анализа логической корректности системы аргументов на основе применения формально-логических процедур.
Задача установления эмоциональной компоненты текста и системы оценочных суждений источника требует применения методов контент-анализа, основанных на детальном анализе текста с целью выявления слов, терминов или специфических ситуаций их употребления, способных воздействовать на эмоциональное состояние потребителя сообщения. При этом анализ должен проводиться на различных уровнях иерархии смысловыражающих и словообразующих единиц — от уровня морфем до уровня связных цепочек терминов, включая также выявление ритмического рисунка и аллитераций. Явным образом представленная расстановка эмоциональных акцентов в тексте (их соотнесение с терминами, выступающими в различных семантических ролях) позволяет выявить систему ценностей источника сообщения, сопоставить ее с набором классификационных эталонов и — в некоторых случаях — предсказать поведенческие особенности источника, а также более точно определить цели, преследуемые источником при генерации сообщения. Для этого могут использоваться различные методы — от традиционных методов морфологического разбора и анализа контекста употребления до новейших нейросетевых методов (в данном случае механизмы реализации несущественны).