Источник: PCWEEK (Москва)
Автор: Анатолий Опарин
Дата: 16 декабря 2003 г.
В современную эпоху крупным государственным и коммерческим структурам становится все труднее следить за динамично меняющимся вокруг них информационным полем, которое содержит массу новостных и обзорных материалов. Регулярное ознакомление с публикациями СМИ для любой серьезной деятельности необходимо, но не всегда достаточно. Большие массивы информации должны подвергаться качественному анализу. На основе фактов и предположений, почерпнутых из открытых источников, можно не только анализировать состояние дел в своей отрасли, но и строить прогнозы развития ситуации, что жизненно важно для принятия верных решений.
Какая информация нам нужна?
Немаловажную роль в современном бизнесе играет конкурентная разведка, в основе которой, по крайней мере на Западе, лежит маркетинговая информация, получаемая из прессы. По утверждению специалистов, около 80% информации, требуемой для поддержки процесса стратегического управления может добываться из открытых источников, таких, как Интернет, традиционные СМИ, информационно-рекламные материалы компаний и т. д.
Пример 1. Американская инвестиционная компания на рубеже 80-х и 90-х годов прошлого века разрабатывала план своего стратегического развития. Работая с материалами СМИ последних лет, она выявляла наиболее перспективные направления современного бизнеса и науки с тем, чтобы доходно вложить деньги. Пресс-аналитиков интересовала динамика публикаций по заранее определенным темам. Выяснилось, что по крайней мере две тенденции заслуживают внимания. Во-первых, тогда значительно возрос интерес прессы к новому виду компьютерных сетей — Интернету. Во-вторых, на гребне пика своей популярности из научной прессы вдруг практически исчезли публикации, касающиеся высокотемпературной сверхпроводимости. Первая свидетельствовала о том, что Интернет скоро станет массовым явлением и в его развитие выгодно вкладывать деньги. Вторая наводила на мысль о том, что исследования ученых по высокотемпературной сверхпроводимости засекретили, а это также свидетельствует о ее исключительной перспективности. И в том и другом случае аналитики оказались правы.
Задача, описанная в примере 1, решалась не быстро, не одним человеком и практически без привлечения компьютерных технологий. Проблема обработки информации такого рода состоит в отсутствии у нее какой-либо приемлемой структуры и в ее огромных объемах. Тем не менее, имея удобные инструменты, ее вполне можно решить. Задача из примера 2 решалась быстро, одним человеком при помощи простых программ мониторинга СМИ.
Пример 2. Некая российская фирма запланировала поглотить одно из интересных для ее бизнеса предприятий. Решили выйти на акционеров этого предприятия и договориться с каждым о продаже их акций. Но списка акционеров у фирмы не было. Тогда аналитик совершенно законным путем из открытой региональной и общероссийской прессы собрал информацию об основных акционерах и тем самым помог своему руководству оперативно и результативно решить задачу поглощения. (Пример приводится Сергеем Чистопрудом в журнале “Профи”.)
По оценкам зарубежной прессы, 9 из 10 крупных американских компаний тратят ежегодно в среднем 1 млн. долл. на мониторинг деятельности конкурентов. Вложенные средства окупаются за счет правильных решений, принятых на основе отобранной и проанализированной информации.
Под “удобными инструментами для работы с информацией” понимаются компьютерные программы, помогающие собирать и сортировать материалы СМИ. Таких программ на рынке около сотни, но все они занимаются, как правило, организацией хранения средних или больших объемов информации, обладают простыми поисковыми возможностями и/или тематическим рубрикатором, не предлагая какого-либо механизма качественного анализа. И это не случайно, ибо качественный анализ текста предполагает оценку таких нюансов, как эмоции, угрозы, характер отношений между объектами... В этих сферах человеческий мозг, способный накапливать опыт и обладающий интуицией, предпочтительнее. Хотя скорость оценки при этом и невелика, мы выигрываем в качестве.
При решении интеллектуальных задач компьютерная программа призвана максимально облегчить труд человека: во-первых, обеспечить его ограниченной выборкой документов, отсеяв по предустановленным фильтрам лишнее, во-вторых, предоставить удобное автоматизированное рабочее место (АРМ) для проведения оценок. Некоторые из программ умеют производить “интеллектуальный” поиск по массиву данных, отбирая документы по набору ключевых слов, частоте их употребления и относительному расположению, и делают это с учетом морфологии. Эти программы уже способны на простой контент-анализ, т. е. на семантическую статистическую обработку.
Класс таких аналитических (по терминологии их авторов, хотя не все они в полной мере соответствуют этому названию) программ российских разработчиков имеет хорошие шансы именно в нашей стране. Там, где приходится иметь дело с русскими текстами и документами, у отечественных компьютерных фирм нет достойных конкурентов. В их числе производители правовых баз данных и систем распознавания текстов, поисковых “движков” и автоматических классификаторов, словарей и переводчиков на иностранные языки.
А что же может предложить отечественная компьютерная мысль в области мониторинга и анализа СМИ? Сбором информации занимаются многие, анализом — единицы. Мониторинговые компании лишь перечислим, а вот о тех, кто предлагает продукты для обнаружения новых знаний в хранилищах данных —(knowledge discovery in databases, KDD), расскажем подробнее.
Не меньше десятка баз данных, ориентированных на сбор и хранение материалов СМИ, можно обнаружить в Рунете. Наиболее известные их них: “Артефакт” компании “Интегрум-Техно”; система “Парк”, созданная “Парк.Ру”; электронный киоск Russian Story; Национальная электронная библиотека от НСН; “Медиалогия”; УИС РОССИя; каталог СМИ от “СМИ.Ру”. Работа со всеми перечисленными источниками, кроме “СМИ.РУ”, платная, и все их владельцы предлагают не только возможность ознакомиться с материалами СМИ, но и некоторые мониторинговые услуги. А вот компания WPS свой электронный архив газет, журналов, транскриптов теле- и радиопередач в Интернете не держит, используя Сеть как рекламную площадку и инструмент для продвижения собственных мониторинговых продуктов.
Аналитические программы для работы с текстами
Аналитические системы различаются прежде всего по виду обрабатываемых данных — полнотекстовых или фактографических. Методы обработки фактографических данных известны достаточно давно. Среди них в последнее время особой популярностью пользуются OLAP-анализ и Data Mining (выявление последовательностей, ассоциаций, деревья решений и т. д.). Эти методы в той или иной мере сейчас поддерживаются всеми современными системами. Частично они реализованы в MS OLAP Services и в продуктах компании Business Objects. Наиболее полно — в системе PolyAnalyst компании Megaputer.
Методы анализа текстов распространены гораздо меньше. Это в основном тематическое рубрицирование входящего потока документов и подсчет статистики встречаемых слов и словосочетаний. Для автоматизации процедуры рубрицирования применяют так называемые авторубрикаторы. Наиболее известными производителями этих систем и отдельных компонентов являются канадская фирма Hummingbird (продукт Hummingbird Knowledge Management), а также российские компании Media Lingva (“Классификатор”), Megaputer (TextAnalyst) и “Гарант-Парк-Интернет” (ее продукт реализован на основе технологий американской фирмы InterMedia). Как правило, в их решениях обеспечивается и подсчет статистики встречаемых слов.
Зачастую для более быстрого и качественного анализа сбор статистики проводят с использованием OLAP-кубов. С их помощью аналитик в результате стандартных операций может быстро получить ответы на свои вопросы. Вот пример простейшего запроса: “Кто из политиков чаще других упоминался в ведущих изданиях указанного региона за выбранный отрезок времени?”. Разумеется, реальные запросы бывают более сложными.
Для успешного применения такого рода методов входящий поток всегда подвергается предварительной обработке, включающей просмотр оператором, автоматический контроль орфографии, использование фильтра стоп-слов, нормализацию регистра и др. Для последующего контекстного поиска проводится полнотекстовое индексирование содержимого документов.
Краткий обзор программных продуктов, представленных на российском рынке
“Астарта” (www.cognitive.ru/products/astarta.htm)
Компания Cognitive Technologies предлагает инструмент автоматизации аналитических исследований “Астарта”. Он представляет собой экспертный рубрикатор, предназначенный для сбора, хранения и семантического анализа текстовых материалов. Под анализом здесь понимается автоматическое рубрицирование и группировка, а также интеллектуальная выборка информации по заданной теме. Технологической основой для “Астарты” является ее “старший брат”, комплекс средств для создания электронных архивов “Евфрат”. Программа уже имеет практические внедрения, в частности на “Норильском никеле”, где с ее помощью анализируется база патентной информации, содержащая более 100 тыс. документов. В “Астарте” есть подсистема, умеющая обрабатывать материалы из СМИ в потоковом режиме. С ее помощью аналитики “Норильского никеля” делают, например, выводы об изменениях интересов ведущих фирм в выбранных для наблюдения областях. В конце 2002 г. в прессе сообщалось о начале внедрения “Астарты” в ФАПСИ.
“Галактика-Zoom” (zoom.galaktika.ru)
Программный комплекс “Галактика-Zoom”, предназначенный для аналитической обработки текстовых неструктурированных документов, предлагает корпорация “Галактика”. Программа может собирать информацию на Интернет-сайтах или брать документы из подключаемых баз данных. Авторы обещают пользователю информационную поддержку принимаемых управленческих решений благодаря быстрому поиску и контент-анализу отобранной информации. При опробовании системы у меня создалось полное ощущение работы с тематическим рубрикатором, способным проводить уточнение “на лету”. Например, в результате поиска по слову “водка” мне был выдан список документов с этим словом и список тем для уточнения запроса (спирт, фальсифицировать, пиво, Петр...). Похоже, что список тем формируется не случайным образом, а с учетом частоты употребления в текстах с “водкой”. Если это так, то мы имеем дело с рубрикатором, создающим структуру, в которой “водка” — главная рубрика, а “спирт”, “фальсифицировать”, “пиво” — подрубрики. Такой подход позволяет решать некоторые типичные маркетинговые задачи или составлять информационный портрет объекта, представляющего интерес.
“Медиалогия” (www.medialogia.ru)
Информационно-аналитическая система “Медиалогия” одноименной компании разработана группой российских ученых, аналитиков, а также специалистов в области информационных технологий. Прототипом “Медиалогии” является система IBS-Media, более известная как модуль ситуационных центров, создаваемых и продвигаемых отделением систем имитационного моделирования компании IBS. Разработчики исповедуют смешанный подход к оценке статей и других объектов. Это значит, что часть наименее интеллектуальной черновой работы выполняет программа. Более тонкие оценки, отражающие характер упоминания объектов в статье и то, в каких отношениях они между собой находятся, берет на себя человек.
На текущий момент система осуществляет мониторинг более чем 24 000 объектов, фиксируя статистическую и аналитическую информацию из тысячи источников (центральная и региональная бумажная пресса, информационные агентства, транскрипты и оригиналы теле-, радиопередач, Интернет-источники). На обработке сообщений задействовано несколько сотен квалифицированных операторов, безостановочно просматривающих до десяти тысяч сообщений в сутки. Система позволяет классифицировать публикации по значимости, определять отношение СМИ к объектам, анализировать характеристики PR-кампаний, устанавливать отраженные в СМИ связи между объектами и т. д.
Технологии Hummingbird (www.hbsltd.biz/products_km.asp)
В системе, которая создавалась по заказу российской компании HBS для анализа региональных СМИ, была реализована технология обработки электронных текстов с использованием поискового сервера Hummingbird SearchServer (ранее Fulcrum SearchServer) компании Hummingbird. Поступающая информация автоматически рубрицируется, а затем подвергается OLAP-анализу. В пакетах Hummingbird SearchServer и Hummingbird KnowledgeServer есть средства, с помощью которых пользователи могут сами создавать новые или настраивать имеющиеся деревья рубрик.
Для повышения качества авторубрицирования в системе реализованы развитые возможности предобработки поступающих документов. В частности, проводится контроль орфографии, используется фильтр стоп-слов, осуществляется нормализация регистра и др. При выполнении поисковых запросов можно подключать тезаурус (словарь синонимов). Выборка документов производится с помощью как контекстного поиска, так и OLAP-анализа.
TextAnalyst (www.analyst.ru)
Программа TextAnalyst от НПИЦ “МикроСистемы” является инструментом для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов. Она также способна строить семантические деревья, но не по объектам, а по отдельным статьям, в результате чего создается смысловой портрет каждого текста на основе количества упоминаний и близости встречаемости различных значащих, по мнению программы, слов. В TextAnalyst есть также модуль, генерирующий реферат текстового документа. Программа не предназначена для потоковой обработки материалов СМИ, но может брать с диска файлы в формате txt и rtf и после анализа текста сохранять результаты в отдельном файле.
Semantic Explorer (www.neurok.ru/products)
Semantic Explorer — это клиент-серверный программный комплекс компании “НейрОК”. Клиентский интерфейс Semantic Explorer ориентирован на работу с семантикой документов и поиск по смысловым и тематическим ассоциациям. В отличие от TextAnalyst семантическая карта строится не по отдельным документам, а по их базе. На такой карте (карте Кохонена) каждый документ имеет свое уникальное положение. Причем близкие по смыслу документы располагаются рядом.
Большое внимание компания уделяет технологиям Интернет-агентов, которые призваны производить в Интернете “осмысленный” поиск. Если связать таких агентов в единую сеть, то можно создать распределенное индексное поле обработанной ими совместно информации, существенно облегчающее поиск.
TopSOM (research.metric.ru)
Компания “Гарант-Парк-Интернет” уже не первый год ведет исследования в области интеллектуального поиска и тематического анализа текстовых документов. Исследователи предлагают линейку продуктов, одним из которых является TopSOM, базирующийся на технологии нейронной сети Кохонена.
Все множество документов разбивается на небольшое количество классов схожих по содержанию документов. Эти классы отображаются на плоскость таким образом, что близкие классы соответствуют близким областям плоскости. Задача нелинейного отображения многомерного семантического пространства в пространство малой размерности решается нейросетевым алгоритмом.
Такое отображение позволяет наглядно представить тематический состав большой (десятки тысяч текстов) коллекции документов в целом и помочь пользователю сориентироваться в океане информации.
Convera RetrievalWare (www.convera.com/press/webinar/comm.html)
Информационно-поисковая система Convera RetrievalWare — продукт американской компании Convera Technologies, но мы все же включили ее в обзор отечественного рынка, так как российская компания “Весть-МетаТехнология” не только локализовала интерфейс и документацию, но и адаптировала поисковый механизм системы к работе с русскоязычными документами. Для этого была составлена семантическая сеть словаря русского языка, которая содержит около 100 тыс. слов и идиоматических выражений и более 350 тыс. связей между ними, подключена библиотека морфологического анализа, внесены изменения в ядро оригинальной системы. А компания “Одеон”, авторизированная для работы на рынках СНГ, в 2002 г. завершила существенную переработку механизма поиска и семантико-морфологического разбора. В частности, новый механизм позволяет при поиске и анализе текста создавать семантическую сеть не только из синонимов, но и антонимов, морфем, вариантов произношения, сленга, а также выделять сущности и передавать результаты в СУБД. Новый словарь содержит более 1,2 млн. взаимосвязанных словоформ.
RetrievalWare представляет собой промышленное средство полнотекстового и атрибутивного поиска не только в текстовых архивах, но и в массивах графической и видеоинформации. Кроме того, новый модуль преобразования речи в текст позволяет в реальном времени индексировать входной аудиопоток для дальнейшего анализа и поиска.
IntellSoft Vision (www.intellsoft.ru/vision)
Компания IntellSoft предлагает руководителям верхнего уровня программу IntellSoft Vision, помогающую им в выборе объектов, представляющих интерес, и в реализации бизнес-стратегий. Программа обеспечивает:
- ситуационно-аналитический мониторинг конъюнктуры;
- интеллектуальный анализ данных;
- интерактивный поиск решений на базе моделирования;
- маневрирование ресурсами;
- оценку тенденций материалов СМИ;
- интеграцию с внешними информационными ресурсами.
Решение, созданное для Министерства культуры РФ с помощью инструментария IntellSoft Vision, является надстройкой над индустриальными OLAP-хранилищами, консолидирующими информацию, поступающую от ведомственных структур и из многочисленных независимых внешних источников.
Проект ВААЛ (www.vaal.ru)
В рамках проекта ВААЛ созданы две системы контент-анализа: ВААЛ-2000 для психолингвистического исследования русскоязычных текстов и Vaal Toolbox для аналогичных исследований англоязычных источников информации. ВААЛ-2000 позволяет воспользоваться предустановленными аналитическими моделями или создать собственные. В его распоряжении, например, методика психоанализа, критерии которого оценивают наличие в тексте слов, относимых к сексуальной символике (по З. Фрейду), архетипам (по К. Юнгу) и выражению агрессивности. А эмоционально-лексический анализ позволяет выявить эмоциональную насыщенность прямой речи по 15 наиболее значимым для российской культуры критериям.
Эта программа применялась в исследовании, призванном ответить на вопрос: “В чем причина того, что СССР исчез с политической карты мира?”. Анализу были подвергнуты 1000 стихотворений 200 российских поэтов XX века. Выявленные динамические зависимости аффиляции (потребности в социальной поддержке) и фрустрации (состояния подавленности и тревоги, возникающего у человека в результате крушения надежд) показывают, что минимум аффиляции и пик фрустрации приходятся как раз на начало 90-х годов прошлого века.
Выводы и перспективы
Многие из перечисленных продуктов снабжены собственными или встроенными авторубрикаторами и аннотаторами, а это означает, что указанные инструменты постепенно становятся стандартными для информационно-аналитических систем. Настоятельной необходимостью для такого класса программ является умение работать с тезаурусом (словарем синонимов) и учитывать морфологию языка: без этих функций при поиске легко пропустить нужные документы. Поскольку результаты исследований чаще всего передаются высокому руководству, не склонному сидеть за компьютером, не следует забывать и об удобных средствах генерации бумажной отчетности.
Желая оставаться в русле основных тенденций развития ИT-индустрии, многие разработчики переводят свои клиент-серверные приложения на Интернет-платформы. Все перечисленные в обзоре продукты, кроме “Астарты” и TextAnalyst, имеют Web-оболочку и используют для передачи данных TCP/IP. Очень желательным для заказчика свойством сложных систем является их модульность, позволяющая легко строить необходимые (нередко более дешевые) конфигурации.
И последнее пожелание разработчикам аналитических систем. Доверяя в рамках проведения контент-анализа компьютеру количественные оценки, не стоит забывать предоставлять человеку возможность ручной качественной оценки исследуемых текстов, помогающей фиксировать и структурировать новый слой знаний для последующего его анализа.
Но настоящий прорыв в обработке материалов СМИ будет достигнут тогда, когда сами авторы станут сопровождать текст некоторой информационной структурой, описывающей смысл статьи и “знания”, в ней изложенные, другими словами, когда возобладает подход, основанный на разделении данных, характеризующих содержание, представление и смысловое значение. Адептом этого подхода является один из основателей современного Интернета Тим Бернерс-Ли. Он предлагает объединить документы подобного рода в единую сеть знаний, которая будет называться Semantic Web. Разрабатываются и языки представления знаний — XML, RDF, OIL, DAMP и др. Но обсуждение этой темы выходит за рамки данной статьи.