Тема: Информационные технологии сбора, хранения и быстрой обработки научной информации
Информация (в общем смысле) — это все, что может воспринять человек. В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов. Обработка данных включает в себя множество различных операций. В структуре возможных операций с данными можно выделить следующие основные:
1) Ввод(сбор) данных — накопление данных с целью обеспечения достаточной полноты для принятия решений
2) Формализация данных — приведение данных поступающих из разных источников, к одинаковой форме, для повышения их доступности.
3) Фильтрация данных — это отсеивание «лишних» данных, в которых нет необходимости для повышения достоверности и адекватности.
4) Сортировка данных — это упорядочивание данных по заданному признаку с целью удобства использования.
5) Архивация — это организация хранения данных в удобной и легкодоступной форме.
6) Защита данных — включает меры, направленные на предотвращение утраты, воспроизведения и модификации данных.
7) Транспортировка данных — прием и передача данных между участниками информационного процесса.
8) Преобразование данных — это перевод данных из одной формы в другую или из одной структуры в другую.
Рассмотрим подробнее информационные технологии сбора, хранения и быстрой обработки научной информации.
Новые технологии поиска данных породили и новые формы описания и систематизации данных.
Для сбора данных обращаются к компьютерным поисковым системам (программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете), в которых используются индексированные списки по различным ключам: ключевые слова по тезаурусу. Продолжают применяться традиционные библиотечные цифровые системы классификации УДК.
Пользуются также электронной библиотекой — упорядоченная коллекция разнородных электронных документов (в том числе книг), снабженных средствами навигации и поиска. Может быть веб-сайтом, где постепенно накапливаются различные тексты (чаще литературные, но также и любые другие, вплоть до компьютерных программ) и медиафайлы, каждый из которых самодостаточен и в любой момент может быть востребован читателем. Электронные библиотеки могут быть универсальными, стремящимися к наиболее широкому выбору материала, и более специализированными, как Фундаментальная электронная библиотека, нацеленная на собирание авторов и типов текста, наиболее ярко заявляющих о себе именно в Интернете.
Особое место в ряду электронных библиотек занимают библиотеки научно-образовательной тематики, в которых собраны издания, необходимые для осуществления образовательного процесса.
Списки библиотек и поисковые системы: Электронные библиотеки в DMOZ, Электронные библиотеки в каталоге Яндекса, Раздел «Литература» в Rambler Top100.
Созданы и «электронные энциклопедии» для разных специалистов, например информационно-поисковые системы для медиков, химиков, машиностроителей, экономистов.
Поисковые серверы в Интернете разделяются на:
Поисковые каталоги (Yahoo)
Поисковые указатели (Google, AltaVista, Яндекс, Rambler)
Когда тема задана широко, рекомендуется пользоваться каталогами. При наличии первичных сведений по теме документы можно разыскивать в поисковых указателях с помощью приемов:
простого поиска (по одному или нескольким словам)
расширенного поиска (с помощью логических отношений – язык поисковых запросов — это искусственный язык, на котором делаются запросы к информационно-поисковым системам. Язык состоит из логических операторов, префиксов обязательности, возможности учета расстояния между словами, морфологии языка, регистра слов, расширенных операторов, возможностей расширенного поиска, уточнения поиска. Пр., для Яндекса —для операции исключения: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б — документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && — во всём документе)
контекстный (по точной фразе)
специальный поиск (осуществляет розыск web-страниц, содержащих ссылки на заданные URL-адреса, а также содержащих заданные данные в служебных полях, напр., в поле заголовка).
Виды поиска:
Полнотекстовый поиск — поиск по всему содержимому документа (любой интернет-поисковик: www.yandex.ru, www.google.com)
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д.
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
Методы поиска
Адресный поиск. Процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия: точный адрес, обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы. Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск. Процесс поиска документов по их содержанию. Условия: Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. Составление поискового описания, в котором указывается дополнительное условие поиска.
Документальный поиск. Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя: Библиотечный, направленный на нахождение первичных документов и Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Фактографический поиск. Процесс поиска фактов, соответствующих информационному запросу: сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Новые СМИ или новые медиа (англ. New media) — термин, который в конце прошлого века стали применять для интерактивных электронных изданий и новых форм коммуникации производителей контента с потребителями для обозначения отличий от традиционных медиа, таких как газеты, то есть этим термином обозначают процесс развития цифровых, сетевых технологий и коммуникаций. Проект Википедия также представляет собой образец нового СМИ.
Собранные данные предполагают дальнейшую их обработку, что часто связано с изменением типа носителя, например книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку. Необходимость в многократном преобразовании данных возникает также при их транспортировке, особенно если она осуществляется средствами, не предназначенными для транспортировки данного вида данных. В качестве примера можно упомянуть, что для транспортировки цифровых потоков данных по каналам телефонных сетей (которые изначально были ориентированы только на передачу аналоговых сигналов в узком диапазоне частот) необходимо преобразование цифровых данных в некое подобие звуковых сигналов, чем и занимаются специальные устройства - телефонные модемы.
При обработке информации используют программные средства общего и специального назначения.
Программные средства общего назначения: текстовые редакторы, системы компьютерной вёрстки (Scribus, Microsoft Publisher, Apple Pages), графические редакторы (Paint, Adobe Photoshop, Corel.), СУБД и др.
СУБД — совокупность программных и лингвистических средств общего или специального назначения, обеспечивающих управление созданием и использованием баз данных. Примеры: Microsoft Access, Paradox, dBase, FoxPro, Visual FoxPro; Oracle, Firebird; OpenEdge, SQLite, BerkeleyDB, Firebird Embedded, MySQL, Sav Zigzag, Microsoft SQL.
Базой данных является представленная в объективной форме совокупность самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины.
Данные в БД логически структурированы (систематизированы) с целью обеспечения возможности их эффективного поиска и обработки в вычислительной системе.
Программные средства специального назначения: экспертные системы, мультимедиа приложения (Медиаплееры, программы для создания/редактирования видео, звука, Text-To-Speech и пр.), гипертекстовые системы (Электронные словари, энциклопедии, справочные системы), Системы управления содержимым.
Мультимедиа (лат. Multum + Medium) — одновременное использование различных форм представления информации и ее обработки в едином объекте-контейнере.
Гипертекст — текст, сформированный с помощью языка разметки, потенциально содержащий в себе гиперссылки. В более широком понимании термина, гипертекстом является любая повесть, словарь или энциклопедия, где встречаются отсылки к другим частям данного текста, имеющие отношения к данному термину.
Система управления содержимым — информационная система или компьютерная программа, используемая для обеспечения и организации совместного процесса создания, редактирования и управления контентом ( содержимым). Главной целью такой системы является возможность собирать в единое целое и объединить на основе ролей и задач все разнотипные источники знаний и информации, доступные как внутри организации, так и за ее пределами, а также возможность обеспечения взаимодействия сотрудников, рабочих групп и проектов с созданными ими базами знаний, информацией и данными так, чтобы их легко можно было найти, извлечь и повторно использовать привычным для пользователя образом.
Программные средства профессионального уровня: САПР, АРМ, АСУ, АСУ ТП, АСНИ, Геоинформационные системы, Биллинговые системы, CRM,
Система автоматизированного проектирования (САПР) — автоматизированная система, реализующая информационную технологию выполнения функций проектирования, представляет собой организационно-техническую систему, предназначенную для автоматизации процесса проектирования, состоящую из персонала и комплекса технических, программных и других средств автоматизации его деятельности.
САПР:
- чертежные, в области архитектуры и строительства, используются для проектирования зданий, промышленных объектов, дорог, мостов и проч. (Автокад)
- специализированный (OrCAD, SolidWorks, ArchiCAD, NetMaker, CasCAD).
Автоматизированное рабочее место (АРМ) — программно-технический комплекс, предназначенный для автоматизации деятельности определенного вида. АРМ объединяет программно-аппаратные средства, обеспечивающие взаимодействие человека с компьютером, предоставляет возможность ввода информации (через клавиатуру, компьютерную мышь, сканер и пр.) и её вывод на экран монитора, принтер, графопостроитель, звуковую карту — динамики или иные устройства вывода. Как правило, АРМ является частью АСУ.
АСУ — комплекс аппаратных и программных средств, предназначенный для управления различными процессами в рамках технологического процесса, производства, предприятия. АСУ применяются в различных отраслях промышленности, энергетике, транспорте и т. п.
Классическая АСУ включает в себя: систему сбора информации; БД; систему обработки и анализа информации; систему формирования выходной информации.
Виды АСУ
Автоматизированная система управления технологическим процессом или АСУ ТП — решает задачи оперативного управления и контроля техническими объектами в промышленности, энергетике, на транспорте
Автоматизированная система управления производством (АСУ П) — решает задачи организации производства, включая основные производственные процессы, входящую и исходящую логистику. Осуществляет краткосрочное планирование выпуска с учётом производственных мощностей, анализ качества продукции, моделирование производственного процесса. Для решения этих задач применяются MIS и MES-системы (пример), а также LIMS-системы.
Основные АСУ: ERP-системы ( SAP, Oracle, EBS, 1C, Галактика) и CRM-системы.
Геоинформационная система (ГИС) — информационная система, предназначенная для сбора, хранения, анализа и графической визуализации пространственных данных и связанной с ними информации о представленных в ГИС объектах.
ГИС включают в себя возможности СУБД, редакторов растровой и векторной графики и аналитических средств и применяются в картографии, геологии, метеорологии, землеустройстве, экологии, муниципальном управлении, транспорте, экономике, обороне и многих других областях.
Направления развития:
А) привязка объектов к карте
Б) поиск, прокладка маршрута.
Наибольшее распространение: Google Maps, Earth.
Программа : Google Earth представляет собой огромную базу географических трехмерных объектов земли.
Биллинг (англ. billing — составление счёта) — в некоторых видах бизнеса, в частности, в телекоммуникациях — автоматизированная система учёта предоставленных услуг, их тарификации и выставления счетов для оплаты. В телекоммуникации биллинг официально именуется «Автоматизированная Система Расчётов» (АСР).
Система управления взаимодействием с клиентами (или CRM) — корпоративная информационная система, предназначенная для автоматизации CRM-стратегии компании, в частности, для повышения уровня продаж, оптимизации маркетинга и улучшения обслуживания клиентов путём сохранения информации о клиентах (контрагентах) и истории взаимоотношений с ними, установления и улучшения бизнес-процедур и последующего анализа результатов. Под термином «CRM-система» понимается программный продукт (ПО), направленный на реализацию концепции CRM.
Ныне прогресс микроминиатюрной электроники резко увеличил емкость хранилищ информации, а успехи лазерной техники позволили увеличить пропускную способность каналов передачи информации. Только один компактный диск диаметром до двенадцати сантиметров вмещает миллион страниц текста - громадный архив документов, статей, фотографий, чертежей, всевозможных бумаг. В цифровой форме на диске могут быть записаны самые разные географические и топографические карты, схемы, цветные рисунки. Все 9 миллионов слов «Американской энциклопедии» заняли лишь одну пятую часть компактного диска.
Развитая сеть институтов и центров хранения и поиска информации непрерывно ведет переработку дорогостоящего «информационного продукта». Чем измеряются результаты такой работы? Не только количеством и качеством информации, но также и умением сжимать информацию об информации, помогая потребителю лучше в ней ориентироваться, а в конечном итоге способствовать накоплению все большего и большего интеллектуального богатства.
Хранение информации
Запоминающее устройство — носитель информации, предназначенный для записи и хранения данных. В основе работы запоминающего устройства может лежать любой физический эффект, обеспечивающий приведение системы к двум или более устойчивым состояниям.
Классификация запоминающих устройств
По устойчивости записи и возможности перезаписи ЗУ:
Постоянные (ПЗУ), содержание которых не может быть изменено конечным пользователем (например, BIOS). ПЗУ в рабочем режиме допускает только считывание информации.
Записываемые (ППЗУ), в которые конечный пользователь может записать информацию только один раз (например, CD-R).
Многократно перезаписываемые (ПППЗУ) (например, CD-RW).
Оперативные (ОЗУ) обеспечивает режим записи, хранения и считывания информации в процессе её обработки. Быстрые, но дорогие ОЗУ (SRAM) строят на триггерах, более медленные, но дешёвые разновидности ОЗУ — динамические ЗУ (DRAM) строят на конденсаторах. В обоих видах ЗУ информация исчезает после отключения от источника тока.
По типу доступа:
Устройства с последовательным доступом (например, магнитные ленты).
Устройства с произвольным доступом (RAM) (например, оперативная память).
Устройства с прямым доступом (например, жесткие магнитные диски).
Устройства с ассоциативным доступом (специальные устройства, для повышения производительности БД)
По геометрическому исполнению:
дисковые (магнитные диски, оптические, магнитооптические);
ленточные (магнитные ленты, перфоленты);
барабанные (магнитные барабаны);
карточные (магнитные карты, перфокарты, флэш-карты, и др.)
печатные платы (карты DRAM, картриджи).
По физическому принципу:
перфорационные (с отверстиями или вырезами)
перфокарта
перфолента
с магнитной записью
ферритовые сердечники
магнитные диски
Жёсткий магнитный диск
Гибкий магнитный диск
магнитные ленты
магнитные карты
оптически
CD
DVD
HD-DVD
Blu-ray Disc
магнитооптические:
CD-MO
использующие накопление электростатического заряда в диэлектриках (конденсаторные ЗУ, запоминающие электроннолучевые трубки);
использующие эффекты в полупроводниках (EEPROM, флэш-память)
звуковые и ультразвуковые (линии задержки);
использующие сверхпроводимость (криогенные элементы);
другие.
По форме записанной информации выделяют аналоговые и цифровые запоминающие устройства.
Самое большое распространение запоминающие устройства приобрели в компьютерах (компьютерная память). Кроме того, они применяются в устройствах автоматики и телемеханики, в приборах для проведения экспериментов, в бытовых устройствах (телефонах, фотоаппаратах, холодильниках, стиральных машинах и т. д.), в пластиковых карточках, замках.
Наиболее распространённые в настоящее время ЗУ: Магнитные ЗУ в пластиковых картах, Флеш-память: USB-накопители, карты памяти в телефонах и фотоаппаратах, SSD, Оптические диски: CD, DVD, Blu-Ray и др., Жёсткие диски (НЖМД), Микросхемы SDRAM (DDR и XDR).
Некоторые типы запоминающих устройств оформлены как компактные, носимые человеком устройства, приспособленные для переноса информации. В частности: Флеш-память, Переносной жёсткий диск: Mobile Rack, Контейнеры для жёстких дисков, ZIV.