Розподілені системи: визначення, особливості та основні принципи

Файлові системи зберігання і тиражування

Розподілені файлові системи можна розглядати як розподілені сховища даних. Це те ж саме, що концепція – зберігання та доступ до великої кількості даних по всьому кластеру машин, що є єдиним цілим. Зазвичай вони йдуть рука об руку з Distributed Computing.

Наприклад, Yahoo відома тим, що працює HDFS на більш ніж 42 000 вузлів для зберігання 600 петабайт даних, ще з 2011 року. “Вікіпедія” визначає різницю в тому, що розподілені файлові системи дозволяють доступ до файлів з використанням тих же інтерфейсів і семантики, що і локальні файли, а не через інтерфейс API, такий як мова запитів Cassandra (CQL).

Розподілена файлова система Hadoop (HDFS) – це система, що використовується для обчислень через інфраструктуру Hadoop. Володіючи широким розповсюдженням, він використовується для зберігання і тиражування великих файлів (розмір GB або TB) на багатьох машинах. Його архітектура складається в основному з NameNodes і DataNodes.

NameNodes несе відповідальність за збереження метаданих про кластері, наприклад, якийсь вузол містить блоки файлів. Вони виступають в якості координаторів мережі, з’ясовуючи, де краще зберігати і копіювати файли, відстежуючи стан системи. DataNodes просто зберігають файли і виконують команди, такі як реплікація файлу, нова запис та інші.

Не дивно, що HDFS краще всього використовувати з Hadoop для обчислень, оскільки він забезпечує інформаційну обізнаність про завдання. Потім задані завдання запускаються на вузлах, що зберігають дані. Це дозволяє використовувати розташування даних – оптимізує обчислення і зменшує об’єм трафіку по мережі.

Міжпланетна файлова система (IPFS) являє собою захоплюючий новий спеціальний протокол/мережа для розподіленої файлової системи. Використовуючи технологію Blockchain, вона може похвалитися повністю децентралізованою архітектурою без єдиного власника або точки відмови.

Дивіться також:  Інформаційний ринок: характеристика. Ринок інформаційних технологій

IPFS пропонує систему іменування (аналогічну DNS), звану IPNS, і дозволяє користувачам легко отримувати інформацію. Вона зберігає файл через історичне керування версіями, подібно до того, як робить Git. Це дозволяє отримати доступ до всіх попередніх станів файлу. Він все ще переживає важкий розвиток (v0.4 на момент написання), але вже бачив проекти, зацікавлені у його створенні (FileCoin).