PENDAHULUAN
Iklim resolusi tinggi dan model ramalan cuaca, dan regional
dan global jaringan sensor, memproduksi jumlah yang selalu lebih besar dari
lingkungan multidimensi data. Untuk menjadi berguna, data ini harus disimpan,
dikelola, dan tersedia untuk komunitas global peneliti, pembuat kebijakan, dan
lain-lain. Pendekatan yang biasa untuk mengatasi masalah ini adalah untuk mengoperasikan
data khusus penyimpanan dan distribusi fasilitas. Misalnya, Grid Sistem Bumi
(ESG) (Bernholdt et al., 2005) terdiri dari sistem data di beberapa
laboratorium AS, masing-masing dengan jumlah besar penyimpanan dan server
high-end dikonfigurasi untuk mendukung permintaan dari banyak pengguna remote.
Layanan terdistribusi seperti replika dan metadata catalog mengintegrasikan
komponen yang berbeda menjadi sebuah sistem terdistribusi tunggal. Karena kedua
volume data lingkungan dan permintaan data yang tumbuh, server dalam sistem
seperti ESG dapat dengan mudah menjadi kelebihan beban. Dataset yang lebih
besar juga menyebabkan bagi konsumen yang ingin mengeksekusi pipa analisis
"di tempat" daripada download Data untuk analisis lokal -
meningkatnya beban lebih pada server data. Dengan demikian, operator dihadapkan
dengan keputusan-keputusan penting tentang cara terbaik untuk mengkonfigurasi
sistem untuk memenuhi berkembang pesat, seringkali sangat berubah terhadap
waktu, beban.
Munculnya komersial "awan" atau infrastruktur di
penyedia permintaan (Mell & Tim, 2009) - operator penyimpanan yang besar
dan peternakan komputasi mendukung kuasi-instan akses on-demand dan
meningkatkan skala ekonomi untuk mengurangi biaya - menyediakan alternatif yang
potensial untuk server dioperasikan oleh sistem seperti ESG. Hosting data
lingkungan pada penyimpanan awan (misalnya, Amazon S3) dan berjalan pipa
analisis pada komputer awan (misalnya Amazon EC2) memiliki potensi untuk
mengurangi biaya dan / atau meningkatkan kualitas pelayanan yang diberikan,
terutama ketika menanggapi mengakses puncak (Armbrust, Fox, Griffith, Yusuf,
Katz et al., 2009).
Mendistribusikan data
Lingkungan Multidimensional
ESG dibangun di atas Globus Toolkit dan teknologi yang
terkait lainnya. ESG terus untuk memperluas data host dan jasa pengolahan data,
memanfaatkan lingkungan yang membahas otentikasi, otorisasi untuk akses data,
transportasi data berskala besar dan manajemen, jasa dan abstraksi untuk data
jarak jauh kinerja dengan akses yang tinggi, mekanisme replikasi data terukur,
katalogisasi dengan semantik yang kaya dan Informasi sintaksis, penemuan data,
pemantauan didistribusikan, dan Web-based portal untuk menggunakan sistem.
Pekerjaan saat ini bertujuan untuk memperluas cakupan ESG untuk mengatasi
kebutuhan untuk federasi sumber data banyak, seperti yang akan diperlukan untuk
tahap berikutnya dari Panel Antar pemerintah tentang Perubahan (IPCC) proses
penilaian Iklim.
Dalam dunia ilmu komputer lingkungan, katalog data
diimplementasikan, dikelola, dan disimpan dengan menggunakan komunitas
mengembangkan standar file seperti Jaringan Umum Data File (netCDF), terutama
digunakan untuk penyimpanan dan (paralel) pengambilan kinerja tinggi, dan
format Binary grid (Grib), biasanya digunakan untuk transfer data. Yang paling
banyak digunakan protokol transfer data OpenDAP (Open Proyek sumber untuk
Jaringan Data Access Protocol), sebelumnya dods (Distributed Oceanographic Data
System). OpenDAP mendukung satu set fitur standar untuk meminta dan
transportasi data di seluruh web (Gallagher, Potter, & Sgouros, 2004).
OpenDAP saat data Access Protocol (DAP) menggunakan HTTP untuk permintaan dan
tanggapan. Grid Analisis dan Display System (lulusan) (Doty & Kinter, 1995)
adalah sumber alat bebas dan terbuka interaktif desktop yang digunakan untuk
memudahkan akses, manipulasi, dan visualisasi data ilmu bumi disimpan dalam
berbagai format seperti biner, Grib, netCDF, dan HDF-SDS. Para lulusan-dods
Server (GDS) menggabungkan Lulusan dan OPeNDAP untuk menciptakan solusi open
source untuk melayani didistribusikan data ilmiah (Wielgosz & Doty, 2003).
Dalam karya sebelumnya, Montella dkk. mengembangkan Layanan Data Distribusi (GDDS) (Montella, Giunta, & Riccio, 2007) layanan,
layanan web berbasis GT4 untuk penerbitan dan penyajian data lingkungan.
Penggunaan mekanisme GT4 memungkinkan integrasi otentikasi canggih dan protokol
otorisasi dan nyaman publikasi metadata layanan, yang diterbitkan secara
otomatis ke GT4 layanan indeks. Fitur terakhir ini memungkinkan percaloan
sumber daya yang melibatkan data dan sumber informasi lainnya tentang jaringan
seperti CPU, penyimpanan, dan instrumen - berguna, misalnya, ketika mencari
sumber data yang juga mendukung pengolahan data.
Hyrax adalah server data yang menggabungkan upaya UCAR / HAO
untuk membangun kinerja DAP-compliant data server tinggi berdasarkan perangkat
lunak yang dikembangkan oleh OpenDAP (Gallagher, Potter, Barat, Garcia, &
Fox, 2006).
Lingkungan
Penyimpanan Data Sumber Daya Elastis
Tujuan dalam pekerjaan ini adalah untuk mengeksplorasi
apakah layak untuk memanfaatkan “awan” Amazon layanan untuk host data
lingkungan. Dengan kata lain, ingin menentukan kesulitan, kinerja, dan ekonomi
biaya operasi layanan seperti FDDDS dengan data (dan mungkin pengolahan) serta
host tidak pada sumber daya lokal, tetapi di atas “awan “sumber daya yang
disediakan oleh Amazon. Layanan ini, seperti FDDDS, harus mengijinkan remote pengguna
untuk meminta baik seluruh dataset dan subset dari dataset, dan akhirnya juga untuk
melakukan analisis pada dataset.
komputasi grid dan mencapai skalabilitas dan ketersediaan
berkat kekuatan elastic awan. Dalam melakukan penelitian ini, kita fokus secara
khusus pada masalah kinerja. Penggunaan sumber daya dialokasikan secara dinamis
awan memiliki potensi kinerja yang buruk, karena untuk lingkungan virtual,
rincian internal perilaku penyimpanan awan, dan ekstra cloud / intra-awan
jaringan komunikasi. Kami mengantisipasi bahwa hal itu akan diinginkan untuk
bergerak seperti banyak pekerjaan pengolahan (analisis subsetting dan data)
mungkin ke awan, sehingga dapat meminimalkan kebutuhan untuk awan-ke-luar
transfer data dunia. Ini Pendekatan ini juga dapat membantu untuk mengurangi
biaya, mengingat bahwa biaya Amazon untuk data antara penyimpanan “awan” dan
dunia luar.
Layanan Amazon Cloud
Meringkas karakteristik penting dari Amazon EC2, S3, dan
layanan EBS yang kita gunakan dalam
pekerjaan ini. The Elastic Compute
Cloud (EC2) layanan memungkinkan klien untuk meminta penciptaan dari satu atau lebih mesin virtual
(VM) kasus, masing-masing dikonfigurasi untuk menjalankan gambar VM disediakan
oleh klien. Pengguna hanya dikenakan biaya untuk waktu (dibulatkan ke jam penuh terdekat) contoh EC2 adalah
berdiri dan berjalan. Jenis contoh yang berbeda yang didukungdengan konfigurasi
yang berbeda (jumlah core virtual, jumlah memori,dll) dan biaya jumlah yang
berbeda per jam. Seorang pengguna dapat mengkonfigurasi beberapa EC2 Gambar VM dan menjalankan beberapa
contoh dari masing-masing untuk instantiate kompleks didistribusikan skenario yang menggabungkan blok
fungsional yang berbeda seperti web server, aplikasi server, dan server database. EC2 menyediakan alat, antarmuka
pengguna web dan API dalam banyak
bahasa yang membuatnya mudah untuk membuat dan mengelola gambar dan contoh. Sebuah perpustakaan citra
global menawarkan titik awal dari mana untuk memulai gambar setup dan konfigurasi.
The Simple Storage Service (S3) menyediakan antarmuka web
layanan sederhana yang dapat digunakan untuk menyimpan dan mengambil data objek
(hingga 5 GB dalam ukuran) setiap saat dan dari mana saja di web. Hanya
menulis, membaca, dan operasi menghapus diperbolehkan. Jumlah obyek yang dapat
dibuat secara efektif tidak terbatas. Nama objek ruang datar (tidak ada sistem
file hirarki): setiap objek data yang disimpan dalam ember dan diambil melalui
kunci unik yang diberikan oleh pengembang. Layanan S3 ulangan setiap objek
untuk meningkatkan ketersediaan dan keandalan. Lokasi fisik objek tidak
terlihat oleh pengguna, kecuali bahwa pengguna dapat memilih zona geografis di
mana untuk membuat objek (saat ini, Barat AS, Timur AS, dan Eropa). Kecuali
kalau objek secara eksplisit ditransfer, mereka tidak pernah meninggalkan
daerah di mana mereka dibuat.
Pengguna S3 dapat mengontrol siapa yang dapat mengakses data
atau alternatif dapat membuat objek tersedia untuk semua. Data diakses melalui
antarmuka REST dan SOAP dirancang untuk bekerja dengan pengembangan toolkit
internet. Pengguna S3 akan dikenakan biaya untuk penyimpanan dan untuk transfer
antara S3 dan dunia luar. Download standar protocol adalah HTTP, sebuah
antarmuka protokol BitTorrent disediakan untuk biaya yang lebih rendah untuk
berskala distribusi. Sejumlah besar data (misalnya, dataset lingkungan besar) dapat
dipindahkan ke S3 dengan menggunakan impor / ekspor jasa berdasarkan penyerahan
fisik unit penyimpanan portabel, yang lebih cepat dan lebih murah daripada
Internet upload.
Cloud dan Grid
Hibridisasi: Layanan netCDF
Layanan netCDF dikembangkan oleh Montella, Agrillo,
Mastrangelo, dan Menna (2008) adalah layanan GT4 berbasis web. Ini memanfaatkan
fitur GT4 berguna dan menangkap banyak pengalaman sebelumnya dalam pengiriman
data lingkungan menggunakan alat grid. Layanan mengintegrasikan berbagai sumber
data dan server data interaksi mode, interface untuk layanan indeks untuk
mengizinkan penemuan, dan mendukung tertanam pengolahan data. Terakhir but not
least, ia dirancang untuk bekerja dalam awan / jaringan lingkungan hybrid.
Layanan Arsitektur
netCDF
Layanan netCDF menyediakan klien dengan akses ke sumber daya:
sebuah representasi abstrak objek data yang benar-benar memisah dari data yang
mendasari penyimpanan yang terkait dengan objek data. Konektor menghubungkan
layanan netCDF sumber daya ke sistem penyimpanan data yang mendasari tertentu. Konektor
yang tersedia meliputi konektor berkas netCDF, yang menggunakan kami
S3-disempurnakan netCDF antarmuka Java dapat melayani file lokal, file
dods-dilayani, file HTTP-dilayani dan S3-file yang tersimpan, yang Konektor GDS
yang dapat melayani Grib dan lulusan file dilayani oleh Grads Data Server; dan
konektor Hyrax untuk server Hyrax berbasis OpenDAP. Kami juga mengembangkan konektor
instrumen sebagai antarmuka langsung ke instrumen akuisisi data (Montella,
Agrillo, Mastrangelo, & Menna, 2008) berdasarkan Instrumen Abstrak kami Kerangka
(Montella, Agrillo, Di Lauro, 2008). Tujuan utama dari konektor adalah untuk
mengirimkan permintaan untuk data yang berbeda server dan untuk mengkonversi
semua tanggapan ke netCDF dataset (Gambar 26.4). Setelah subset diminta dataset
disampaikan oleh konektor data dan disimpan secara lokal, pengguna dapat
memproses bagian menggunakan software lokal. Fitur ini dilaksanakan dengan
menggunakan lain disesuaikan pasang penuh masuk Berkat pabrik / instance Pendekatan,
setiap konsumen layanan web berkaitan dengan data sendiri dalam pribadi
sementara area penyimpanan fisik dekat ke layanan web. Prosesor komponen
konektor misinya adalah untuk antarmuka keluar berbeda dari proses prosesor
dataset netCDF
Konektor Operator netCDF adalah antarmuka Java untuk
perangkat lunak homonymous suite. The netCDF Operator, atau bintara, adalah
suite mandiri, commandline program yang masing-masing mengambil file netCDF
sebagai masukan, beroperasi pada file-file (misalnya, memperoleh data baru,
menghitung rata-rata, ekstrak hyperslabs, memanipulasi metadata), dan
menghasilkan file output netCDF. Bintara terutama membantu manipulasi dan
analisis data ilmiah grid. Gaya tunggal komando bintara memungkinkan pengguna
untuk memanipulasi dan menganalisis file secara interaktif, dengan script
sederhana yang menghindari beberapa biaya overhead (dan kekuasaan) dari
lingkungan pemrograman tingkat tinggi. Seperti dalam kasus dari konektor
prosesor lulusan, konsumen layanan web berinteraksi dengan Konektor bintara
prosesor menggunakan antarmuka Java sederhana atau langsung dengan shelllike
script.