Google অবশেষে তাদের বহুল প্রতীক্ষিত অন-ডিভাইস এআই মডেল Gemma 3n চালু করেছে, যা কোম্পানি মে 2025 সালে ঘোষণা করেছিল। এই নতুন এআই মডেলটি বিশেষভাবে কম মেমরি এবং লো-পাওয়ার স্মার্টফোন বা এজ ডিভাইসের জন্য ডিজাইন করা হয়েছে।
প্রযুক্তি: Google আর্টিফিশিয়াল ইন্টেলিজেন্স (AI)-এর জগতে একটি নতুন এবং বিপ্লবী পদক্ষেপ নিয়ে Gemma 3n নামে তাদের নতুন অন-ডিভাইস এআই মডেল পেশ করেছে। এর বিশেষত্ব হল এটি ইন্টারনেট ছাড়াই সম্পূর্ণ ক্ষমতায় কাজ করতে পারে। অর্থাৎ, ব্যবহারকারীদের এখন এআই ফিচারের জন্য ক্লাউড বা ইন্টারনেট সংযোগের উপর নির্ভর করতে হবে না। Google এই মডেলটি প্রথম মে 2025 সালে ঘোষণা করে এবং এখন এটি আনুষ্ঠানিকভাবে চালু করেছে।
Gemma 3n বিশেষভাবে সেইসব জায়গার জন্য ডিজাইন করা হয়েছে যেখানে ইন্টারনেটের সংযোগ দুর্বল থাকে বা যেখানে গোপনীয়তার (privacy) খুব বেশি প্রয়োজন হয়। কোম্পানির দাবি, এই মডেলটি অডিও, ইমেজ, ভিডিও এবং টেক্সট প্রসেসিংয়ের মতো কাজগুলো খুব সহজে করতে পারে, তাও আবার ইন্টারনেট ছাড়াই।
Gemma 3n-এর বৈশিষ্ট্য কী?
Gemma 3n-এর ভিত্তি হল এর নতুন আর্কিটেকচার MatFormer অর্থাৎ Matryoshka Transformer। এই নামের ধারণাটি রাশিয়ান নেস্টিং ডল থেকে নেওয়া হয়েছে, যেখানে একটি বড় পুতুলের ভিতরে অনেক ছোট ছোট পুতুল থাকে। একইভাবে, MatFormer-এও বড় মডেলের ভিতরে অনেক ছোট ছোট সাব-মডেল থাকে, যা সম্পূর্ণরূপে কার্যকরী। এর মাধ্যমে, ডেভেলপাররা তাদের ডিভাইসের ক্ষমতা অনুযায়ী Gemma 3n-কে স্কেল করতে পারে। Google এই মডেলটি দুটি ভেরিয়েন্টে পেশ করেছে —
- E2B, যা শুধুমাত্র 2GB RAM-এ কাজ করতে পারে
- E4B, যার জন্য প্রায় 3GB RAM প্রয়োজন
- অর্থাৎ, এই প্রযুক্তি লো-এন্ড স্মার্টফোনেও সহজে চলবে, যা Google-এর উদ্দেশ্য — AI for everyone — কে আরও শক্তিশালী করে।
পারফরম্যান্সেও কোনো আপস নেই
Gemma 3n-এ 5 থেকে 8 বিলিয়ন পর্যন্ত র প্যারামিটার রয়েছে, কিন্তু এর ডিজাইন এতটাই দক্ষ যে এটি বেশি রিসোর্স (resources) চায় না। Google এতে Per-Layer Embeddings (PLE) প্রযুক্তি ব্যবহার করেছে, যা GPU-এর লোড কমিয়ে CPU-এর ভালো ব্যবহার করে। এছাড়াও KV Cache Sharing নামে একটি বৈশিষ্ট্য যুক্ত করা হয়েছে, যার ফলে দীর্ঘ অডিও এবং ভিডিও ইনপুট প্রসেস করার গতি প্রায় দ্বিগুণ হয়ে যায়। এর সুবিধা হবে, ভারী কন্টেন্টও দ্রুত প্রসেস করা যাবে, তাও আবার ইন্টারনেট-এ ডেটা না পাঠিয়ে।
শক্তিশালী অডিও এবং ভয়েস ক্ষমতা
Gemma 3n-এ Google-এর Universal Speech Model থেকে নেওয়া একটি বিল্ট-ইন অডিও এনকোডার রয়েছে। এর মাধ্যমে ফোনেই স্পিচ-টু-টেক্সট এবং রিয়েল-টাইম ল্যাঙ্গুয়েজ ট্রান্সলেশন করা যাবে। বিশেষ করে ইংরেজি থেকে স্প্যানিশ, ফ্রেঞ্চ, ইতালীয় এবং পর্তুগিজ ভাষায় এর ফলাফল চমৎকার বলা হচ্ছে। ভিশন প্রসেসিংয়ের জন্য এতে Google-এর নতুন MobileNet-V5 লাইটওয়েট ভিশন এনকোডার অন্তর্ভুক্ত করা হয়েছে।
এটি 60 FPS পর্যন্ত ভিডিওকে মসৃণভাবে প্রসেস করতে পারে। এর মানে হল, Google Pixel-এর মতো ফোনগুলিতে রিয়েল-টাইম ভিডিও অ্যানালাইসিসও আগের চেয়ে অনেক ভালো এবং দ্রুত হবে।
গোপনীয়তা নিয়েও বড় ভরসা
সবচেয়ে বড় বিষয় হল, Gemma 3n সম্পূর্ণরূপে অফলাইনে কাজ করে। এর মানে হল ব্যবহারকারীর ডেটা ইন্টারনেটে আপলোড হবে না, যার ফলে গোপনীয়তার ঝুঁকি সর্বনিম্ন হয়ে যাবে। অনেক ব্যবহারকারীর জন্য এটি সবচেয়ে বড় প্লাস পয়েন্ট হিসেবে প্রমাণিত হবে, বিশেষ করে সেই সেক্টরগুলিতে যেখানে গোপনীয়তা সংবেদনশীল, যেমন সরকারি ডেটা, মেডিকেল ডেটা বা প্রতিরক্ষা সংক্রান্ত ডেটা প্রসেসিং।
Google-এর মতে, এই মডেলটি বিশেষভাবে প্রত্যন্ত অঞ্চল, যেমন পার্বত্য বা গ্রামীণ এলাকাগুলিতে ডিজিটাল সুবিধা শক্তিশালী করতে সাহায্য করবে। এমন অঞ্চলে ইন্টারনেট না থাকলেও এআই-ভিত্তিক ভাষা অনুবাদ, অডিও বিশ্লেষণ, ইমেজ প্রসেসিং-এর মতো ফিচারগুলি উপলব্ধ করা সম্ভব হবে।
ডেভেলপারদের জন্য নতুন আশা
Google জানিয়েছে যে Gemma 3n ওপেন-সোর্স থাকবে, যাতে ডেভেলপাররা এটিকে তাদের প্রয়োজন অনুযায়ী কাস্টমাইজ করতে পারে। MatFormer আর্কিটেকচারের কারণে, ডেভেলপাররা তাদের অ্যাপ্লিকেশনগুলিতে এটি খুব সহজে ইন্টিগ্রেট করতে পারবে, ডিভাইসের ক্যাপাসিটি যাই হোক না কেন। সব মিলিয়ে, Gemma 3n শুধু প্রযুক্তির একটি নতুন উদাহরণ নয়, বরং এমন একটি এআই প্ল্যাটফর্ম যা ডিজিটাল সাম্য (Digital Inclusion)-এর ধারণাটিকে बढ़ावा দেবে।