Blog
Yapay ZekaOn-PremiseLLMKVKKGüvenlik

Şirket İçi Yapay Zeka: On-Premise LLM Nedir, Ne Zaman Tercih Edilmeli?

May 20, 2026 · 9 min read

Yapay zeka artık isteğe bağlı bir teknoloji değil. Rekabet avantajı için kritik. Ancak OpenAI, Google Gemini gibi bulut tabanlı servisleri doğrudan kurumsal ortama entegre etmek, özellikle veri hassasiyeti yüksek sektörlerde ciddi riskler doğuruyor.

On-premise LLM, bu sorunu çözer: modelin ve verinin şirketin kendi altyapısında kalmasını sağlar.

On-Premise LLM Nedir?

On-premise LLM (Large Language Model), büyük dil modelinin kurumun kendi sunucularında veya özel bulutunda çalıştırılmasıdır. OpenAI API'sini çağırmak yerine, model sizin GPU ya da CPU sunucunuzda yanıt üretir. Veri hiçbir zaman dışarı çıkmaz.

Örnek kullanım senaryoları:

  • Belge zekası: Şirket sözleşmelerinde, teknik dokümanlarda arama ve özetleme
  • İç asistan: Kurumsal bilgi tabanına erişen çalışan asistanı
  • Süreç otomasyonu: Form doldurma, kategorizasyon, anomali tespiti
  • Müşteri desteği: Veriye dayalı, gizlilik korumalı destek botu

Hangi Sektörler İçin Zorunlu?

Bulut AI servisleri bazı sektörler için yasal ya da etik açıdan kabul edilemez:

SektörNeden On-Premise?
Finans & BankacılıkBDDK düzenlemeleri, veri lokalizasyonu
Savunma SanayiGizlilik sınıflandırması, air-gap gereksinimi
Kamu & E-DevletKVKK, kişisel veri yurt dışına çıkamaz
SağlıkHasta verisinin gizliliği, HIPAA benzeri gereksinimler
HukukMüvekkil gizliliği, avukatlık sırrı

KVKK kapsamında: kişisel veri işlemek için veri sahibinin açık rızası veya kanuni dayanak gerekir. Veriyi yurt dışındaki bir API'ye göndermek, bu şartları karşılamayabilir.

Nasıl Çalışır? Teknik Mimarisi

On-premise LLM stack tipik olarak şu katmanlardan oluşur:

[Kullanıcı Arayüzü]
        ↓
[API Gateway + Auth]
        ↓
[LLM Inference Engine]  ← vLLM, Ollama, llama.cpp
        ↓
[Model]                 ← Llama 3, Mistral, Gemma, Qwen
        ↓
[RAG Pipeline]          ← Qdrant/Weaviate + kurumsal belgeler
        ↓
[Şirket Altyapısı]      ← kendi sunucularınız

Inference Engine seçenekleri:

  • vLLM: Yüksek eşzamanlılık gereken production ortamlar için. 50+ concurrent kullanıcı → vLLM
  • Ollama: Hızlı kurulum, düşük kullanıcı sayısı. Test ve pilot projeler için ideal
  • llama.cpp: GPU yoksa CPU üzerinde çalışır, küçük modeller için

RAG: Kendi Belgelerinizde Akıllı Arama

Temel LLM sadece eğitim verisiyle konuşur. RAG (Retrieval-Augmented Generation) ile modele şirket belgelerinizi bağlarsınız:

  1. Belgeler vektöre dönüştürülür (embedding)
  2. Vektör veritabanına indexlenir (Qdrant, Weaviate, ChromaDB)
  3. Kullanıcı sorusu geldiğinde ilgili belge parçaları bulunur
  4. Model bu bağlamla yanıt üretir

Sonuç: Model şirketinizin prosedür belgelerini, ürün kataloglarını, sözleşmelerini "biliyor" gibi davranır — halüsinasyon riski dramatik şekilde düşer.

Donanım Gereksinimleri

Model BoyutuMinimum DonanımKullanım
7B parametre8GB VRAM veya 16GB RAM (CPU)Pilot, küçük ekip
13B parametre16GB VRAM veya 32GB RAMOrta ölçek
70B parametre2× A100 80GB GPUBüyük kurumlar
405B+ (GPT-4 seviyesi)Multi-node GPU clusterEnterprise

Küçük modeller + domain-specific fine-tuning, büyük genel modellere göre kurumsal görevlerde çoğunlukla daha iyi performans gösterir.

Bulut AI vs On-Premise: Karar Matrisi

KriterBulut AIOn-Premise
Kurulum süresiDakikalarHaftalar
Maliyet (başlangıç)DüşükYüksek
Maliyet (ölçekte)Yüksek (token başına)Sabit (donanım)
Veri gizliliğiDüşükYüksek
ÖzelleştirmeKısıtlıTam
Ağ bağımlılığıVarYok
KVKK uyumlulukRiskliGüvenli

Başlarken: Pilot Proje Yaklaşımı

On-premise AI yolculuğuna geniş bir proje ile başlamak yerine, belirli bir kullanım senaryosu etrafında pilot yapın:

  1. Kullanım senaryosu seçin: En çok zaman alan, belge yoğun bir süreç
  2. Küçük başlayın: Ollama + Llama 3.1 8B ile test edin
  3. Verimi ölçün: Pilot grupta zaman tasarrufu ve doğruluk
  4. Ölçeklendirin: Başarılı pilot → production-grade vLLM kurulumu

Şirket içi yapay zeka kurulumu için teknik değerlendirme veya pilot proje planlaması konusunda yardım almak isterseniz, teknik görüşme talep edebilirsiniz.