Yapay ZekaOn-PremiseLLMKVKKGüvenlik

Şirket İçi Yapay Zeka: On-Premise LLM Nedir, Ne Zaman Tercih Edilmeli?

May 20, 2026 · 9 min read

Yapay zeka artık isteğe bağlı bir teknoloji değil. Rekabet avantajı için kritik. Ancak OpenAI, Google Gemini gibi bulut tabanlı servisleri doğrudan kurumsal ortama entegre etmek, özellikle veri hassasiyeti yüksek sektörlerde ciddi riskler doğuruyor.

On-premise LLM, bu sorunu çözer: modelin ve verinin şirketin kendi altyapısında kalmasını sağlar.

On-Premise LLM Nedir?

On-premise LLM (Large Language Model), büyük dil modelinin kurumun kendi sunucularında veya özel bulutunda çalıştırılmasıdır. OpenAI API'sini çağırmak yerine, model sizin GPU ya da CPU sunucunuzda yanıt üretir. Veri hiçbir zaman dışarı çıkmaz.

Örnek kullanım senaryoları:

Belge zekası: Şirket sözleşmelerinde, teknik dokümanlarda arama ve özetleme
İç asistan: Kurumsal bilgi tabanına erişen çalışan asistanı
Süreç otomasyonu: Form doldurma, kategorizasyon, anomali tespiti
Müşteri desteği: Veriye dayalı, gizlilik korumalı destek botu

Hangi Sektörler İçin Zorunlu?

Bulut AI servisleri bazı sektörler için yasal ya da etik açıdan kabul edilemez:

Sektör	Neden On-Premise?
Finans & Bankacılık	BDDK düzenlemeleri, veri lokalizasyonu
Savunma Sanayi	Gizlilik sınıflandırması, air-gap gereksinimi
Kamu & E-Devlet	KVKK, kişisel veri yurt dışına çıkamaz
Sağlık	Hasta verisinin gizliliği, HIPAA benzeri gereksinimler
Hukuk	Müvekkil gizliliği, avukatlık sırrı

KVKK kapsamında: kişisel veri işlemek için veri sahibinin açık rızası veya kanuni dayanak gerekir. Veriyi yurt dışındaki bir API'ye göndermek, bu şartları karşılamayabilir.

Nasıl Çalışır? Teknik Mimarisi

On-premise LLM stack tipik olarak şu katmanlardan oluşur:

[Kullanıcı Arayüzü]
        ↓
[API Gateway + Auth]
        ↓
[LLM Inference Engine]  ← vLLM, Ollama, llama.cpp
        ↓
[Model]                 ← Llama 3, Mistral, Gemma, Qwen
        ↓
[RAG Pipeline]          ← Qdrant/Weaviate + kurumsal belgeler
        ↓
[Şirket Altyapısı]      ← kendi sunucularınız

Inference Engine seçenekleri:

vLLM: Yüksek eşzamanlılık gereken production ortamlar için. 50+ concurrent kullanıcı → vLLM
Ollama: Hızlı kurulum, düşük kullanıcı sayısı. Test ve pilot projeler için ideal
llama.cpp: GPU yoksa CPU üzerinde çalışır, küçük modeller için

RAG: Kendi Belgelerinizde Akıllı Arama

Temel LLM sadece eğitim verisiyle konuşur. RAG (Retrieval-Augmented Generation) ile modele şirket belgelerinizi bağlarsınız:

Belgeler vektöre dönüştürülür (embedding)
Vektör veritabanına indexlenir (Qdrant, Weaviate, ChromaDB)
Kullanıcı sorusu geldiğinde ilgili belge parçaları bulunur
Model bu bağlamla yanıt üretir

Sonuç: Model şirketinizin prosedür belgelerini, ürün kataloglarını, sözleşmelerini "biliyor" gibi davranır — halüsinasyon riski dramatik şekilde düşer.

Donanım Gereksinimleri

Model Boyutu	Minimum Donanım	Kullanım
7B parametre	8GB VRAM veya 16GB RAM (CPU)	Pilot, küçük ekip
13B parametre	16GB VRAM veya 32GB RAM	Orta ölçek
70B parametre	2× A100 80GB GPU	Büyük kurumlar
405B+ (GPT-4 seviyesi)	Multi-node GPU cluster	Enterprise

Küçük modeller + domain-specific fine-tuning, büyük genel modellere göre kurumsal görevlerde çoğunlukla daha iyi performans gösterir.

Bulut AI vs On-Premise: Karar Matrisi

Kriter	Bulut AI	On-Premise
Kurulum süresi	Dakikalar	Haftalar
Maliyet (başlangıç)	Düşük	Yüksek
Maliyet (ölçekte)	Yüksek (token başına)	Sabit (donanım)
Veri gizliliği	Düşük	Yüksek
Özelleştirme	Kısıtlı	Tam
Ağ bağımlılığı	Var	Yok
KVKK uyumluluk	Riskli	Güvenli

Başlarken: Pilot Proje Yaklaşımı

On-premise AI yolculuğuna geniş bir proje ile başlamak yerine, belirli bir kullanım senaryosu etrafında pilot yapın:

Kullanım senaryosu seçin: En çok zaman alan, belge yoğun bir süreç
Küçük başlayın: Ollama + Llama 3.1 8B ile test edin
Verimi ölçün: Pilot grupta zaman tasarrufu ve doğruluk
Ölçeklendirin: Başarılı pilot → production-grade vLLM kurulumu

Şirket içi yapay zeka kurulumu için teknik değerlendirme veya pilot proje planlaması konusunda yardım almak isterseniz, teknik görüşme talep edebilirsiniz.