Hukuki Metinlerde Semantik Arama: RAG Mimarisi ve Vektör Uzayları
Hukuk, kelimelerin kesinliğine dayalı bir disiplindir. Ancak geleneksel "Keyword Search" (Anahtar Kelime Arama), eş anlamlıları ve bağlamı kaçırır. LexMind'ın arkasındaki motor, kelimeleri değil, "anlamları" matematiksel vektörlere dönüştürür.
Sorun: Kelime Eşleşmesi Yetersizliği
Bir avukat "haksız fesih" araması yaptığında, eski sistemler içinde sadece bu iki kelimenin geçtiği belgeleri getirir. Oysa "iş akdinin geçerli neden olmaksızın sonlandırılması" ifadesi de aynı hukuki sonucu doğurur ancak arama sonuçlarında çıkmaz.
Literatür Notu: Vaswani et al. (2017) tarafından önerilen Transformer mimarisi, kelimelerin birbirleriyle olan ilişkisini (Attention Mechanism) modelleyerek bu sorunu çözer. [1]
Çözüm: Retrieval-Augmented Generation (RAG)
MindCorp olarak, halüsinasyon riskini (Yapay zekanın uydurması) sıfıra indirmek için RAG mimarisi kullanıyoruz.
- Embedding (Vektörleştirme): Tüm Yargıtay kararları, 1536 boyutlu vektörlere dönüştürülür.
- Indexing: Bu vektörler Pinecone veya Supabase pgvector üzerinde saklanır.
- Retrieval: Kullanıcının sorusu da vektöre çevrilir ve "Cosine Similarity" (Kosinüs Benzerliği) ile en yakın içtihatlar bulunur.
Kosinüs Benzerliği, iki vektör arasındaki açının kosinüsüdür. Açı ne kadar küçükse, metinler anlamsal olarak o kadar benzerdir.
Kod Örneği: Embedding Oluşturma
LexMind motorunun basitleştirilmiş bir Python uygulaması:
Performans Metrikleri
Bu mimari, LexMind'ın sadece kelimeleri değil, hukukçunun "niyetini" anlamasını sağlar. Lewis et al. (2020) çalışmasında belirtildiği gibi, RAG modelleri, statik LLM'lere göre bilgi yoğun görevlerde %20 daha yüksek performans göstermektedir. [2]
Vektör Veritabanı Seçimi
LexMind, iki farklı vektör veritabanı seçeneği sunar:
- Pinecone: Yüksek performanslı, yönetilen servis. Milyonlarca vektörü milisaniyeler içinde tarar.
- Supabase pgvector: PostgreSQL uzantısı. Mevcut veritabanı altyapınızla entegre çalışır.
Vektör boyutu (dimension) seçimi kritiktir. 1536 boyutlu embedding'ler, 768 boyutlu olanlara göre %15 daha yüksek doğruluk sağlar ancak depolama maliyeti 2 katına çıkar.
Sonuç
RAG mimarisi, LexMind'ı sadece bir "arama motoru" değil, bir "hukuki zeka asistanı" haline getirir. Geleneksel yöntemlerle saatler süren içtihat taraması, artık saniyeler içinde tamamlanıyor ve %90'ın üzerinde doğruluk oranına ulaşıyor.
Referanslar
[1] Vaswani, A., et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
[2] Lewis, P., et al. "Retrieval-augmented generation for knowledge-intensive nlp tasks." NeurIPS (2020).