Ses kaydı

Digital ses kayıt teknolojisi

Günümüzde birçok büyük şirkette telefonları robotlar cevaplamaktadır. Robot tarafından verilen yönlendirici açıklamalara göre bazı butonlara basılarak istenilen telefon bağlantıları gerçekleştirilebilmektedir. Gelişen teknolojiyle beraber herhangi bir butona basılmadan bazı anahtar kelimeleri söyleyerek istenilen yere bağlanmakta mümkün hale gelmiştir.

Ses tanıma yazılımları bunun dışında ev ve işte farklı amaçlar içinde kullanılabilir. Bazı yazılımlar ses komutlarıyla bilgisayarın açılıp kapanmasını kontrol ederken bazı programlar ise söylenen sözleri yazıya dökebilmekte ve e-posta olarak gönderebilmektedir. Bu sayede kollarını veya gözlerini kaybetmiş yazma konusunda sıkıntı yaşayan insanlara çok büyük kolaylıklar sağlanmış olacaktır.

Bu konudaki güncel programlar iki ana başlığa ayrılır

Dar Kelime Hazinesi / Çoklu Kullanıcı : Bu sistemler otomatik telefon cevaplama için idealdir. Kullanıcı değişik aksan ve konuşma hızında konuşabilir. Sistem bunları çoğu zaman anlayacaktır. Bununla beraber bu sistemler dar bir kelime hazinesine sahiptir.

Geniş Kelime Hazinesi / Sınırlı Kullanıcı : Bu sistemler az sayıda insanın kullandığı ticari uygulamalar için idealdir. %85 doğrulukla çalışırken on binlerce sözcükten oluşan bir kelime hazinesine sahip olabilirler.

Ses tanıma sistemleri ilk zamanlarında en doğru çalışma için kesik kesik konuşma ile hızlı konuşma arasında bir seçim yapmak zorunda kalmışlardır. Kesik kesik konuşulduğunda programların bunları anlaması çok daha kolay olacaktır. Bunun yanında birçok kişi normal konuşma hızında konuşmayı tercih eder. Buda konuşma içinden kelimelerin ayırt edilmesini zorlaştırır. Ancak yeni sistemler hızlı konuşmayı algılayacak yeterliliğe de ulaşmıştır.

Sözcüklerin Bilgiye Çevrilmesi
Kayıt için ses örneklemesiSözcüklerin yazıya veya bilgisayar komutuna çevrilmesi için bilgisayarda bazı karmaşık adımlardan geçer. Konuştuğumuz zaman havada bir titreşime neden oluruz. Analog-Dijital çeviriciler ( ADC ) bu analog dalgayı bilgisayarın anlayabileceği dijital bilgiye çevirirler. Ses dalgasının frekansından alınan bir örnek sayısala çevrilir böylece örnekleme yapılmış olur. Örnekleme oranının yüksek olması daha yüksek ses kalitesi alınmasını sağlar. Kullanılacak filtre devreleriyle sayısala çevrilen sinyalden istenmeyen gürültüleri silinir . Ayrıca bu filtreler sesi normalleştirir ve belli bir ses seviyesine ayarlarlar.

Ses kaydı ses tanıma işlemiDaha sonra ses saniyenin birkaç yüzde birine veya binde biri olacak şekilde parçalara bölünür. Program bu küçük parçaları uygun dildeki bilinen ses birimleriyle karşılaştırır. Ses birimleri bir dildeki en küçük parçalardır. Türkçe okunduğu gibi yazılan bir dil olduğu için alfabesindeki harf sayısı kadar ses birimine sahiptir. Bu sayı İngilizce de kabaca 40 tanedir.

Sonraki adım göreceli olarak basit olmasına rağmen aslında başarması en zor ve üzerine en çok çalışılan kısımdır. Program ses birimlerini önündeki ve arkasındaki ses birimleriyle karşılaştırır. Bu bağlamsal yapıya göre geniş kütüphanesindeki bilinen sözcüklerle, yapılarla ve cümlelerle karşılaştırır. Program daha sonra kullanıcının ne demiş olabileceğini hesaplayarak bir çıktı verir.

Ses Tanıma ve İstatistik Model
İlk ses tanıma sistemlerinde sistemler gramer veya söz dizim kurallarına göre tanımlama yapmaya çalışıyorlardı. Eğer söylenen sözcük bir kurala, gramer yapısına uyuyorsa program bunun hangi sözcük olduğunu bulabiliyordu. Bununla beraber aksan, şive ve kişisel özellikler kişiden kişiye büyük değişiklikler oluşturduğu için sonuçlarda büyük hatalar oluşmaktaydı.

Günümüzde ise ses tanıma sistemleri daha güçlü ve komplike bir istatiksel modellemeyi kullanmaktadırlar. Bu sistemler sonuçlar için olasılıkları ve matematik fonksiyonları kullanırlar. Bu metotlar karmaşık matematik fonksiyonları içerir. Bilinen bilgiler yardımıyla gizlenen bilgiyi bulurlar.

İstatistiksel ses modellemeEn sık kullanılan model Hidden Markov modelidir. Yapılan işlem yakından incelenecek olursa bu modelde her bir ses birimi zincirdeki bir halka gibidir ve bu halkaların birleşimi kelimeyi oluşturur. Zincirde daha sonra gelebilecek en olası ses birimlerine dallandırma yapılarak karşılaştırma gerçekleştirilir. Bu işlem süresince ses birimlerine dahili bir sözlüğe veya kullanıcıya göre bir olasılık skoru verilir.

Bu işlem cümleler ve deyimler için daha da karmaşıktır ( çünkü sistem hangi sözcüğün bitip hangisinin başladığına da karar vermelidir. ) Özellikle hızlı okunduğunda hemen hemen aynı sesleri veren cümleler problem yaratmaktadır. 60000 sözcüklük bir kelime hazinesi bulunan bir programda ardışık olarak söylenen 3 kelime için 256 trilyon olasılık bulunacaktır. Herhangi bir bilgisayarın yardım olmaksızın bu işlemi gerçekleştirmesi olanaksızdır. Bu yüzden ses tanıma programlarının eğitilmesi gerekmektedir. İstatiksel sistemlerin maksimum verime ulaşabilmesi için binlerce saatlik bir yazı ve ses veri tabanına sahip olması gerekmektedir. Böylece tanımlama işlemlerini daha hızlı bir şekilde ve daha yüksek bir doğrulukta yapabilir.

Ses Tanıma Sistemlerinin Zayıflıkları ve Kusurları
Hiçbir ses tanıma sistemi %100 mükkemmel sonuç vermez, birçok faktör başarıyı azaltabilir. Bu faktörlerden bazıları teknoloji gelişmesine rağmen devam etmektedirler.
* Düşük sinyal / gürültü oranı : Program kelimeleri iyi vurgulanmış bir şekilde duymak ister. Sese karışan ekstra bir gürültü ses kalitesini azaltacaktır. Kalitesiz mikrofon kullanımı, kalitesiz ses kartı kullanımı, akustik açıdan uygun olmayan ortam, arka plandan yoğun ses gelen yerler, diğer elektrikli cihazların ürettiği gürültüler, sinyal / gürültü oranını azaltır ve kaliteyi düşürür. Seste bir vızıldama olarak kendini gösterir.

* Üst üste Binen Sesler : Şu anki sistemler birçok kullanıcıdan eş zamanlı olarak gelen kelimeleri ayırt etmekte zorlanır. Bu yüzden çok kişinin aynı anda konuştukları ortamlarda ses tanımanın kullanılması tatmin edici sonuçlar vermez.

* Bilgisayar gücünün yoğun kullanımı : Ses tanıma için gerekli olan istatiksel modelleme çalışırken bilgisayar işlemcisine büyük bir yük biner. Bu yük bilgisayarı fazlasıyla yorar. Gelişen bilgisayar işlemcileriyle bu sıkıntı azalsa da yine de göz önünde bulundurulması gereken bir faktördür.

2 thoughts on “Ses kaydı

  1. Bilgisayarımda 8 kanal 200 frame 9808 model kart var üzerinde mikrofon girişi yok. bununla bilgisayarımın mikrofon girişini kullanarak ses kayıt da yapabilir miyim.

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir