Ana içeriğe atla

Text-to-Speech Teknolojisinin Ayrıntıları

Artık bilgisayar başında ekrana odaklanmadan vakit geçirilebilen bir yer var mı? Belki de bilgisayar başında uzun saatler geçirildiğinden çoğu kişi kendisini yorgun hissetmekte… Bilgisayar başında ekrandan bir şeyler okuyarak, araştırmalar yaparak saatler geçirmek yerine bilgisayarın kendisinin bir şeyler okuması güzel olmaz mıydı :) ? Sadece yapılması gereken gözlerin kapatılarak okunması gerekli şeylerin dinlenilmesi… Bu kadar basit!

text2speech

Text-to-Speech (TTS) teknolojisi yani metinden konuşma sentezleme; bilgisayarda görünen bir metinin dijital veya sentezlenmiş bir ses yardımıyla bu metinin yüksek ses ile bilgisayarda gösterilen kombinasyonunun ifade edilmiş şeklidir. Yani sayısallaştırılmış bir konuşma ya da kaydedilmiş insan sesinin sentezlenmesiyle metinin ses halinin bilgisayar tarafından oluşturulan sesidir.


TTS yazılım araçlarının kullanılabilir geniş bir aralığı mevcut. Shareware programları gibi shareware paylaşım sitelerinde de internet üzerinden kolayca bulunabilir. Text-to-Speech yazarak arama yapılırsa, ucuz ya da ücretsiz edinilebilen birçok yazılımla karşılaşmak da oldukça mümkündür. Genelde shareware ve freeware programlar kendi yetenekleri ile sınırlıdır ancak bu yeni gelişen teknolojiyi denemek için mutlaka yararlı olacak yazılımlardır. Shareware ve ücretsiz bir Text-to-Speech araçları için bazı örnekler şunlardır;

  • Hearlt-Macintosh: Tucows’dan ücretsiz olarak indirilebilir.
  • Natural Reader: Windows için ücretsiz olarak indirilebilir.
  • Freedom Scientific – Jaws: Ekran okuyucuları, görme engelli kullanıcılar için ticari bir TTS yazılımı. Ekran okuyucular metin dosyalarını okumanın yanında aynı zamanda kullanıcı ara yüzüyle kullanıcı imleci ile ekranda gösterilen metin için sesli navigasyon desteği de vermekte.
Okuma zorluğu çekenler, görme bozukluğu olanlar ya da dil desteğine ihtiyaç duyanlar için ayrıca ikinci bir dil desteği sağlayan TTS yazılımları da ticari metin okuyucuları olarak karşımıza çıkmakta. Ticari metin okuyucu örnekleri de şunlardır;

  • Read Please, Inc. tarafından sunulan REadingBar2
  • LCambrium Learning yazılımı olan Kurzweil
  • TextHELP Systems Ltd. tarafından yayınlanan textHelp
  • Freedom Scientific tarafından yayınlanan WYNN
  • Apple Mac OS X: Mac TTS, çeşitli kadın ve erkek sesleri olmak üzere birçok doğal ses kütüphanesine sahip ve içerdiği bu sesler Alex adını taşımakta. Alex, uzun pasajlar okurken nefes alış verişleriyle duraklar ve normal konuşma hızında devam etme özelliğine sahip. Mac TTS, OS X konuşma motorunu destekleyen tüm uygulamalarda ( Mail, iChat… ) çalışıyor.

apple-mac-os-x

Text-to-Speech (TTS) yazılım araçları bir metnin sesli bir hale çevrilmesini sağlarken yazılımlar da kendi içerisinde işlevsellik açısından oldukça farklar göstermekte. Hangi yazılımın en iyi desteği verebileceği TTS yazılımlarının özellikleri hakkında yeterince bilgi sahibi olunmasıyla anlaşılabilir.

TTS Yazılımlarının Özellikleri
  • Dijital Metin Hazırlanması: Tescilli OCR (Optik Karakter Tanıma, OCR – Optical Character Recognition)  yazılımı kullanılarak TTS yazılım içerisinde tarayıcı ile metin kontrollerinin yapılması sağlanır. Bir kitabın taranması ve okunması için TTS yazılımı sayesinde taranan görüntünün OCR yazılımıyla da desteklenmesi sağlanmıştır. Tarayıcılar aynı zamanda dijital baskı malzeme metinleri oluşturmak için de kullanılıyor.
  • Metin Biçimlendirme: Oluşturulan dijital metinlerin biçimlendirilme süreci internetten download yapmaya ya da kelime işlem programına (Word processing program) benzeyerek bilgisayardan tarama yapılmasını sağlar.
  • Yazılanları Anında Seslendirme: Yazılan kelimelerin anında seslendirilmesinin sağlanması için çoğu yazılım programlarında farklı destek düzeyleri mevcuttur.


Dosya Türlerinin Okutulması

RTF ve TXT dosyaları: Dijital metin hazırlama yazılımları ile kolayca RFT ve TXT dosya biçimlerine dönüşüm yapılabilir.
Tescilli Biçim: Kendi tarama özelliği ve OCR yazılımı destekleyen özel TTS programları ile birlikte formatı da dahil olmak üzere çeşitli dosya türleri tescilli şekilde kaydedilebilir.
HTML ve İnternet: Bazı TTS programlar, bir tarayıcı (örneğin Internet Explorer) ile yerel olarak saklanabilen HTML sayfalarının internet üzerinden okunmasını sağlamakta.


Dijital Metin Edinme Adımları

Metin konuşma yazılımları dijital ya da bilgisayar tabanlı metinleri okur. Bazı Text-to-Speech (TTS) programları belgeleri veya Microsoft gibi diğer programlar tarafından oluşturulan dosyaları kolayca okuyabilir olsa da, birçok TTS programı sadece kendi özel formatında oluşturulan dosyaları kabul etmekte. RTF ve TXT formatları birçok farklı yazılım programları tarafından desteklenmekte. TXT formatı özel yazı tipleri veya biçimlendirme ile yapılan kalın, alt çizgili ya da karışık font boyutları ile kolay ve sade bir kullanım ara yüzüne sahip. TXT formatına göre RTF formatı özel yazı tiplerini korumada çok daha iyidir. Bu yüzden mümkün olduğunca dosyaların RTF formatında kaydedilmesi TTS programlarından daha iyi sonuçlar elde edilmesini sağlar.

RTF veya TXT formatını kelime işlem dosyasına çevirmek için;
  • Microsoft Word gibi orijinal olan program dosyası açılır.
  • Dosya menüsünün iletişim kutusundan “Farklı Kaydet” seçeneği seçilir.
  • İletişim kutusunun alt kısmında yer alan menüde RTF ya da TXT seçilir.
  • RTF veya TXT formatındaki yeni belge Text-to-Speech programında açılır.


Gelecekte Text-to-Speech

Dijital dosyaları sese çeviren Text-to Speech (TTS) teknolojisi iki bileşenden yani metin ve teknoloji bileşenlerinden oluşur. Gelecekte TTS teknolojisi ile birlikte;
  • Daha iyi ve daha gerçekçi sentezlenmiş ses motorları olacak.
  • Metin dosyalarını çalabilen sayısallaştırılmış insan sesinin senkronize haliyle karşı karşıya kalınacak.
  • Kitapların kolayca dijitalleştirilmesi yayıncıların ve yazarların haklarının ihlal edilmesine yol açacak.
  • Dijital kitap görüntüleme cihazlarının daha da yaygınlaşmasıyla tüm elektronik kitaplar için koruma standartları geliştirilecek ve böylece yeni bir teknolojinin adımı atılabilecek.
  • Elektronik posta ile gelen yazışmaların telefondan sisteme okutulması yaygınlaşacak böylece yüzlerce gelen elektronik postaları saatlerce okumaya gerek kalmadan dinleyerek yanıtlanacak.
  • TTS teknolojisinin daha da yaygınlaşması ile sesli yanıt sistemleri her alanda kullanılmaya başlayacak.
Lion (4 and a half years) - Panthera leo

Çiğdem TANKER | Eğitim ve Dokümantasyon Uzmanı | Blog Yöneticisi

Yorumlar

  1. Hemen eve gidip Macbook`umun text to speech kismini acip kullanmaya basliyorum :). Peki bir sorum var: bu yazidan sonra youtubeda da arastirma yaptim, cocugun biri macbookta text to speech iceriginde cok farli seyler vardi, benimkinde sadece switch to skype, switch to safari gibi en fala 20 tane varsa onda youtube, yahoo ve birsuru internet sitesi de vardi ve komutlari "mac to youtube" ve "mac to yahoo" olarak veriyodu. Bunlari ayni yapmak icin ekstra bir update mi indirmem lazim yoksa baska yolu var mi?

    YanıtlaSil
  2. Öncelikle tabii ki de Mac OS X için farklı desteklemeleriyle farklı ücretler belirlenmiş.
    Mac OS X Leopard (v. 10.5.1, media); Farklı dil kullanımlarıyla birlikte 199$
    Mac OS X 10.5 Leopard (Family Pack); 5 farklı PC de kullanımı desteklerken tüm paket lisansıyla birlikte 303.9$
    Apple Mac OS X v10.4.6 Tiger; Sadece 1 PC de kullanımı mevcut ve DVD-ROM media desteklemesiyle 139,99$
    Karşılaştırmaları ve tam özellik bilgileri hakkında detaylıca bilgi için http://reviews.cnet.com/macintosh-os/mac-os-x-10/4505-3673_7-32058772.html?tag=contentMain;contentBody linkine göz atmanızı tavsiye ederim :) Umarım yardımcı olabilmişimdir.

    YanıtlaSil
  3. Yalniz ben birsey odememe ragmen yine konusabiliyorum :). Demekki o detayli kontrol icin bu tarz ucretli programlar gelistirmisler. Gayet zekice de su tusa basma olayi olmasa direk muhabbet eder gibi konussak super olcakti. Handsfree diyorum yani :)

    YanıtlaSil
  4. Evet, aynen detaylı özellikler için ekstra ücret söz konusu. Zaten internette de text-to-speech diye arama yapılırsa bir sürü bedava download edilebilir yazılımla karşılaşılıyor. Makalede de örneklerini vermeye çalıştım. :) Hands-free yakında olcaktır, olmalıdır ya da belki vardır ama karşılaşmadım.
    Zaten mikroalgılayıcılar çok gelişti belki iPhone5 da Siri'yi daha da geliştirirler... :D

    YanıtlaSil
  5. Yasasin Apple :), Ya iPad3 yada iPhone , bir tercih yapmam gerekicek :). Siri ozelligi beni kandircak gibime geliyo :)

    YanıtlaSil
  6. Alex ile Siri'yi yakında evlendirirler böylelikle tercih yapmaya da gerek kalmaz :D

    YanıtlaSil
  7. Çiğdemcim, eline sağlık. Çok güzel bir derleme olmuş, hepimiz için öğretici noktaları var. İşin kodlama kısmı ile ilgili örneklerin de ileride olursa çok seviniriz. Ne de olsa çok popüler bir konu, insan kolay motive olur değil mi :)

    YanıtlaSil
  8. hmmm 2. konu başlığı çıktı bile o zaman :)
    İşin kodlama kısmına girince devamı daha da gelsin diye işin içinden çıkamazsam yardımlarınızı bekliyor olacağım ama :)

    YanıtlaSil
  9. Yardım ederiz tabiki ne demek :)

    YanıtlaSil
  10. detaylı özellikler için ekstra ücret söz konusu. Zaten internette de text-to-speech diye arama yapılırsa bir sürü bedava download edilebilir yazılımla karşılaşılıyor.

    YanıtlaSil
  11. Bir çok teknoloji sitesinde böyle bir konu ile karşılaşmadım. Böyle bir konuya değindiğiniz için teşekkürler. Oldukça işime yaradı :)

    YanıtlaSil

Yorum Gönder

Bu blogdaki popüler yayınlar

UML ve Modelleme – Bölüm 4 (Class (Sınıf) Diyagramları)

Bir önceki makalemizde UML modellemede kullanılan ilk diyagram olan Use Case diyagramını incelemiştik. Bu makalemizde nesne tabanlı programlamada kullanılan sınıflar ve sınıfların arasındaki ilişkileri modelleyebileceğimiz diyagramlar olan Class(Sınıf) diyagramlarını inceleyeceğiz. UML’de sınıflar, nesne tabanlı programlama mantığı ile tasarlanmıştır. Sınıf diyagramının amacı bir model içerisinde sınıfların tasvir edilmesidir. Nesne tabanlı uygulamada, sınıfların kendi özellikleri (üye değişkenler), işlevleri (üye fonksiyonlar) ve diğer sınıflarla ilişkileri bulunmaktadır. UML’de sınıf diyagramlarının genel gösterimi aşağıdaki gibidir. Şekil 1. Class Diyagram Şekil1’de görüldüğü üzere bir dikdörtgeni 3 parçaya bölüyoruz. En üst bölüm sınıf adını, orta kısım özellik listesini (üye değişkenler) ve en son kısım, işlev listesini (üye fonksiyonlar) göstermektedir. Çoğu diyagramlarda alt iki bölüm çıkarılır. Genelde tüm özellik ve işlevler gösterilmemektedir. Ama

Yazılım Maliyet Tahmineleme Tecrübeleri

Yazılım mühendisliğinde maliyet hesabı her zaman problem olmuştur. "Bu iş kaç Adam/Gün tutar?" sorusuyla sıkça karşılaşıyoruz. Adam/gün veya Adam/ay ölçütleri bir kaynağın/kişinin belirtilen zaman dilimindeki iş gücü anlamına gelir. Tabi bu noktada yine kafa karışıklıkları başlar. 6 A/G'lik bir işi hızlandıralım diye 2 kişi ile yapmaya çalışsak ve kaynak/kod, modül, altyapı, insan vb. her bir şeyi bir kenara bıraksak, matematiksel basit formülle 6/2=3 A/G'de biter? Gerçek hayat böyle değil, öncelikle bunu anlamamız lazım. Hep şu örnek verilir; "Aynı bebeği 2 kadın birlikte daha kısa sürede doğurur mu?" Eğer bunun cevabı "Evet" ise (veya bir gün böyle bir durum ortaya çıkarsa), yazımı değiştirmem gerekecek:) Mevzu gerçekten derin...Maliyet hesabı; bulunduğunuz firmanın yazılım süreçlerini hangi methodlarla uyguladığına, ilgili işin o dönemdeki aciliyetine, (şirket yönetiminin baskısına:)) vb. bir çok duruma bağlı olabilir. Örneğin; bizim firmada e

UML ve Modelleme – Bölüm 3 (Use Case Diyagramlar)

Önceki iki makalemizde ( 1 , 2 ) UML’e genel olarak değinip ve modellemede kullanacağımız dokuz diyagram hakkında bilgiler vermiştik. Bu makalemizde Use Case diyagramından detaylı bahsedeceğiz. Öncelikle, genel Use case diyagramının tanımını hatırlayalım. “Bir kullanıcı ve bir sistem arasındaki etkileşimi anlatan senaryo topluluğudur.” Ivar Jacobson Senaryo tanımı için der ki: “Aktörle sistem arasında gerçekleştirilen, sonucunda aktöre farkedilir getirisi/ faydası oluşan etkileşimli diyalogdur. ” UML Use Case Diyagramları  sistemin işlevselliğini açıklamak amacıyla kullanılır. Sistemin birbirinden ayrı özelliklerinin detaylarını göstermekten ziyade, Use Case Diyagramlar, tüm mevcut işlevselliği göstermek için kullanılabilir. Buradaki en önemli noktalardan biri,   Use Case Diyagramlar temelde sequence diyagram ve akış diyagramlarından farklıdır. Use Case diyagramlar dört ana elemandan oluşmaktadır. Aktörler , Sistem (Proje kapsamını belirtir) , Use Caseler ve bunlar ara