Türkiye İstatistik Kurumu (TÜİK), internet üzerinden satışı her geçen gün artan bazı ürünlerin fiyatını da enflasyon hesaplamasında dikkate alacak.
AA muhabirinin TÜİK'ten edindiği bilgiye göre, internet üzerinden mal ve hizmet satın alımları her geçen gün daha da yaygınlaşırken istatistik ofislerinin söz konusu zengin veri kaynağını göz ardı etmemesi önem taşıyor.
İnternet fiyatlarının TÜFE'ye entegre edilmesinin gerekli hale geldiği değerlendirilirken, böylece istatistik üretiminde veri derleme sıklığının daha yüksek ve daha büyük hacimli olması hedefleniyor. Söz konusu verilerin mevcut yapıyı geliştirmek ve yeni değişkenleri elde etmek için büyük bir fırsat sunduğu düşünülüyor.
Otomatik olarak bir web kaynağından veri derlemeye veri kazıma (web scraping) deniliyor. Bu genellikle bir kazıyıcı (scraper) yardımıyla oluyor ve daha gelişmiş istatistiksel analizler için ham veriyi derleyip temizliyor.
Otomatik veri kazıma teknolojilerini kullanarak günlük, saatlik ve hatta daha yüksek sıklıkta veri yapısıyla optimal veri derleme stratejileri elde edilebiliyor. Böylece, detaylı metaveri bilgileri derlenerek hesaplamalar geliştirilebiliyor. Bu yöntemde genel amaç, web sitesinde yer alan HTML formatındaki bilgiyi analiz ve hesaplamalar için daha uygun yapılara dönüştürmek.
Bu yöntemde, uygun web sitesi seçimi için bazı kriterler de aranıyor. Bunun için sitenin temsiliyet, hacim, içerik kaynağı, sürdürülebilirliği, teknik özellikleri, metaveri ve hedef değişkenleri gibi unsurlara bakılıyor.
TÜİK, internetten veri kazıma çalışmaları kapsamında 2020 yılında TÜBİTAK ile ortaklaşa TÜİK Büyük Veri İleri Analitik Projesi'ni gerçekleştirdi. Veri kaynakları olan firmalardan gerekli izinler alınarak, internetten veri kazıma fiyat derleme yönteminin altyapısı hazırlandı.
Proje sonucu gelen ham veri, TÜİK teknik personeli tarafından analiz edildi, hatalar belirlendi ve fiyat derlenebilecek hale getirildi. Daha sonra verinin tablo formatında, fiyat takibi yapılabilir ve veri analizine uygun olması sağlandı.
Beyaz eşya, elektronik ürünler, mobilya, birinci el otomobiller ve otobüs bileti fiyatları için 2022 yılı itibarıyla internet üzerinden derlenen fiyatlar endeks hesaplamalarında kullanılacak. Aralık ayı temel alınarak takibi kararlaştırılan ürünlerin fiyatı, ürün kodu ya da ürün barkodu üzerinden yıl boyunca takip edilecek. Böylece aynı kalitedeki ürünlerin fiyat gelişimleri endeks hesaplamalarına yansıtılacak. Bu kapsamdaki fiyatların sayısı aylık yaklaşık 20 bin civarında.
Veri kazıma yoluyla elde edilen bilgiler günlük olarak takip edilerek fiyat değişim analizleri de yapılıyor. Ayrıca fiyatı gelen ürünlerin satışının devamlılığı da fiyat derleme dönemi içindeki fiyat sayıları kontrol edilerek gözleniyor.
Gelecek dönemde yeni sisteme adapte edilen ürün fiyatlarının günlük olarak veri akışı sağlanacak, analizleri yapılacak ve diğer veri derleme yöntemleri olan barkod ve alan verisiyle birlikte fiyat derleme döneminin sonunda endeks hesaplamalarında kullanılacak. TÜFE kapsamında derlenen aylık fiyatların yaklaşık olarak yüzde 40-45'i barkod ve internetten veri kazımayla elde edilmiş olacak ve böylece veri, kaynağında mümkün olan en doğru haliyle derlenecek.
TÜİK, bu kapsamda en az maliyetle en doğru veriyi elde edebilecek. Bu hedef doğrultusunda diğer ülke çalışmaları da dikkate alınarak barkod ve internet verilerinin kullanımının yaygınlaştırılması öngörülüyor.
AA muhabirinin TÜİK'ten edindiği bilgiye göre, internet üzerinden mal ve hizmet satın alımları her geçen gün daha da yaygınlaşırken istatistik ofislerinin söz konusu zengin veri kaynağını göz ardı etmemesi önem taşıyor.
İnternet fiyatlarının TÜFE'ye entegre edilmesinin gerekli hale geldiği değerlendirilirken, böylece istatistik üretiminde veri derleme sıklığının daha yüksek ve daha büyük hacimli olması hedefleniyor. Söz konusu verilerin mevcut yapıyı geliştirmek ve yeni değişkenleri elde etmek için büyük bir fırsat sunduğu düşünülüyor.
Otomatik olarak bir web kaynağından veri derlemeye veri kazıma (web scraping) deniliyor. Bu genellikle bir kazıyıcı (scraper) yardımıyla oluyor ve daha gelişmiş istatistiksel analizler için ham veriyi derleyip temizliyor.
Otomatik veri kazıma teknolojilerini kullanarak günlük, saatlik ve hatta daha yüksek sıklıkta veri yapısıyla optimal veri derleme stratejileri elde edilebiliyor. Böylece, detaylı metaveri bilgileri derlenerek hesaplamalar geliştirilebiliyor. Bu yöntemde genel amaç, web sitesinde yer alan HTML formatındaki bilgiyi analiz ve hesaplamalar için daha uygun yapılara dönüştürmek.
Kriterlere göre web sitesi seçiliyor
Bu yöntemde, uygun web sitesi seçimi için bazı kriterler de aranıyor. Bunun için sitenin temsiliyet, hacim, içerik kaynağı, sürdürülebilirliği, teknik özellikleri, metaveri ve hedef değişkenleri gibi unsurlara bakılıyor.
TÜİK, internetten veri kazıma çalışmaları kapsamında 2020 yılında TÜBİTAK ile ortaklaşa TÜİK Büyük Veri İleri Analitik Projesi'ni gerçekleştirdi. Veri kaynakları olan firmalardan gerekli izinler alınarak, internetten veri kazıma fiyat derleme yönteminin altyapısı hazırlandı.
Proje sonucu gelen ham veri, TÜİK teknik personeli tarafından analiz edildi, hatalar belirlendi ve fiyat derlenebilecek hale getirildi. Daha sonra verinin tablo formatında, fiyat takibi yapılabilir ve veri analizine uygun olması sağlandı.
Ürünlerin fiyatı yıl boyunca takip edilecek
Beyaz eşya, elektronik ürünler, mobilya, birinci el otomobiller ve otobüs bileti fiyatları için 2022 yılı itibarıyla internet üzerinden derlenen fiyatlar endeks hesaplamalarında kullanılacak. Aralık ayı temel alınarak takibi kararlaştırılan ürünlerin fiyatı, ürün kodu ya da ürün barkodu üzerinden yıl boyunca takip edilecek. Böylece aynı kalitedeki ürünlerin fiyat gelişimleri endeks hesaplamalarına yansıtılacak. Bu kapsamdaki fiyatların sayısı aylık yaklaşık 20 bin civarında.
Veri kazıma yoluyla elde edilen bilgiler günlük olarak takip edilerek fiyat değişim analizleri de yapılıyor. Ayrıca fiyatı gelen ürünlerin satışının devamlılığı da fiyat derleme dönemi içindeki fiyat sayıları kontrol edilerek gözleniyor.
İnternet verisinin kullanımı yaygınlaştırılacak
Gelecek dönemde yeni sisteme adapte edilen ürün fiyatlarının günlük olarak veri akışı sağlanacak, analizleri yapılacak ve diğer veri derleme yöntemleri olan barkod ve alan verisiyle birlikte fiyat derleme döneminin sonunda endeks hesaplamalarında kullanılacak. TÜFE kapsamında derlenen aylık fiyatların yaklaşık olarak yüzde 40-45'i barkod ve internetten veri kazımayla elde edilmiş olacak ve böylece veri, kaynağında mümkün olan en doğru haliyle derlenecek.
TÜİK, bu kapsamda en az maliyetle en doğru veriyi elde edebilecek. Bu hedef doğrultusunda diğer ülke çalışmaları da dikkate alınarak barkod ve internet verilerinin kullanımının yaygınlaştırılması öngörülüyor.