Daten zu Jobinseraten
Die wichtigste Datengrundlage sind Jobinseratedaten von der Plattform Jobfeed der niederländischen Firma Textkernel. Jobfeed durchsucht täglich und automatisiert das Internet nach neuen Jobs. Gefundene Stellenangebote werden automatisch in Jobfeed extrahiert, kategorisiert und in die Datenbank aufgenommen.
Mit einer sogenannten “Spider”- Technologie sammelt Jobfeed täglich Jobs aus dem Internet. Jobfeed handhabt zwei Spidermethoden: Breite “wild” Spider und zielgerichtete Spider. Der breite Spider arbeitet automatisch und dynamisch und durchsucht Millionen von Websites kontinuierlich nach Jobs. Zielgerichtete Spider werden eingesetzt, um spezifische Websites zu durchsuchen und die Jobs zu speichern. Dazu gehören Jobbörsen, Zeitungen, Seiten von großen Arbeitgebern und auch Vermittlern. Diese Jobs werden täglich mit speziell entwickelten Scripts gesammelt.
Die Klassifikation beinhaltet die Überprüfung, ob eine bestimmte Website ein Stellenangebot enthält oder nicht. Auf Basis von textbasierten Merkmalen wird mit Hilfe von fortschrittlicher Sprachtechnologie festgestellt, ob diese Website zugelassen wird oder nicht. Diese Klassifikation ist darauf zugeschnitten, so viel relevante Ergebnisse wie möglich zuzulassen.
Danach werden die gesammelten Daten normalisiert. Normalisierung bedeutet, dass der extrahierte Inhalt mittels einer Standardeinteilung kategorisiert wird. Dies macht es einfacher, mit diesen Jobs zu arbeiten und Analysen zu erstellen. Normalisierungen finden bei Berufen, Ortsnamen, Ausbildungsniveau und Organisation statt.
Da Jobs oft auf vielen verschiedenen Websites veröffentlicht werden, müssen sie verglichen und dedupliziert werden. Doppelte Stellenangebote werden jedoch nicht gelöscht. Auf diese Art und Weise kann man aus Jobfeed ableiten, wie viele Unikate veröffentlicht wurden und auf wie viel verschiedenen Quellen ein Job veröffentlicht wurde.
Die somit gewonnen Daten bilden die Basis für weiterführende Analysen und die Darstellungen des JobBarometers. Die Daten werden kontinuierlich erfasst. Aufgrund der Prognose und der redaktionellen Arbeit werden Daten für das JobBarometer jedoch in jährlichen Abständen aktualisiert.
Zeitlich kann es zu Revisionen kommen, da das Berufsinformationssystem des AMS ein dynamisch wachsendes ist. Berufsdefinitionen verändern sich, neue Berufe entstehen, ältere fallen unter Umständen weg. Um diesem Umstand Rechnung zu tragen, wird der Classifier immer wieder neu trainiert, wodurch es auch zu Umbrüchen in der Zeitreihe der Berufe kommt. Um konsistente Zeitreihen zu gewährleisten, erfolgt in unregelmäßigen Abständen eine Historisierung, wo auch alte Daten mit dem neuen System klassifiziert werden, wodurch sich im JobBarometer dargestellte Daten über die Zeit ändern können.
Redaktion und Literatur
Zusätzlich zu den Jobinseraten fließen auch Studien und andere Quellen aus der Literatur als qualitative Informationen in die Analysen ein. Für Berufsobergruppen werden schließlich auch textuelle Arbeitsmarkteinschätzungen verfasst (zu Konjunktur-Umfeld, übergreifenden Trends sowie zusammengefassten Arbeitsmarkttrends). Dafür wird auf die interne Wissensdatenbank der JOANNEUM RESEARCH Forschungsgesellschaft mbH zurückgegriffen, welche Informationen zum aktuellen (inter-)nationalen sowie branchenspezifischen Konjunktur-Umfeld, zu arbeitsmarktrelevanten übergreifenden Trends und Ereignissen und zu Berufsuntergruppen enthält. Zudem wird auf ein kollaboratives Literaturmanagement zurückgegriffen, um Quellen zitierfähig zu verwalten.