Summary: | In the dairy industry, datasets pertaining to the milk recording of cows can be extremely large and complex, especially in the Province of Quebec where management and feed information are also collected for on-farm advising. Any subsequent analysis of these data for strategic (or even tactical) decision making is often impeded by the transactional nature of the existing databases, whose main purpose is often to produce regular and routine reports. Since conventional database management systems mostly support simple and short queries and flat views of data, they are less than ideal for the analysis of large datasets, particularly those which contain data of varying dimensions. In recent years, the high value of multidimensional data has been recognized as an important resource in both the academic and business communities. The wider recognition of data warehousing and On-Line Analytical Processing (OLAP) applications has highlighted their importance. The dairy industry is an excellent example of an area where the analysis of its data, and the subsequent decision-making process, could significantly benefit from the implementation of data warehousing and OLAP techniques. While these technologies have already been used to good advantage for the analysis of business data, the unusual nature of dairy data poses certain challenges which are addressed in this study. These include selection of a data model which best suits the hierarchical nature of the data, selection of the highest and lowest hierarchy for data aggregation, and the definition of functions (pre-aggregation) to improve query performance. In order to investigate the use of an OLAP system for Quebec milk-recording data, a number of multidimensional data models were compared. The star, snowflake and fact-constellation schemes each displayed advantages and disadvantages for the particular data (and their structure) in this study. The star schema did not support many-to-many relationships between fact and dimension tables, and creating combination dimensions (e.g., herd_cow) with a key (such as herd_cow_testdate), resulted in an unmanageable record length in the dimension table, thus rendering the model impractical. Many-to-many relationships were captured by a snowflake schema, by normalizing herd, cow and test day dimensions. In order to achieve an exact aggregation of milk components on each test day and for each cow, a herd_cow bridge dimension was implemented within a snowflake model which had a composite key of herd and cow. The lowest granularity level was test day and the highest was herd, but data could also be rolled up to regions. Queries could subsequently be directly executed on a cube structure, since data were stored in a multidimensional online analytical processing (MOLAP) server. All of the pre-aggregation was typically based on the milk-production test date, but could also support analysis at the individual cow level. The cube structure supports "drill down", "roll up", and "slice and dice" operations as an aid to the data analyses. Data could also be exported to Excel pivot tables as a means of simple overview reporting. It is felt that the examination of these technologies, and their future implementation, may lead to increased value for the dairy industry as their large quantities of data are explored for better management and strategic decision making. === Les ensembles de données de contrôle laitier peuvent être extrêmement vastes et complexes, en particulier dans la province de Québec où des données d'alimentation sont également collectées pour le service conseil. Une fois ces données collectées, leur analyse pour la prise de décision est souvent entravée par la nature transactionnelle des bases de données existantes, dont le principal objectif est de produire des rapports routiners. Puisque les systèmes classiques de gestion de bases de données servent principalement à des requêtes simples et courtes et à des vues simplifiées de données, ils sont loin d'être idéaux pour l'analyse de grands ensembles de données, en particulier ceux qui contiennent des données avec de multiples dimensions. Dans les dernières années, les données multidimensionnelles ont été reconnues comme une ressource importante tant dans les divers milieux d'affaires. Une plus large reconnaissance de l'entreposage de données et de techniques d'analyse comme le traitement analytique en ligne (traduction de On-Line Analytical Processing ou OLAP) a aussi mis en évidence l'importance de ces données. L'industrie laitière est un excellent exemple d'un domaine où l'analyse de ses données et les prises de décision qui en découlent pourraient grandement bénéficier de la mise en œuvre d'entrepôts de données et de techniques OLAP. Bien que ces technologies aient déjà été utilisées pour l'analyse de données dans certaines autres industries, la nature des données laitières pose certains défis qui sont abordés dans cette étude. Ceux-ci comprennent la sélection d'un modèle de données qui convient le mieux à la nature hiérarchique des données, la sélection des niveaux hiérarchiques les plus élevés et les plus bas pour l'agrégation des données, et la définition des fonctions de pré-agrégation pour améliorer les performances des requêtes. Afin d'étudier l'utilisation d'un système OLAP pour les données de contrôle laitier, un certain nombre de modèles de données multidimensionnelles ont été comparés. Les modèles en étoile, flocon de neige et constellation ont chacun démontré des avantages et des inconvénients pour afficher les données (et leur structure) dans cette étude. Le schéma en étoile n'a pas supporté les relations plusieurs-à-plusieurs entre les tables de faits et de dimension, et la création de dimensions combinées (e.g., troupeau_vache_date-de-test) avec une clé a entraîné une longueur d'enregistrement dans la table de dimension qui était très difficile à gérer, rendant ainsi le modèle impraticable. Les relations plusieurs-à-plusieurs ont été capturées par un schéma en flocon, en normalisant les dimensions troupeau, vache et date de test. Afin de réaliser une agrégation exacte des composants du lait à chaque jour de test et pour chaque vache, une dimension pont troupeau_vache a été développée au sein d'un modèle en flocon de neige qui avait une clé composée troupeau-vache. Le plus bas niveau de granularité était la date de test et le niveau le plus élevé était le troupeau, mais les données pouvaient également être agrégées au niveau de la région. Une fois le modèle implanté et les données stockées sur le serveur suivant une approche multidimensionnelle OLAP (MOLAP), les requêtes pouvaient ensuite être exécutées directement sur la structure de cube. Toutes les pré-agrégations ont été généralement fondées sur la date de test, mais elles pouvaient également supporter l'analyse au niveau de chaque vache. La structure du cube permettait les opérations d'analyse par désagrégation (drill-down), agrégation (drill-up) et blocs de données (slicing). Les données pouvaient également être analysées dans des tableaux croisés dynamiques à l'intérieur d'un chiffrier électronique. L'utilisation éventuelle de ces technologies par l'industrie laitière pourrait accroître la valeur du grand volume de données disponibles et augmenter leur utilisation pour améliorer la gestion et la prise de décision stratégique.
|