WekaNieuw
| Versie | 3.5 |
| Officiële website | http://www.cs.waikato.ac.nz/ml/weka/ |
| Licentiemodel | GPL v3 |
| Behoort tot de domeinen | Datamining
|
| Getest in | september 2011 |
Beschrijving
Weka is een collectie van machine learning algoritmes voor data mining, ontwikkeld door de universiteit van Waikato. Via een straightforward grafische interface kunnen deze algoritmes gebruikt en geparametriseerd worden. Weka bevat onder andere tool-support voor data pre-processing, classification, regression, clustering, association rules, en visualisatie. Aanbevolen literatuur om inzicht te verwerven in deze algoritmes en hoe ze in Weka te gebruiken is het boek "Data Mining - Practical Machine Learning Tools and Techniques", een boek geschreven door de makers van Weka.
De Weka omgeving is een geschikt platform om te experimenteren met datamining algoritmes en de parameters van een algoritme te fine tunen. Bovendien kan elk algoritme dat in de gebruikersinterface beschikbaar is ook aangeroepen worden in Java code. Op deze manier kunnen ontwikkelaars makkelijker het juiste algoritme kiezen om het dan vervolgens op de juiste manier te gebruiken in de eigen code.
De grootste beperking van Weka is de beperkte set van data bronnen die gebruikt kunnen worden: CSV files, eigen ARFF files en relationele databases (via JDBC connectoren). Het biedt geen ondersteuning voor files afkomstig van andere data processing pakketten (Excell, SAS, SPSS). Een andere beperking is het ontbreken van de mogelijkheid om bij het openen van CSV files aan te geven wat het scheidingsteken is, enkel de standaard ',' wordt ondersteund.
![]() |
| Weka's basis gebruikersinfterface |
Weka's gebruikersinterface biedt vier basismogelijkheden:
- Explorer, de basiscomponent die het mogelijk maakt om datamining algoritmes uit te voeren op een data-set.
- Experimenter, om het verschil tussen verscheidene datamining algoritmes te benchmarken en te evalueren welk algoritme het meest geschikt is voor een bepaald probleem.
- KnowledgeFlow, een grafische modelleertool die het mogelijk maakt om data-preprocessing en data-mining stappen met elkaar te verbinden in een workflow. Deze workflow kan men dan saven en later op nieuwe data herhalen.
- Simple CLI, een command-shell interface die expert-users toelaat om Weka commandos aan te roepen via een command-line taaltje
We beschrijven hieronder de belangrijkste mogelijkheden van de explorer, dewelke de basis van Weka omvat: het uitvoeren van datamining algoritmes.
|
||
| Data preprocessing |
In de preprocess tab van de Weka explorer kan je data inladen uit files en relationele databases. Vervolgens worden de attributen van de ingeladen data weergegeven en per attribuut kan je een bar-chart weergeven die weergeeft hoe de waarden van een bepaald attribuut verdeeld zijn. Op de ingeladen data kan je ook verscheidene filters toepassen (een aantal filters zijn in bovenstaande pop-up weergegeven). Zo kan je de waarden van een attribuut discretiseren of nominale waarden omzetten naar binaire waarden.
|
||
| Data classification |
In de classify tab kan men verscheidene datamining algoritmes uitvoeren. Dit doet men door op 'choose' te klikken, wat een lijst met mogelijke algoritmes weergeeft. Een voorbeeld zijn de decision tree-algoritmes, zoals J48, dewelke het mogelijk maken om decision tree models te fitten uit de opgegeven data. Andere bekende algoritmes zijn Bayesian Networks en Decision Rules. Na het uitvoeren van elk algoritme wordt de output (accuraatheid, confusion matrix, statistische gegevens) weergegeven in het rechter window. Voor elk algoritme kunnen ook parameters worden ingesteld worden door na het selecteren van het algoritme te klikken op de algoritme naam.
|
||
| Cluster tab |
Weka bevat ook een cluster tab (zie boven), waar men kan experimenteren met verscheidene clustering algoritmes (zoals het k-means algoritme). De associate tab bevat algoritmes om associatie regels in een dataset te vinden (dit kan onder andere door een implementatie van het apriori algoritme). Onder select attributes kan men feature selection methodes oproepen die als doel hebben irrelevante attributen uit een dataset te verwijderen. Tenslotte biedt de visualize tab een grafische weergave van de correlatie tussen de verscheidene attributen (door middel van een correlatie matrix).




