basi di dati numerici per machine learning

Moderatore: gianluca

MLbotanica

basi di dati numerici per machine learning

Messaggio da MLbotanica »

Buongiorno a tutti, mi chiamo Massimo e sono un nuovo utente del Forum Acta Plantarum.

E' molto bello vedere che esiste una comunità molto attiva nella catalogazione della flora in generale, è una passione che mi ha sempre interessato sin da quando ho iniziato a camminare tra le stupende Alpi piemontesi e gli Appennini liguri.

A tal proposito chiedo alla comunità se c'è qualcuno in grado di darmi indicazioni in merito alla possibilità di avere dei data set per la catalogazione automatica della flora (già catalogata) con la tecnologia del machine learning.
Forse, per chi come me sta ahimé ancora studiando, conosce il caso "iris.csv", dove sono indicati valori medi delle specie Setosa, Virginica e Versicolor (larghezza, lunghezza dei petali e dei sepali).

Qualcuno ha già affrontato l'argomento? Oppure è a conoscenza di banche dati simili?

Ringrazio anticipatamente.
Massimo
Avatar utente
Daniela Longo
Amministratore
Messaggi: 15972
Iscritto il: 22 nov 2007, 12:57
Nome: Daniela
Cognome: Longo
Residenza(Prov): Genova (GE)

Re: basi di dati numerici per machine learning

Messaggio da Daniela Longo »

Ciao,
intanto mi presento: sono Daniela, ho lavorato per almeno 20 anni anche su algoritmi di riconoscimento automatico (di suoni nel mio caso, ma il concetto non cambia); ora gestisco la parte informatica del nostro database IPFI.
Da queste basi, parto dicendoti che sono molto scettica quando sento parlare di riconoscimento automatico.
Per quanto riguarda il riconoscimento di specie botaniche, ci sono un'infinità di tentativi, non so quanto efficaci (scrivi "flower recognition online" o l'equivalente in qualsiasi altra lingua e ne avrai paginate).
In genere si basano sul riconoscimento di immagine, quindi 2 piante "simili" possono facilmente essere confuse (qualche volta mi sono divertita ad imbrogliarne qualcuno)...

Oppure puoi riferirti al progetto Dryades (http://dbiodbs.units.it/carso/chiavi_pub00) che ha preparato decine di chiavi, sempre per aree limitate e sempre per un numero limitato di specie o ancora al progetto francese TelaBotanica.
Poiché entrambi sono progetti seri non promettono i miracoli...

Il vero problema è avere una sistematica che varia continuamente (ridefinizione di entità tassonomiche, arrivo di nuove alloctone,...) e quindi una eventuale base dati deve essere aggiornata, se non quotidianamente, almeno con base periodica. E non significa solo cambiare la tassonomia, ma reperire i nuovi caratteri discriminanti che quasi sicuramente non coincidono più con i precedenti e che quindi ti costringono a rivoluzionare la base dati stessa.
E poi ci sono i gruppi critici per i quali c'è bisogno del parere dell'esperto o comunque di analisi di caratteri difficili da descivere o di cui è richiesta la misura a livello di popolazioni: Hieracium, Taraxacum, Rubus, Carduus, Cotoneaster, Pilosella, Ophrys,... Il nuovo Pignatti ne elenca 49, ma non sono i soli perché dal suo elenco mancano Limonium, Rosa, Erysimum e chissà quanti altri.
Per questi una o più foto non bastano e spesso le chiavi dicotomiche dovrebbero consentire di distinguere caratteristiche medie di una popolazione e non del singolo individuo.
Nell'ultimo volume della nuova Flora d'Italia è contenuta una Flora d'Italia digitale che molti di noi hanno installato e di cui stiamo aspettando la chiave di attivazione. In questa dovrebbe essere contenuta una chiave dicotomica digitale di cui ti racconteremo non appena saremo in grado di sperimentarla. Ma, anche in questo caso, non mi aspetto meraviglie...

Daniela
... vediamo un po’ come fiorisci,
come ti apri, di che colore hai i petali,
quanti pistilli hai, che trucchi usi
per spargere il tuo polline e ripeterti,
se hai fioritura languida o violenta,
che portamento prendi, dove inclini,
... (Patrizia Cavalli)
MLbotanica

Re: basi di dati numerici per machine learning

Messaggio da MLbotanica »

Ciao Daniela!
Grazie per la tua esaustiva risposta, sono contento di aver preso parte a questo forum ed ancor di più per il tuo riscontro.

Andrò certamente ad approfondire i canali informativi di cui mi hai accennato, nel frattempo ho avuto modo di scaricare un abstract del metodo utilizzato dal dipartimento di scienze ed ingegneria computazionale dell'università Kingston di Londra, dove dimostra che il modello di algoritmo KNN per il riconoscimento di pattern e per la classificazione, utilizza con successo piccole serie di dati (riferito proprio al caso iris).
Hai avuto modo di fare esperienza anche su questo modello? Gli ultimi anni hanno visto ri-fiorire il machine learning e magari proprio grazie alle recentissime tecniche di classificazione sarà possibile identificare oggetti / flora molto più velocemente e con modelli più performanti. Ma forse sono guidato dall'entusiasmo del principiante :))

Acquisisco grazie a te l'aspetto delle chiavi di attivazione, non ne ho sentito parlare in precedenza, molto interessante! mi appresto ad approfondire anche su questo argomento.

Inoltre, quando dici che è necessario reperire nuovi caratteri discriminanti perché non coincidono con i precedenti, ti riferisci ad una specifica specie oppure alle varietà di una specie botanica? Perché è necessario riclassificarli?

Massimo
Avatar utente
Garabombo
Messaggi: 4873
Iscritto il: 05 apr 2010, 10:15
Nome: Cristiano
Cognome: Magni
Residenza(Prov): Milano (MI)

Re: basi di dati numerici per machine learning

Messaggio da Garabombo »

Ciao e Benvenuto!

Pur non avendo competenze (di programmazione e di floristica) paragonabili a Daniela ti rispondo:
quando dici che è necessario reperire nuovi caratteri discriminanti perché non coincidono con i precedenti, ti riferisci ad una specifica specie oppure alle varietà di una specie botanica? Perché è necessario riclassificarli?
La maggioranza delle entità non deve sopportare tali variazioni ma la minoranza che le subisce è comunque cospicua.
I motivi possono essere tanti:
- suddivisione di una entità in diverse nuove entità;
- fusione di diverse entità in una sola entità;
- scorporo di una parte di una entità in una o più nuove entità (ma con la persistenza dell'entità originaria)
- inclusione in una entità di una o più altre entità (o di parte di esse);
- perdita di affidabilità di uno o più caratteri diacritici.
Per queste eventualità la causa della riclassificazione è sempre riconducibile ad un avanzamento delle conoscenze specifiche, che non sono statiche, oppure ad un ampliamento degli areali delle entità in oggetto (o ancora a modificazioni climatiche negli areali pre-esistenti di queste entità) tali da indurre a modificazioni di alcuni elementi morfologici un tempo considerati stabili.

Inoltre in parecchi dei gruppi critici - e non solo - i caratteri diacritici per una determinazione non sono relativi alla morfologia di un particolare di un individuo ma di un discreto numero di campioni su cui applicare medie e statistica. Ancor di più: tali valori dovrebbero essere interpretati mediante griglie di caratteri, la cui presenza maggioritaria o meno determinerà la scelta di una entità piuttosto che di un altra.

Noi umani cerchiamo di comprendere l'esistente fermandolo in una fotografia ma spesso ci scordiamo che tutto è in continua evoluzione e che la fotografia (la classificazione) è un mezzo temporaneo e provvisorio che ci serve solo per meglio comprendere e memorizzare l'oggetto di studio, schematizzandolo.

:bye:
C.
"Io sono un filo d'erba / un filo d'erba che trema /E la mia Patria è dove l'erba trema.
Un alito può trapiantare / il mio seme lontano
"
rocco scotellaro
MLbotanica

Re: basi di dati numerici per machine learning

Messaggio da MLbotanica »

Ciao Cristiano,
grazie per il benvenuto e per l'esaustiva risposta al mio quesito.

Spero di essere altrettanto utile al forum in futuro.

Massimo
Rispondi

Torna a “La nostra libreria botanica”