Gegevensbeheer is een van de meest uitdagende aspecten van de moderne scheikunde. Bij het synthetiseren van een nieuwe verbinding zullen wetenschappers bijvoorbeeld meerdere trial-and-error-pogingen ondergaan om de juiste omstandigheden voor de reactie te vinden, waarbij ze enorme hoeveelheden onbewerkte gegevens produceren. Deze gegevens zijn ongelooflijk waardevol, omdat algoritmen voor machine learning, net als mensen, veel kunnen leren van mislukte en gedeeltelijk succesvolle experimenten.
De de huidige praktijk Alleen de meest succesvolle proeven worden echter gepubliceerd, aangezien geen mens het enorme aantal mislukte proeven doelbewust kan verwerken. Maar kunstmatige intelligentie is dat niet. Dit is precies wat deze machine learning-methoden kunnen doen, op voorwaarde dat de gegevens worden opgeslagen in een geautomatiseerd uitvoerbaar formaat dat iedereen kan gebruiken.
“We hebben lange tijd informatie moeten comprimeren vanwege het beperkte aantal pagina’s in gedrukte tijdschriftartikelen”, zegt professor Bernd Smit, die leiding geeft aan het Molecular Simulation Laboratory van EPFL Valais Wallis. Tegenwoordig hebben veel tijdschriften geen gedrukte edities meer, maar scheikundigen hebben nog steeds problemen met reproduceerbaarheid omdat belangrijke details in tijdschriftartikelen ontbreken.Onderzoekers verspillen tijd en middelen aan het herhalen van de ‘mislukte’ experimenten van de auteurs en worstelen om bovenop gepubliceerde resultaten te bouwen waar ruwe data zelden wordt gepubliceerd.”
Maar grootte is hier niet het enige probleem; Datadiversiteit is een andere zaak: onderzoeksgroepen gebruiken verschillende tools zoals de Electronic Lab Notebook-software, die data opslaat in propriëtaire formaten die soms niet met elkaar overeenkomen. Dit gebrek aan standaardisatie maakt het voor groepen bijna onmogelijk om gegevens te delen.
Nu hebben Smit met EPFL’s Luc Patini en Kevin Jablonka een perspectief gepost op natuur chemie Indienen open platform Voor de hele chemie-workflow: van de start van het project tot de publicatie ervan.
De wetenschappers stellen zich voor dat het platform “soepel” drie cruciale stappen integreert: GegevensverzamelingEn de Gegevensverwerkingen verspreiding van gegevens — alles tegen minimale kosten voor onderzoekers. Uitgangspunt is dat gegevens eerlijk moeten zijn: gemakkelijk vindbaar, toegankelijk, interoperabel en herbruikbaar. “Op het moment van dataverzameling worden de data automatisch geconverteerd naar een standaard FAIR-formaat, waardoor het mogelijk wordt om automatisch alle ‘mislukte’ en deels geslaagde proeven bij de meest succesvolle proef te publiceren”, zegt Smit.
Maar de auteurs gaan verder en suggereren dat de gegevens moeten worden geautomatiseerd. “We zien steeds meer data science-onderzoeken in de chemie”, zegt Jablonka. “Recente bevindingen op het gebied van machine learning proberen zelfs een aantal problemen aan te pakken waarvan chemici denken dat ze onoplosbaar zijn. Onze groep heeft bijvoorbeeld enorme vooruitgang geboekt bij het voorspellen van optimale reactieomstandigheden met behulp van machine learning-modellen. Maar deze modellen zouden waardevoller zijn als ze konden leren Ook reactiecondities die mislukken, maar verder bevooroordeeld blijven omdat alleen succesvolle condities worden gepubliceerd.”
Ten slotte stellen de auteurs vijf concrete stappen voor die het veld moet nemen om een FAIR datamanagementplan op te stellen:
- De chemiegemeenschap moet haar huidige normen en oplossingen omarmen.
- Tijdschriften moeten het deponeren van herbruikbare onbewerkte gegevens, waar gemeenschapsnormen bestaan, verplicht stellen.
- We moeten de publicatie van “mislukte” experimenten omarmen.
- Het gebruik van elektronische laboratoriumnotitieboekjes waarmee niet alle gegevens kunnen worden geëxporteerd naar een open vorm die op het apparaat kan worden uitgevoerd, moet worden vermeden.
- Data-intensief onderzoek moet in ons curriculum komen.
“Wij geloven dat het niet nodig is om nieuwe bestandsformaten of technologieën uit te vinden”, zegt Patini. “In principe is alle technologie er en moeten we bestaande technologieën omarmen en interoperabel maken.”
De auteurs wijzen er ook op dat het simpelweg opslaan van gegevens in een elektronisch lab-notebook – de huidige trend – niet noodzakelijkerwijs betekent dat mensen en machines de gegevens opnieuw kunnen gebruiken. In plaats daarvan moeten de gegevens in een gestandaardiseerd formaat worden georganiseerd en gepubliceerd en moeten ze ook voldoende context bevatten om gegevensgestuurd handelen mogelijk te maken.
“Ons perspectief geeft inzicht in wat volgens ons de belangrijkste ingrediënten zijn bij het overbruggen van de kloof tussen data en machine learning voor fundamentele problemen in de chemie”, zegt Smit. “Ook bieden we een open wetenschappelijke oplossing waarin EPFL het voortouw kan nemen.”
Luc Patini, De collectieve kennis van chemie open en machinaal uitvoerbaar maken, natuur chemie (2022). DOI: 10.1038 / s41557-022-00910-7. www.nature.com/articles/s41557-022-00910-7
Introductie van
Federale Polytechnische School van Lausanne
de Quote: Chemical Data Management: An Open Road Ahead (2022, 4 april) Ontvangen op 4 april 2022 van https://phys.org/news/2022-04-chemical.html
Op dit document rust copyright. Niettegenstaande elke eerlijke handel met het oog op eigen studie of onderzoek, mag geen enkel deel worden gereproduceerd zonder schriftelijke toestemming. De inhoud is uitsluitend bedoeld voor informatieve doeleinden.
“Reizende ninja. Onruststoker. Spekonderzoeker. Expert in extreme alcohol. Verdediger van zombies.”
More Stories
China is van plan het Tiangong-ruimtestation uit te breiden; Stel deze in op “Space Rule” omdat het ISS wordt uitgeschakeld
De Verenigde Staten detecteren het eerste geval van de H5N1-vogelgriep bij een varken, wat aanleiding geeft tot bezorgdheid voor de mens
NASA zal in 2025 de ruimtewandelingen aan boord van het internationale ruimtestation hervatten na een lek in het ruimtepak