Η Google φιλοξένησε χθες το ετήσιο συνέδριο προγραμματιστών I/O και παρουσίασε μια ολόκληρη σειρά προϊόντων τεχνητής νοημοσύνης, στα οποία περιλαμβάνονται από νέες δυνατότητες αναζήτησης και συνομιλίας στα ήδη υπάρχοντα προϊόντα της εταιρείας έως AI hardware για τους πελάτες cloud computing.
Οι ανακοινώσεις ουσιαστικά υπογραμμίζουν την εστίαση του διαδικτυακού κολοσσού στην τεχνητή νοημοσύνη καθώς επιχειρεί να αντικρούσει τις προτάσεις του ανταγωνισμού, όπως της OpenAI.
H Google αντεπιτίθεται με μηχανή αναζήτησης ΑΙ
Πολλά από τα χαρακτηριστικά ή τα εργαλεία που αποκάλυψε η Google βρίσκονται μόνο σε δοκιμαστική φάση ή περιορίζονται στους προγραμματιστές, ωστόσο δίνουν μια ιδέα για το πώς οραματίζεται η Google tην τεχνητή νοημοσύνη και πού επενδύει. Ουσιαστικά, η εταιρεία κερδίζει χρήματα από την τεχνητή νοημοσύνη χρεώνοντας τους προγραμματιστές που χρησιμοποιούν τα μοντέλα της και από πελάτες που πληρώνουν για το Gemini Advanced, τον ανταγωνιστή της στο ChatGPT , το οποίο κοστίζει 19,99 δολάρια το μήνα και μπορεί να βοηθήσει τους χρήστες να συνοψίσουν PDF, Έγγραφα Google και άλλα.
Οι ανακοινώσεις της Τρίτης ακολουθούν παρόμοιες εκδηλώσεις που πραγματοποιήθηκαν από τον ανταγωνισμό σε επίπεδο τεχνητής νοημοσύνης. Νωρίτερα αυτό το μήνα, η υποστηριζόμενη από την Amazon, Anthropic, ανακοίνωσε την πρώτη της επιχειρηματική προσφορά και μια δωρεάν εφαρμογή για iPhone. Η OpenAI τη Δευτέρα κυκλοφόρησε ένα νέο μοντέλο τεχνητής νοημοσύνης και μια έκδοση desktop του ChatGPT, μαζί με μια νέα διεπαφή χρήστη.
Όπως είπε ο διευθύνων σύμβουλος της Google, Σουντάρ Πιτσάι, «πριν ένα χρόνο, στο I/O, μοιραστήκαμε για πρώτη φορά τα σχέδιά μας για το Gemini, μια οικογένεια μοντέλων AI πολυτροπικής απεικόνισης, τα οποία είναι ικανά να συλλογίζονται χρησιμοποιώντας κείμενο, εικόνες, βίντεο, κώδικα και άλλα. Το λανσάρισμα της Gemini εποχής τον Δεκέμβριο του 2023 σηματοδότησε ένα μεγάλο βήμα στο να μπορούμε να μετατρέπουμε οποιαδήποτε “Είσοδο” σε οποιαδήποτε “Έξοδο” – ένα “I/O” (input/output) για μια νέα γενιά».
«Στο φετινό Google I/O δείξαμε πώς η Google λειτουργεί πλήρως στην εποχή του Gemini, παρουσιάζοντας καινοτόμες λύσεις AI σε προϊόντα, έρευνα και υποδομή, καθώς και πώς αυτό μας φέρνει πιο κοντά στον τελικό μας στόχο, που είναι να κάνουμε την Τεχνητή Νοημοσύνη χρήσιμη για όλους», σημείωσε το αφεντικό της Google.
«Χρησιμοποιώντας τη δύναμη του Gemini, στοχεύουμε να κάνουμε την Τεχνητή Νοημοσύνη χρήσιμη για όλους. Αποστολή της Google είναι να οργανώσει τις πληροφορίες του κόσμου από κάθε πηγή, να τις κάνει προσβάσιμες μέσω οποιουδήποτε τρόπου και να συνδυάσει τις παγκόσμιες πληροφορίες με τις δικές σας, με τρόπο που να είναι πραγματικά χρήσιμο για εσάς. Το Gemini θα μας βοηθήσει να φτάσουμε σε αυτόν τον στόχο», κατέληξε ο Σουντάρ Πιτσάι.
Τεχνολογία Gemini παντού
Πλέον, όλα τα προϊόντα της Google με περισσότερους από δύο δισεκατομμύρια χρήστες είναι φτιαγμένα με την τεχνολογία Gemini, ενώ στην παρουσιάστηκαν οι τρόποι με τους οποίους αυτο το γεγονός βοηθά στη δημιουργία νέων εμπειριών και να δημιουργηθούν νέες εμπειρίες και νέα προϊόντα. Σε αυτά περιλαμβάνονται:
- Επέκταση των AI Overviews στην Αναζήτηση. Με ένα νέο προσαρμοσμένο μοντέλο Gemini — ικανό για συλλογισμό πολλαπλών βημάτων, σχεδιασμό και πολυτροπικότητα — σε συνδυασμό με την καλύτερη Αναζήτηση στην κατηγορία, ο χρήστης θα μπορεί σύντομα να κάνει σύνθετες ερωτήσεις πολλαπλών βημάτων, να προσαρμόζει τα αποτελέσματα αναζήτησης και ακόμη και να κάνει ερωτήσεις με βίντεο [Blog Post]
- Παρουσιάζοντας το Ask Photos. Πάνω από έξι δισεκατομμύρια φωτογραφίες ανεβαίνουν κάθε μέρα στο Google Photos. Με τις πολυτροπικές δυνατότητες του Gemini, επαναπροσδιορίζεεται ο τρόπος με τον οποίο μπορεί ο χρήστης να αναζητήσει τα βίντεο και τις φωτογραφίες του. Ο τρόπος είναι απλός. Θέλεις να εντοπίσεις μια συγκεκριμένη ανάμνηση ή να ανακαλέσεις πληροφορίες που είναι κρυμμένες στη συλλογή σας; Απλά ρωτάς το Ask Photos.
- Νέοι τρόποι αλληλεπίδρασης με το Gemini στο Workspace. Οι δυνατότητες του Gemini θα επεκταθούν σε περισσότερους χρήστες και θα ενσωματωθούν στο πλαϊνό πλαίσιο του Gmail, των Docs, του Drive, των Slides και των Sheets. Επιπλέον, λειτουργίες του Gemini θα προστεθούν και στην εφαρμογή Gmail για κινητά.
- Gemini για Android. Δημιουργείται τεχνολογία AI απευθείας στο λειτουργικό σύστημα Android. Οι μαθητές μπορούν να λάβουν βοήθεια στις ασκήσεις τους κυκλώνοντας προβλήματα με το Circle to Search. Η επικάλυψη του Gemini θα παρέχει δυναμικές προτάσεις σχετικά με το τι υπάρχει στην οθόνη. Για παράδειγμα, ο χρήστης μπορεί να ζητήσει να γίνει σύνοψη ενός PDF ή να χρησιμοποιήσει την επιλογή «Ρωτήστε Αυτό το Βίντεο». Επιπλέον, το TalkBack με την υποστήριξη του Gemini θα μπορεί να παρέχει ακόμα πιο λεπτομερείς περιγραφές εικόνων.
Λανσάρισμα του Gemini 1.5 Pro
Η Google ανακοίνωσε το λανσάρισμα του Gemini 1.5 Pro στους συνδρομητές του Gemini Advanced σε περισσότερες από 35 γλώσσες, μαζί με μία σειρά ενός εκατομμυρίου ακολουθιών χαρακτήρων κειμένου που τα LLM μετατρέπουν σε αριθμητικές αναπαραστάσεις.
Σύμφωνα με την εταιρεία, το Gemini 1.5 Pro αποτελεί το μεγαλύτερο από οποιοδήποτε ευρέως διαθέσιμο chatbot για καταναλωτές σε ολόκληρο τον κόσμο. Αυτό σημαίνει ότι μπορεί να κατανοήσει περισσότερες πληροφορίες από ποτέ, όπως ένα αρχείο PDF 1.500 σελίδων, ενώ σύντομα θα μπορεί να κατανοήσει 30.000 γραμμές κώδικα καθώς και βίντεο διάρκειας μιας ώρας.
Επιπλέον, οι συνδρομητές του Gemini Advanced θα αποκτήσουν σύντομα πρόσβαση στο Live, μια νέα εμπειρία συνομιλίας μέσω κινητού. Με το Live, ο χρήστης έχει τη δυνατότητα να μιλήσει στο Gemini και να επιλέξει από μία ευρεία γκάμα διαφορετικών φωνών με φυσικό ήχο. Επίσης, ο χρήστης θα μπορεί να μιλήσει με τον δικό του ρυθμό, έχοντας τη δυνατότητα να διακόψει με ερωτήσεις, κάνοντας τις συνομιλίες πιο εύληπτες.
Το βλέμμα στο μέλλον
Ταυτόχρονα, όπως ανακοίνωσε η Google, κοιτάζει προς το μέλλον, προς τα επόμενα μοντέλα. Πιο συγκεκριμένα, κατά τη διάρκεια του I/O 2024 η εταιρεία μοιράστηκε περισσότερες λεπτομέρειες για το Gemini 1.5 Flash, ένα μοντέλο με καλή σχέση κόστους-απόδοσης, το οποίο βασίζεται κυρίως στα σχόλια των χρηστών, με μικρότερες καθυστερήσεις.
Επίσης, το Project Astra, το όραμα της Google μας για την επόμενη γενιά βοηθών Τεχνητής Νοημοσύνης, αποτελεί ένα λογισμικό που μπορεί να κατανοεί και να ανταποκρίνεται γρήγορα στις συνομιλίες.
Παράλληλα, η εταιρεία ανακοίνωσε ότι συνεργάζεται στενά με τη δημιουργική κοινότητα για διερευνηθούν οι τρόποι με τους οποίους η παραγωγική τεχνητή νοημοσύνη μπορεί να υποστηρίξει καλύτερα τη δημιουργική διαδικασία καθώς και για να διασφαλιστεί ότι τα εργαλεία για την Tεχνητή Nοημοσύνη είναι όσο το δυνατόν πιο χρήσιμα σε κάθε στάδιο.
Σε αυτό το πλαίσιο παρουσιάστηκε το Veo, το πιο ικανό μοντέλο για τη δημιουργία βίντεο υψηλής ευκρίνειας, και το Imagen 3, ένα μοντέλο, το οποίο έχει την υψηλότερη ποιότητα στη μετατροπή κειμένου σε εικόνα. Επίσης, η Google μοιράστηκε κάποιες νέες ηχογραφήσεις— με συμμετέχοντες καλλιτέχνες από όλο τον κόσμο — που έχουν δημιουργηθεί με το Music AI Sandbox.
Υποδομή τεχνολογίας
Όπως επισήμανε η Google, αυτές οι εξελίξεις στην Τεχνητή Νοημοσύνη μπορούν να υλοποιηθούν μόνο μέσω μιας πραγματικά πρωτοποριακής υποδομής τεχνολογίας ενώ παραδέχθηκε ότι η εκπαίδευση υπερσύγχρονων μοντέλων απαιτεί μεγάλη υπολογιστική ισχύ.
Με αυτά σαν δεδομένα, παρουσιάστηκε το Trillium, το TPU (Tensor Processing Units) 6ης γενιάς, ένας επεξεργαστής δηλαδή, που προσφέρει βελτίωση 4,7 φορές στην υπολογιστική απόδοση ανά τσιπ σε σύγκριση με την προηγούμενη γενιά, το TPU v5e. Το Trillium θα είναι διαθέσιμο στους πελάτες Cloud αργότερα μέσα στη χρονιά.
Τολμηρή καινοτομία
Βασικό συστατικό της τολμηρής καινοτομίας είναι η υπεύθυνη καινοτομία, σύμφωνα με την Google. Έτσι, αναπτύχθηκε μια τεχνολογία αιχμής που ονομάζεται «AI-assisted red teaming» και βασίζεται σε καινοτόμα χαρακτηριστικά παιχνιδιών που έχει αναπτύξει η Google DeepMind, όπως το AlphaGo, επεκτείνοντας τις τεχνικές καινοτομίες υδατογράφησης, όπως το SynthID, σε δύο νέες μορφές – κείμενο και βίντεο- έτσι ώστε το περιεχόμενο που δημιουργείται από AI να είναι πιο εύκολο να εντοπιστεί.
Πηγή: ot.gr