დრამის კოდირება TEI სტანდარტით - ძალიან მოკლე გზამკვლევი
- რა საჭიროა დრამატული ტექსტების კოდირება?
- რა არის ამგვარი კვლევის საფუძველი?
ამ კითხვებზე პასუხის გასაცემად უნდა ვუპასუხოთ ძირითად კითხვას:
- საერთოდ, რა საჭიროა ნებისმიერი წერილობითი ტექსტის კოდირება?
ადამიანის ინტელექტისთვის მარტივია წერილობით ტექსტში სხვადასხვა ტიპის ინფორმაციის ერთმანეთისგან გამიჯვნა: ადამიანური ინტელექტი ერთმანეთისგან ასხვავებს ავტორის სახელსა და გვარს, სათაურს, გამომცემლობასა თუ გამოცემის წელს, ასევე სხვადასხვა ტექსტობრივ მონაცემს - გეოგრაფიულ/პირთა სახელებს თუ პროფესიულ და სხვაგვარ ლექსიკურ ერთეულებს.
ეს ეხება როგორც დოკუმენტურ და იურიდიულ, ასევე მხატვრულ ტექსტებსაც.
თუმცა ზემოთ ნახსენები ინფორმაციის იდენტიფიცირება (ვთქვათ, აი, ეს არის სახელი, ეს არის გამოცემის წელი) და კლასიფიცირება (ვთქვათ, ეს ერთიანდება გეოგრაფიულ ლექსიკურ ერთეულებში) არ შეუძლია ხელოვნურ ინტელექტს;
ხელოვნური ინტელექტისთვის ტექსტი ერთი დიდი მთლიანობაა, არაიდენტიფიცირებად ნიშანთა ერთობლიობაა, რომელთა სახელდებისთვის საჭიროა ადამიანური ინტელექტი, ერთგვარი შუამავალი ინსტანცია ტექსტსა და ხელოვნურ ინტელექტს შორის, რომელიც ამ უკანასკნელს „დაეხმარება“ ცარიელი, უშინაარსო ტექსტობრივი ელემენტების ღირებულ-სახელდებულ ელემენტებად ტრანსფორმირებაში.
შესაბამისად, თუკი ჩვენი მიზანია ხელოვნური ინტელექტის დახმარებით შევაგროვოთ მონაცემები მათი მეცნიერული ინტერპრეტირებისთვის, ამისთვის თავდაპირველად თავად ჩვენ უნდა დავეხმაროთ ხელოვნურ ინტელექტს ტექსტობრივი მონაცემისთვის შესაბამისი სტატუსის მინიჭებაში, მის ანოტირებაში.
მაგალითისთვის, სატიტულო გვერდზე არსებული სიტყვათა თანმიმდევრობა „ კაცი რომელსაც ლიტერატურა ძლიერ უყვარდა“ ხელოვნური ინტელექტისთვის უშინაარსო ელემენტთა ერთობლიობაა; ხელოვნური ინტელექტი მითითების გარეშე ვერ შეძლებს ამ ელემენტებისთვის სახელის დარქმევას. ეს ევალება სპეციალისტს: მან უნდა მიანიჭოს ტექსტობრივ ელემენტს სტატუსი და, ამ კონკრეტულ შემთხვევაში, ხელოვნურ ინტელექტს მიუთითოს, რომ ეს სათაურია; ამგვარად უნდა მოვიქცეთ ავტორის სახელისა და გვარის, გამოცემის ადგილის და სხვა ჩვენი კვლევისთვის საინტერესო მონაცემების კოდირებისას/ანოტირებისას.
სიტყვა კოდირებაც - რაც ჰუმანიტარული სფეროს წარმომადგენლებისთვის, შესაძლოა, უცხოდ ჟღერდეს - სწორედ ტექსტობრივი მონაცემისთვის შესაბამისი სტატუსის მინიჭებას, ანოტირებას გულისხმობს.
კოდირების პროცესი ამგვარია: მას შემდეგ, რაც მკვლევარი განსაზღვრავს თავისი კვლევის მიზანს და გააანალიზებს რა ტიპის ტექსტობრივი მონაცემები სჭირდება, იგი სასურველ ტექსტს თავისი მეცნიერული ინტერესის შესაბამისად ხელახლა კითხულობს და კითხვის პროცესში კვლევისთვის მნიშვნელოვან ტექსტობრივ მონაცემს შესაბამის სახელს არქმევს ე.წ. „თეგების“ საშუალებით.
ანოტირების/კოდირების შემდეგ ხელოვნური ინტელექტი ანოტირებული/კოდირებული ელემენტების იდენტიფიცირებას შეძლებს და მონაცემების შეგროვება შესაძლებელი გახდება.
უკვე ნათელია, რომ ტექსტობრივი მონაცემების კოდირება საჭიროა, თუმცა მას მოსდევს შემდეგი კითხვები:
- როგორ და სად უნდა შევძლოთ ტექსტების კოდირება?
- რით უნდა ვიხელმძღვანელოთ ტექსტების კოდირებისას?
ტექსტების კოდირება ნებისმიერ პროგრამაში არ არის შესაძლებელი. კოდირებას ვერ შევძლებთ, ვთქვათ, WORD-ის დოკუმენტში. ამისთვის არსებობს სხვადასხვა „ნოუთბუქი“ - კოდირებისთვის განკუთვნილი სპეციალური სამუშაო სივრცე - ჩვენ რეკომენდაციას ვუწევთ “Oxygen”-ს.
კოდირებისთვის განკუთვნილ ტექსტს აქვს განსხვავებული/სპეციფიკური ფორმა - „ნოუთბუქში“ ანოტირებისთვის განკუთვნილი ტექსტი წარმოდგენილი უნდა იყოს XML ფორმატში.
ვინაიდან მეცნიერება ემსახურება ცოდნის გაზიარებას და სამეცნიერო კვლევა დარგის ყველა სპეციალისტისთვის აღსაქმელი უნდა იყოს, გაუგებრობების თავიდან ასაცილებლად არსებობს საერთაშორისოდ აღიარებული სტანდარტები, რომლებსაც დარგის სპეციალისტები იცნობენ.
კოდირებისას ამგვარ სტანდარტს გვთავაზობს TEI – Text Encoding Initiative.
დრამის კოდირებისას სწორედ ამ სტანდარტით უნდა ვიხელმძღვანელოთ.
თუმცა მანამდე პასუხი უნდა გაეცეს კითხვას, რომელიც უკვე არც ისეთი ბუნდოვანი უნდა იყოს:
რა საჭიროა დრამის კოდირება?
დრამის კოდირება საჭიროა, რადგან დრამატული ნაწარმოები, სანამ სცენაზე დაიდგმება, წერილობითი ფორმით არის გადმოცემული და მოიცავს მრავალგვარ ტექსტობრივ ინფორმაციას, რომელსაც დაზუსტება სჭირდება.
შესაბამისად, თუკი მკვლევარს განზრახული აქვს სამეცნიერო მიზნის შესაბამისად დრამატულ ნაწარმოებში შეაგროვოს ესა თუ ის ტექსტობრივი ინფორმაცია, მას თავდაპირველად ტექსტის ანოტირება/კოდირება მოუწევს.
- რა ტიპის მონაცემები შესაძლოა დასჭირდეს მკლევარს დრამატულ ნაწარმოებში?
ანოტირებისას შესაძლებელია დადგინდეს:
- რომელი პერსონაჟი საუბრობს ყველაზე ხშირად და რა ინტენსივობით;
- რომელი პერსონაჟი არის ნახსენები ყველაზე ხშირად, ან ყველაზე იშვიათად;
- რა ტიპის ლექსიკურ ერთეულებს იყენებენ პერსონაჟები და რა ინტენსივობით: ჟარგონებს, ევფემიზმებს, ბარბარიზმებს თუ რომელიმე კონკრეტულ ერთეულს;
- რომელი გეოგრაფიული სახელები და სხვ. მისთანები არის ტექსტში ნახსენები;
- რა ინტენსივობით ერთვება დრამატურგი პიესაში სხვადასხვა ტიპის კომენტარით და ა.შ.
მართალია, დრამატული ნაწარმოები სხვა ლიტერატურული გვარების მსგავს ტექსტობრივ მონაცემებს მოიცავს (სათაურს, პერსონაჟთა სახელებს...), თუმცა ჟანრობრივი განსხვავება კოდირების დროსაც გასათვალისწინებელია.
დრამის სპეციფიკური ფორმა, მისი სტრუქტურა, კოდირების განსხვავებულ მოდელს საჭიროებს.
დრამის სტრუქტურა განსხვავებულია, მასში გამოიყოფა:
აქტები
სცენები
set აღწერები
პერსონაჟთა სიტყვები
სასცენო მითითებები
ტექნიკური მითითებები
გარდა ამისა, დრამატულ ნაწარმოებში წარმოდგენილია პერსონაჟთა სია.
თითოეული მათგანის ანოტირება შესაბამისი თეგით (ანოტირების ატრიბუტით) ხდება.
ილუსტრირებისთვის სათითაოდ წარმოვადგინოთ სხვადასხვა თეგი შესაბამისი მაგალითის მოხმობით.
- ელემენტი N1 - <body> </body>
როგორც სხვა ჟანრის ტექსტების ანოტირებისას, დრამის შემთხვევაშიც, ტექსტის ძირითადი ნაწილი მოქცეულია <body> </body> ელემენტებს შორის.
<body> </body> ელემენტებს შორის არის წარმოდგენილი სცენები და აქტები, რომლებიც მოიცავს პერსონაჟთა სიტყვებს, სასცენო მითითებებსა და ტექნიკურ მითითებებს.
- ელემენტი N2 - <div> </div>
სცენებისა და აქტების მისათითებლად, ორივე შემთხვევაში, უნდა გამოვიყენოთ ელემენტი
<div> </div>.
სცენისა და აქტის ერთმანეთისგან გასამიჯნად, <div> </div> ელემენტის გამოყენებისას უნდა მივუთითოთ ატრიბუტი type.
შესაბამისად, სწორი კოდი დაიწერება შემდეგნაირად:
აქტისთვის: <div type=”act” > </div>.
სცენისთვის: <div type=”scene” > </div>.
არ უნდა დაგვავიწყდეს, რომ ატრიბუტი იწერება მხოლოდ საწყისი თეგის შემდეგ, დამხურავ თეგთან ატრიბუტის მითითება არასწორია.
- ელემენტი N3 - <head> </head>
იმ შემთხვევაში, თუკი სხვადასხვა სცენას აქვს სათაური, როგორც სხვა ჟანრების შემთხვევაში, დრამატული ტექსტების სათაურიც მოექცევა <head> </head> ელემენტებს შორის.
- ელემენტი N4, 4.1, 4.2, 4.3, 4.4 - <sp> </sp/ who=”#”
<speaker> </speaker>
<p> </p>
<l> </l>
<lg> </lg>
პერსონაჟის სიტყვა თავსდება <sp> </sp/ ელემენტებს შორის.
თუმცა აუცილებელია, რომ ამ ელემენტს შორის ჩავსვათ მეორე ელემენტი, რომელიც დააზუსტებს პერსონაჟის სიტყვის სახეობას შესაბამისი <p> (პარაგრაფი, თხრობითი ტექსტი) <l> (სალექსო სტრიქონი) ან <ab> (anonymous block) ელემენტებით.
<speaker> </speaker> ელემენტებს შორის თავსდება პერსონაჟის სახელი.
წარმოთქმული ტექსტის ავტორი შესაძლოა <sp> გამხსნელი ელემენტის შემდეგაც მივუთითოთ who=”#” ატრიბუტის გამოყენებით.
- ელემენტი N5 - <stage> </stage>
სასცენო მითითებები უნდა მოთავსდეს ელემენტში <stage> </stage>.
მითითებების ტიპის მარკირებისთვის გამოიყენება ატრიბუტი type. როგორც ყოველთვის, ატრიბუტი იწერება მხოლოდ გამხსნელ თეგთან.
ამგვარი მითითებებია:
type="setting"
type="technical"
type="entrance“
type="gesture"
type="exit"
- ელემენტი N6 - <move> ცარიელი ელემენტი
<move> ცარიელი ელემენტი გამოიყენება პერსონაჟის მოძრაობის მარკირებისთვის.
აქ ინფორმაციის დასაზუსტებლად რამდენიმე ატრიბუტი გამოიყენება:
who - აზუსტებს ვინ ასრულებს მოქმედებას
type - აზუსტებს ტიპს, entrance, exit, onstage
where - აზუსტებს სად ხდება მოქმედება ( C – center, L – left, R – right)
- ელემენტი N7 - <sound> </sound>
ხმის მარკირებისთვის არსებობს <sound> </sound> ელემენტი.
ხმის ტიპის განსაზღვრისთვის გამოიყენება ატრიბუტი type.
- ელემენტები N8, 9, 10 - <view> </view>
<camera> </camera>
<caption> </caption>
<tech> </tech>
ტექსტის TEI სტანდარტით კოდირების ძირითადი წესი, დრამატული ტექსტების
ანოტირების დროსაც უცვლელია:
თეგების ერთბლიობა ჰგავს სლავურ სათამაშოს, ყველაზე დიდი თეგი აერთიანებს ყველა სხვა დანარჩენს, თეგები რკალურად უკავშირდება ერთმანეთს, ხოლო საანოტაციო ტექსტი ცენტრში/მათ შორის არის მოთავსებული.
მნიშვნელოვანია, სწორად შეირჩეს თეგები და დაცულ-იქნას მართლწერა.
და, რაც მნიშვნელოვანია, საშიში არაფერია! Oxygen-ში მუშაობისას ედითორი თავად გვიწევს ხელმძღვანელობას და შეცდომის/ხარვეზის იდენტიფიცირების გარდა მცირე კომენტარსაც ურთავს მის გამოსასწორებლად.
წყაროები:
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/DR.html